回顧網站分析歷史,從“您是第***位來訪用戶”到現在百家齊放的專業工具提供商,網站分析已經逐漸發展衍化成一門科學。但面對形態各異的分析數據,很多人仍然困惑於數據的來源,了解網站分析數據的收集原理,也許對你解決這些困惑有所幫助。
眼下網站分析數據主要有三種收集方式:Web日志、JavaScript標記和包嗅探器。
1. Web日志
下圖是Web日志收集數據過程的示意圖。
從上圖可以看出網站分析數據的收集從網站訪問者輸入URL向網站服務器發出http請求就開始了。網站服務器接收到請求後會在自己的Log文件中追加一條記錄,記錄內容包括:遠程主機名(或者是IP地址)、登錄名、登錄全名、發請求的日期、發請求的時間、請求的詳細(包括請求的方法、地址、協議)、請求返回的狀態、請求文檔的大小。隨後網站服務器將頁面返回到訪問者的浏覽器內得以展現。
一些專業的工具廠商會有專門的處理服務器對大量的Log數據進行處理,並將處理後的數據存放入自己的數據庫中。網站經營人員通過訪問分析報表系統查看網站的分析數據。也有一些中小網站主出於成本的考慮不會求助於專業的工具廠商,他們會借助簡單的網站日志分析軟件完成對Log數據的處理,當然處理後的數據會有一定的局限性。
2. JavaScript標記
下圖是JavaScript標記收集數據過程的示意圖。
上圖所示JavaScript標記同Web日志收集數據一樣,從網站訪問者發出http請求開始。不同的是,JavaScript標記返回給訪問者的網頁代碼中會包含一段特殊的JavaScript代碼,當頁面展示的同時這段代碼也得以執行。這段代碼會從訪問者的Cookie中取得詳細信息(訪問時間、浏覽器信息、工具廠商賦予當前訪問者的userID等)並發送到工具商的數據收集服務器。數據收集服務器對收集到的數據處理後存入數據庫中。網站經營人員通過訪問分析報表系統查看這些數據。
JavaScript標記以其快捷性和精確性已經得到大多數工具廠商的青睐,已經發展成為當前最為流行的數據收集方式。
3. 包嗅探器
下圖是包嗅探器收集數據過程的示意圖。
上圖可以看出網站訪問者發出的請求到達網站服務器之前,會先經過包嗅探器,然後包嗅探器才會將請求發送到網站服務器。包嗅探器收集到的數據經過工具廠商的處理服務器後存入數據庫。隨後網站經營人員就可以通過分析報表系統看到這些數據。
4. 數據收集方式的優劣比較
沒有一種數據收集方式是完美無缺的,不同數據收集方式也決定了各自的特性,了解不同收集方式的優劣所在,會對工具的選擇也有一定的指導作用。
下表是三種數據收集方式的優劣比較詳細:
決定選擇采用哪種數據收集方式之前,你需要先了解自己的需求。如果你不想自己網站的流量數據被任何第三方獲取,那麼Web日志無疑是你的最佳選擇了。但想得到更貼近網站訪問者行為的精確數據,還是需要采用JavaScript標記收集數據。這種數據收集方式不僅可以對緩存訪問、代理訪問正確記錄,而且可以通過Cookie對獨立訪問者進行更為精確的定位。
當然也有一些網站為了獲得多方面的數據而同時采取多種數據收集方式。例如采用JavaScript標記收集精確數據的同時,為了搜索引擎優化對Web日志中的搜索引擎爬蟲記錄也進行分析。也有已經采用包嗅探器收集數據,但為獲取緩存訪問而同時進行JavaScript標記。
采取何種數據收集方式也就很大程度決定了分析工具的選擇,但僅僅從這一個方面考慮工具如何選擇還是不夠的,後面的內容會詳細介紹在選擇工具前,你都需要從工具提供商那裡了解哪些技術參數來幫助你做出理智的判斷。