Urchin 的報告數據存儲在各個配置文件所獨有的每月數據庫中(注:Urchin分析後的數據是按月歸檔),這些數據庫一般位於 Urchin 的 data/reports 目錄下。每個配置經過處理的數據庫大小為原日志大小的5% 至10%。
默認情況下,Urchin 會保留每月的這些配置文件數據庫,但經過長時間的數據積累數據量會變大,導致Urchin處理後的數據占用空間越來越大,並且在用戶查看時也會降低Urchin的響應效率。因此,需要優化Urchin 配置文件每月數據庫的磁盤存儲空間。
優化 Urchin 配置文件每月數據庫的磁盤存儲空間的方法通常有以下五種:
1.將配置文件設置為,在處理日志後自動刪除原始跟蹤數據
2.設置配置文件以存檔歷史記錄數據
3.限制保留歷史記錄報告數據的月份數。
4.壓縮配置文件數據庫。
5.合理設置數據庫自動備份。
方法 1:在處理日志後,刪除原始跟蹤數據
可對配置文件加以配置,以便在處理完成後刪除原始訪問者和會話信息。這可改善大型網站的性能,降低所存儲的數據量。請注意:選擇此配置後,跨日期的會話會顯示為兩個會話(一天一個會話),而不是一個會話。對大部分網站來說,結果中的差異可以忽略不計。
對配置文件加以配置,以便在處理完成後刪除原始訪問者和會話信息:
1.在管理界面中,點擊”配置”,然後再點擊”Urchin 配置文件”–》”配置文件”。
2.修改所需配置文件。
3.在”存儲/數據庫”標簽中,將”保留原始跟蹤數據”字段設為”關閉”。
4.點擊”更新”。
方法 2:自動存檔歷史記錄數據
可對配置文件加以配置,將每月歷史記錄數據壓縮到存檔文件中。報告可以查看存檔的數據,但不會再為已存檔的月份處理額外的點擊。
對配置文件加以配置以存檔歷史記錄數據:
1.在管理界面中,點擊”配置”,然後再點擊”Urchin 配置文件”–》”配置文件”。
2.修改所需配置文件。
3.在”存儲/數據庫”標簽中,將”存檔數據庫”字段設為”打開”。
4.為”在此後存檔數據庫”字段指定月份數字(此選項指定數據保留多少個月後開始自動存檔)。
5.點擊”更新”。
方法 3:定期移除不用的配置文件數據
Urchin配置文件data/reports/profile-name”目錄下的數據是可以移動的,因此對於不使用的數據信息定期移除移除即可。這是最簡單直接的方法,建議通過自動腳本實現。
方法 4:壓縮配置文件數據庫
將舊的 Urchin 每月數據庫壓縮所產生存檔的大小一般只有未壓縮前數據庫集的 20% 到 30% 左右。雖然 Urchin 報告引擎無法直接讀取 ZIP 存檔,但它可隨時從 ZIP 存檔中提取所需數據庫。報告引擎不會刪除已解壓縮的數據庫,這可提高用戶查看 Urchin 報告時對數據的訪問速度。不過,原始的 ZIP 存檔會保留在原處,因此定期清除操作可直接刪除解壓縮後的數據庫,以重新獲取磁盤空間。
方法5:合理設置數據庫自動備份
數據庫備份和清除功能提供了對配置文件備份信息的設置:
1.啟用自動回滾數據庫,如果處理過程中途停止或中斷,數據可以自動得到修復。Urchin 會自動檢測到這種情況並將數據回滾到最近的備份(如果有),然後再繼續。
2.清除備份,使用此選項可以根據需保留在下一選項中的備份的數量,自動清除以前的備份。如果啟用此功能,Urchin 將自動刪除以前的備份,以控制存儲量。
3.要保留的備份數,此選項可為上述清除功能指定每月保留的備份數量。
通常從優化服務器占用空間的角度考慮會關閉備份所有功能,但從配置文件運行安全角度考慮,可以啟用備份功能。
Urchin 數據庫存儲技術概述
對於每個 Urchin 配置文件,Urchin 會在名為 YYYYMM(年月) 的目錄下,維護每月存儲的一組數據庫文件。這些目錄分別包含約 50 個為報告引擎提供數據的文件。這些目錄和數據庫文件以其存儲數據的月份來命名。完整的數據庫列表是:
YYYYMM-uhed –> 數據庫標頭
YYYYMM-usti –> 字符串索引
YYYYMM-ustd –> 字符串數據
YYYYMM-udai –> 匯總表索引
YYYYMM-udXX –> 匯總數據表(XX 由數據地圖的表編號替換)。
YYYYMM-uvii –> 訪問者索引
YYYYMM-uvid –> 訪問者數據
YYYYMM-used –> 會話數據
YYYYMM-upad –> 路徑數據
YYYYMM-utrd –> 交易數據 (Ecommerce)
YYYYMM-uitd –> 項目數據 (Ecommerce)
YYYYMM-ulti –> 日志跟蹤索引
YYYYMM-ultd –> 日志跟蹤數據
YYYYMM-utod –> 總計數據
YYYYMM-uhid –> 柱狀圖數據
YYYYMM-umad –> 訪問者矩陣數據
每一組數據庫對於所包含數據的月份來說都是完整的。因為每月的數據庫集之間並無相關性,因此可對每個數據庫集獨立進行存檔和修剪操作,其他月份的數據不會受到影響。
正常操作下會保留每個月的整套月份數據庫文件。不過,Urchin 日志處理引擎只會使用這些數據庫文件的 4 個文件。這些數據庫文件是:
YYYYMM-usti
YYYYMM-udai
YYYYMM-ulti
YYYYMM-ultd
Urchin 日志處理引擎會使用下列數據庫文件處理跨群體和訪問者深入查看報告。刪除這些內容僅會影響到這些報告功能。
YYYYMM-uvii
YYYYMM-uvid
YYYYMM-used
YYYYMM-upad
YYYYMM-utrd
YYYYMM-uitd
這些數據庫包含有關訪問者、會話、路徑、交易和產品的信息。這些文件會使用當月所需總存儲空間的某個百分比,大約 10% 到 50% 左右。因此,如果將”配置文件配置”的”存儲/數據庫”屏幕的”保留原始跟蹤數據”選項設為關閉的話,即可贏得較大的磁盤空間。
建議只有訪問量極高、保留原始跟蹤數據會造成磁盤或 CPU 資源消耗問題的網站,才停用”保留原始跟蹤數據”選項。
文章來源:搜索營銷藝術