我們經常看到某某行業,某某公司的平均工資是每年20萬什麼的,然後如果恰恰自己又在這個行業中,看看自己的工資條,有些人會不會感到有點迷惑和不滿?其實這些都是騙人的統計方式造成的。
如果一個公司有200人,普通員工180人,工資月薪3500元;管理層員工19人,月薪假設平均為5000元;老總1人月薪是20萬;那麼該公司的平均月薪是13625元,員工一年的平均工資十幾萬了,可是實際情況卻並不是像數據顯示的這樣。
或者我們的網站改版了,視覺變化了,或者交互功能變化了,日點擊量或訪問量比未改版前提高20萬次,那麼是否可以根據這個升高的數據說明我們的改版是成功的?顯然通過上面的例子我們不能如此簡單的處理數據,並得出結論。
今天,我們就一起來討論一些簡單實用的統計方法,幫助我們在工作中更好的理解數據的意義。從Z分數、T檢驗、X2檢驗、方差分析到回歸方程等,基礎的統計方法就有很多種,究竟該用哪種好呢?我個人覺得傳統的統計教材沒意思的原因就是書中講述的概念過多,脫離現實談統計,實在不好理解,或者學過就忘記,或者遇到問題不會用。如果能結合各種實例,應該就會變得更加清晰了。所以,這裡我們依靠一些例子來介紹一些常用的統計方法及適用范圍,歡迎大家批評指導。
還拿我們上面的例子來說,一個網站改版了,新版的頁面沒有改變原來的交互操作,只是改變了視覺樣式,用戶訪問量和點擊量變化了,這些變化是好是壞?
首先我們來進行一下分析:
1我們已知的是改版前後點擊量的數據和用戶訪問量的數據
2 我們想知道這個變化是好是壞
要怎麼做?算一下改版前後用戶的百分比和點擊量的百分,如果改版後用戶量下降了,點擊量下降了是不是改版就不成功?顯然我們不能如此簡單的看問題。要比較這兩個樣本,我們可以使用T檢驗。
T檢驗(Student’s t test)是用於小樣本(樣本容量小於30,總體標准差σ未知的正態分布)的兩個平均值差異程度的檢驗方法。
但是T檢驗需要方差齊性決定結果,不過別擔心,統計軟件會幫我們進行校驗。
好,我們把采集的數據輸入(這個不用我講了吧,txt文件就行)到統計軟件中,然後進行配對樣本T檢驗(相當於對於一個處理進行前後測,所以使用配對樣本T檢驗),得到結果如下表(用spss做的,數據是我編的):
我們只關注黃色部分就可以了,其中第一項是均值,std是標准差,t值,df代表自由度,sig為p值,在本例中,我的置信區間是95%,所以如果 sig《.05就代表差異顯著。從表上看,改版前後點擊量和用戶數兩項上差異並不顯著,所以我們可以認為這次改版至少沒引起什麼不良的影響。
也許有人會覺得得出這樣一個無關痛癢的結論沒意思,但是請大家想一想,與其單存因為數據量上的增加或減少就興高采烈的去邀功或者垂頭喪氣的准備修改方案,也許真實的統計數據更能說明問題,可以讓我們靜下心,思考一下,應該如何改進我們的工作。
當然現實問題往往更復雜,僅就改版為例,我們需要考慮很多問題,例如:
1 改變了哪些內容? 外觀還是交互方式?或者外觀+交互方式?布局有什麼變化?交互方式的變化對用戶完成一個任務所需的步驟或點擊次數是否有改變?
2 改版前的數據采集了多少天?改版後的數據采集了多少天?
3 改版前後的時期在每一年的相應劫奪,用戶的訪問量是否有顯著變化?趨勢是怎樣的?
…
在這裡我只是僅僅舉了一個簡單的例子和大家分享一下統計學的思想。
Statistics are like a bikini. What they reveal is interesting. But what they hide is vital.
本文作者:went
文章來源:攜程UED