萬盛學電腦網

 萬盛學電腦網 >> 電腦基本常識 >> 網站推薦系統分析:推薦系統絕對不會向你推薦什麼

網站推薦系統分析:推薦系統絕對不會向你推薦什麼

class="area">  不要以為你可以上淘寶“偷偷”看一下情色物品,你在網站上做的一切都逃不過系統的眼睛。為了猜中你的心思,推薦算法需要盡可能多的采集你的數據,從而確定你真正喜歡什麼。當然,這還是為了贏取你的信任,讓在線零售商賺更多的錢。

  

 

  來源:yoochoose.com

  (文/Joseph A. Konstan & John Riedl) 講完了推薦算法是如何“猜你喜歡”的 ,現在,你對於每回上網購物時在線零售商是如何打量你,並努力把你的喜好和其他人的相匹配有了一個基本的概念。

  推薦系統還有另外兩大特點,也對你最終看到的推薦結果有著顯著的影響:第一,在弄清楚你和其他購物者的相似度有多高之前,推薦系統必須先弄明白你真正喜歡什麼;第二,推薦系統依照一組商業規則運行,以確保推薦結果既讓你覺得有用,也使商家有利可圖。

  推薦算法是如何贏得你的信任,又讓商家有錢可賺的?

  采集你的上網數據

  舉個例子,來看亞馬遜的藝術品商店,上次我們去看的時候那裡有 900 多萬冊印刷品和海報在降價促銷。亞馬遜的藝術品商店有這樣幾個方法來評估你的喜好。它會讓你在 1 到 5 顆星的等級上給某一件藝術作品打分,它也會記錄下你把哪些畫點擊放大了來看、哪些畫你反反復復看了好多次,你把哪些放進了心願單,還有你最終實際下單買了什麼。它還會追蹤在你浏覽過的每一個頁面上都顯示了哪些畫作。在線零售商會使用你在其網站行進的路徑(你浏覽過的頁面和點擊商品的鏈接) 來向你推薦相關聯的商品。此外,它還把你的購買記錄和打分信息結合起來,建立一個你長期購買偏好的檔案。

  像亞馬遜這樣的公司會收集大量此類有關客戶的數據。在你登錄期間,你在它網站上的幾乎每一個動作都會被記下來,留作將來使用。多虧有了浏覽器 cookie,連匿名購物者的上網記錄商家也能維持,最終這些數據將在匿名購物者創建賬戶或者登陸時,鏈接到顧客的個人資料。這種爆炸式的數據采集並非為在線商家所獨有,沃爾瑪便以其對現金收據數據的深入挖掘而著稱於業界。但是,網上商店處在一個更有利的位置去查看和記錄,不止是消費者買了些什麼,還包括你曾考慮過、浏覽過和決定不買哪些商品。在全世界大部分地區,所有這類活動都是任人監視和記錄的;只有在歐洲,數據隱私法在一定程度上限制了這種操作。

  當然,不論法律如何,顧客發現自己的數據被人濫用後,都會產生強烈的抵觸情緒。早在 2000 年 9 月,亞馬遜吃過一次苦頭:有一部分顧客發現他們收到的報價更高,因為網站將他們識別為老顧客,而不是匿名進入或是從某個比價網站轉接進來的顧客。亞馬遜聲稱這只是一項隨機的價格測試,其呈現出來的結果與老顧客身份之間的關聯純屬巧合。話是這樣說,它還是叫停了這項操作。

  在商業規則下運行

  加在推薦算法之上的種種商業規則,旨在防止算法給出愚蠢的推薦,並幫助在線零售商在不失去你信任的前提下實現營業額的最大化。最起碼,推薦系統應該避免人們說的超市悖論(Supermarket Paradox)。例如,差不多每個去超市的人都喜歡吃香蕉,也經常會買一些。那麼,推薦系統該不該向每一位顧客都推薦香蕉呢?答案是否定的——這樣做既幫不上顧客,也提高不了香蕉的銷量。所以,智能的超市推薦系統始終會包括有一條規則,明確地將香蕉排除在推薦結果之外。

  這個例子可能聽起來沒什麼,但在我們早期經手的一個項目中,我們的推薦系統就曾經向幾乎每一個到訪我們網站的人推薦披頭士的《白色專輯》(White Album)。從統計學的意義上講,這是個很棒的推薦:顧客此前都沒有從這個電子商務網點購買過這張專輯,而大多數顧客對《白色專輯》的評價都很高。盡管如此,這個推薦仍然是無效的——任何一個對《白色專輯》感興趣的人都已經有了一張了。

  當然,大部分的推薦規則都是更加微妙的。比如說,當約翰在 9 月份在 Netflix 索動作影片時,結果中不會出現《復仇者聯盟》(The Avengers),因為這部大片在當時還沒有租借版,這樣的推薦結果不會讓 Netflix 有錢賺。因此,約翰被導向了《鋼鐵俠 2》(Iron Man 2),這部片已經可以用流媒體播放了。

  其他的規則還包括禁止推薦為招徕顧客而虧本銷售的商品(loss leader);反過來,鼓勵推薦滯銷品。在經營Net Perceptions期間,我們就曾與一位客戶合作,他利用推薦系統來識別庫存積壓商品的潛在客戶,取得了相當大的成功。

  贏取你的信任

  然而,這種事情很快就會變得棘手起來。一個只會推銷高利潤商品的推薦算法是不會贏得顧客的信任的。這就像是去餐館,那兒的服務生極力向你推薦某道魚一樣。這個魚真的是他覺得最好吃的嗎?還是大廚催著底下的人趕在魚變質前把它給賣出去?

  為了建立信任感,更復雜的推薦算法會盡力保持一定的透明度,讓顧客對系統為什麼會向自己推薦這件商品有一個大致的概念,並且在不喜歡收到的推薦結果時,可以更改他們的個人資料。比如說,你可以刪除你在亞馬遜上買來送禮的購物記錄;畢竟,那些東西反映的不是你個人的喜好。你還可以知道系統為什麼會向你推薦某些產品。當亞馬遜為約翰挑選了 Jonathan Franzen 的小說《自由》之後,約翰點擊標簽上的鏈接“為什麼推薦給我?”。隨即顯示出一份簡要的說明,原來是他放在心願單裡的幾本書觸發了這一推薦。不過,由於他還沒有讀過心願單上的那幾本書,約翰就不去管《自由》這個推薦結果了。像這樣的解釋說明會讓用戶明白推薦結果是否有用。

  但是,完善個人資料和解釋推薦結果往往不足以保證系統不出錯。最近,亞馬遜用高清大屏幕電視機(HDTV)的促銷電子郵件對喬進行了轟炸——每周 3 封,連續扔了一個月。除了給喬寄了過多的電子郵件,這家零售商還沒有意識到,喬已經用他妻子的賬戶買了一台電視機。此外,這些電子郵件並沒有提供一種很明顯的方法,讓喬可以說“謝謝,但我不感興趣”。最終,喬取消了他在亞馬遜的一些郵件訂閱;他並不在意收不到各種信息,而且他有了更多的時間來真的看他的電視。

  推薦算法的作用究竟有多大?

  

alumni.berkeley.edu

 

  alumni.berkeley.edu

  那好,推薦算法究竟起了多大作用呢?它們當然一直都在增加在線銷售額;據阿倫森集團(Aaronson Group)的分析師傑克•阿倫森(Jack Aaronson)估計,由於推薦算法帶動銷售額的增長,對推薦算法的投資能獲得 10%-30% 的收益。而且,它們還只是剛剛起步。現在,對我們這些研究推薦系統的人來說,最大的挑戰在於弄清楚如何去判斷新的方法和算法才最好。這可不像基准化分析微處理器那麼簡單,因為不同的推薦系統有著非常不同的目標。

  評價一個算法最簡單的方法,是看它的預測和用戶的實際評價之間差異有多大。舉例來說,假如約翰給青春浪漫小說《暮光之城》(Twilight )一顆星,亞馬遜或許會注意到算法根據其他相似用戶的評價曾預計約翰會給兩顆星,也即出現了一顆星的偏差。但是,賣家更加關心算法在用戶評價高的商品上出的錯,因為好評多的物品是顧客更有可能購買的;約翰反正也不會買《暮光之城》。所以,把這個評價計入考慮對理解推薦算法起了多大作用沒什麼幫助。

  另一個常見方法是看算法給出的推薦結果和顧客實際購買的商品,之間匹配度有多高。不過,這種方法也可能起到誤導作用,因為這樣分析會將用戶自己設法找到的商品錯誤地算在推薦算法的頭上,而用戶自己找得到東西恰恰是最不應該被推薦的!鑒於這些方法的缺點,研究人員一直在研究新的評判指標,不只看精度,也會關注像發現意外驚喜和多樣性等其他屬性。

  發現意外驚喜(Serendipity)會加權不尋常的推薦結果,尤其是那些對某一個用戶極具價值,但對其他同類用戶而言沒什麼用的推薦結果。調整為發現意外驚喜的算法會注意到《白色相簿》似乎是一個對幾乎每個人來說都不錯的推薦,因此會改為尋找一個不太常見的選擇——也許是 Joan Armatrading 的《愛和情感》。這個不那麼熱門的推薦結果不太可能擊中目標,但一旦它遇上了,則將給用戶帶來一個大得多的驚喜。

  看推薦結果的多樣性同樣也很能說明問題。比方說,一個超愛看 Dick Francis 神秘類小說的用戶,在看到推薦表單裡全都是 Dick Francis 的作品時,仍有可能會感到失望。一個真正多樣化的推薦表單會包括不同作者和不同類型的書,還有電影、游戲和其他的產品。

  推薦系統研究則需要突破各種各樣的阻礙,遠不止是在現有的系統上進行微調。研究者們眼下正在考慮的是,推薦算法應該在怎樣一個程度上幫助用戶發掘一個網站的內容集合中他們未曾了解的部分。比方說,把買書的人送去亞馬遜的服裝部門,而不是給一些安全的、顧客更有可能接受的推薦結果。在零售世界之外,推薦算法可以幫助人們接觸到新的想法;就算我們不同意其中的一些,但整體作用大概會是積極的,因為這將有助於減少社會的巴爾干化(Balkanization,即碎片化)。推薦算法能不能做到這一點,還要不讓人感到厭煩或者不信任,仍需拭目以待。

  但有一點是明確的:推薦系統只會變得越來越好,收集越來越多關於你的數據,並在別的、意想不到的地方展示出來。如果你喜歡這篇文章,亞馬遜會很樂意向你推薦其他所有你可能會喜歡的關於推薦系統的書。

  Joseph A. Konstan 和 John Riedl 都是美國明尼蘇達大學的計算機科學教授。身為 IEE

copyright © 萬盛學電腦網 all rights reserved