萬盛學電腦網

 萬盛學電腦網 >> 電腦基本常識 >> Google、百度分別發力實體搜索:「直接給出答案」

Google、百度分別發力實體搜索:「直接給出答案」

class="area"> 實體搜索, 知識圖譜等名詞在今年開始逐步提升曝光率(Google、百度分別發力實體搜索產品)。Google 新近發布的 iOS 版 Voice Search App 也表現出了不遜於 Siri 的功能,還特別強調了其整合知識圖譜帶來的「直接回答問題」的能力」。

  相比於 Siri 底層的實體屬性、關聯關系等知識數據強依賴於和 WolframAlpha 的合作關系,Google 憑借自身高投入的知識圖譜項目似乎更值得被賦予更高的期望值,搜索引擎公司在獲取海量數據和提取知識方面的數據和技術優勢是不言自明的。 對於中文市場而言,工業界在這方面的投入並不明顯。除了 LBS 相關的信息外,Siri 在中文市場也缺乏有力的合作伙伴。在「Google、百度發力實體搜索」一文中,我們觀察到了一些百度投入實體數據建設的一些跡象,比如:類似盜夢空間的電影。也做了一些大膽的預測:百度正在實體搜索領域內悄悄發力,同時采取深挖實體關系這一和 Google 不同的技術方向。近期的確又觀察到百度逐步將這一領域內的實驗范圍在擴大,驗證了之前的部分猜想。對於有志於建設實體庫、本體信息和語義網應用的新興公司而言,可能後續還面領著更大的競爭。

  1、不掉毛的狗

  

  2、瀕臨滅絕的植物

  

  3、開黃花的樹

  

 

  從這些搜索結果可以看出,和之前電影類一樣,百度的技術方向和 Google 不同:百度主要是在「深度」,而 Google 則強調「廣度」。像「不掉毛」「瀕臨滅絕」這些細致的屬性,傳統的實體信息提取技術是無法涵蓋的。但這種深入的屬性數據挖掘,一方面得益於大量的網頁數據,另一方面也受限於互聯網數據裡大量的噪音影響,是個技術難度和收益都比較大的方向。從目前的結果來看,這些深入挖掘出的屬性數據在質量方面的表現是不錯的,比如「不掉毛的狗」的結果中,除了雪納瑞等較為常見的不易掉毛的狗以外,甚至可以覆蓋到「冠毛犬」。假如在保證數據的質量的前提下覆蓋領域可以不斷擴大,對於知識類的問題,機器可以像 IBM Watson 一樣直接給出超出人類平均水平的解答。

  實體數據的深耕代表著搜索引擎具有的「智慧」和「知識」越來越多,搜索引擎公司一方面會進一步加強自身搜索結果「直接回答問題」的能力;同時發力進軍智能助理這個新興移動領域應該是個沒有爭議的事情。

copyright © 萬盛學電腦網 all rights reserved