萬盛學電腦網

 萬盛學電腦網 >> 應用技巧 >> 幾類搜索引擎技術

幾類搜索引擎技術

 
    因特網的迅猛發展、WEB信息的增加,用戶要在信息海洋裡查找信息(計算機愛好者,學習計算機基礎,電腦入門,請到本站http://.,我站同時提供計算機基礎知識教程,計算機基礎知識試題供大家學習和使用),,就像大海撈針一樣,搜索引擎技術恰好解決了這一難題,它可以為用戶提供信息檢索服務。目前,搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。

    搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發展起來的技術。

    據發表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前的網頁超過8億,有效數據超過9TB,並且仍以每4個月翻一番的速度增長。例如,Google目前擁有10億個網址,30億個網頁,3.9 億張圖像,Google支持66種語言接口,16種文件格式,面對如此海量的數據和如此異構的信息,用戶要在裡面尋找信息,必然會“大海撈針”無功而返。

    搜索引擎正是為了解決這個“迷航”問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,並為用戶提供檢索服務,從而起到信息導航的目的。

    目前,搜索引擎技術按信息標引的方式可以分為目錄式搜索引擎、機器人搜索引擎和混合式搜索引擎;按查詢方式可分為浏覽式搜索引擎、關鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語種又分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。

    目錄式搜索引擎

目錄式搜索引擎(Directory Search Engine)是最早出現的基於WWW的搜索引擎,以雅虎為代表,我國的搜狐也屬於目錄式搜索引擎。

    目錄式搜索引擎由分類專家將網絡信息按照主題分成若干個大類,每個大類再分為若干個小類,依次細分,形成了一個可浏覽式等級主題索引式搜索引擎,一般的搜索引擎分類體系有五六層,有的甚至十幾層。

    目錄式搜索引擎主要通過人工發現信息,依靠編目員的知識進行甄別和分類。由於目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的准確度是相當高的,但由於人工信息搜集速度較慢,不能及時地對網上信息進行實際監控,其查全率並不是很好,是一種網站級搜索引擎。

    機器人搜索引擎

    機器人搜索引擎通常有三大模塊:信息采集、信息處理、信息查詢。信息采集一般指爬行器或網絡蜘蛛,是通過一個URL列表進行網頁的自動分析與采集。起初的URL並不多,隨著信息采集量的增加,也就是分析到網頁有新的鏈接,就會把新的URL添加到URL列表,以便采集。

    機器人搜索引擎使用多線程並發搜索技術,主要完成文檔訪問代理、路徑選擇引擎和訪問控制引擎。基於機器人搜索引擎的Web頁搜索模塊主要由URL服務器、爬行器、存儲器、URL解析器四大功能部件和資源庫、錨庫、鏈接庫三大數據資源構成,另外還要借助標引器的一個輔助功能。

   具體過程是,URL服務器發送要去抓取的URL,爬行器根據URL抓取WEB頁並送給存儲器,存儲器壓縮Web頁並存入數據資源庫,然後由標引器分析每個WEB頁的所有鏈接並把相關的重要信息存儲在錨庫文件中。URL解析器讀錨庫文件並解析URL,然後依次轉成docID。再把錨庫中文本變成順排索引,送入索引庫。具體過程如圖1所示。

計算機基礎知識http://.)/Upfiles/BeyondPic/wlcs/2009-09/20090928161521159.jpg" style="cursor: pointer" alt="點此在新窗口浏覽圖片" onmousewheel="return bbimg(this)" onload="javascript:resizepic(this)" border="0"/>

 

元搜索引擎

    元搜索引擎,也叫集搜索引擎,是指在統一的的用戶查詢界面與信息反饋的形式下,共享多個搜索引擎的資源庫為用戶提供信息服務的系統。元搜索引擎是對搜索引擎進行搜索的搜索引擎。

    元搜索與一般搜索引擎的最大不同在於它可以沒有自己的資源庫和機器人,它充當一個中間代理的角色,接受用戶的查詢請求,將請求翻譯成相應搜索引擎的查詢語法。在向各個搜索引擎發送查詢請求並獲得反饋之後,首先進行綜合相關度排序,然後將整理抽取之後的查詢結果返回給用戶。元搜索引擎查全率高、搜索范圍更多更大,查准率也並不低。

    元搜索引擎包括Web服務器、結果數據庫、檢索式處理、Web處理接口、結果生成等幾個部分,其中用戶通過Web服務器訪問元搜索引擎,而元搜索引擎則通過Web處理接口訪問其它外部的搜索引擎。其系統結構如圖2所示。 計算機基礎知識http://.)/Upfiles/BeyondPic/wlcs/2009-09/20090928161521337.jpg" style="cursor: pointer" alt="點此在新窗口浏覽圖片" onmousewheel="return bbimg(this)" onload="javascript:resizepic(this)" border="0"/>

  用戶通過WWW服務訪問元搜索引擎,向Web服務器提交檢索式。當Web服務器收到查詢請求時,先訪問結果數據庫,查看近期是否有相同的檢索,如果有則直接返回保存的結果,完成查詢;如果沒有相同的檢索,就分析檢索式並轉化成與所要查找各搜索引擎相應的檢索式格式,然後送至Web處理接口模塊。

    Web處理接口通過並行的方式同時查詢多個搜索引擎,把所有的結果集中到一起。根據各搜索引擎的重要性,以及所得結果的相關度,對結果進行抽取並排序,生成最終結果返回給用戶。同時,把結果存到自己的數據庫裡,以備下次查詢參考使用。

    跨語言搜索引擎

    跨語言綜合搜索引擎是在一般的搜索引擎基礎上加了兩個功能:不同語言提問之間的翻譯和不同搜索引擎檢索結果的集成。跨語言搜索引擎有兩種情況,一種是架構在單一搜索引擎的基礎上,另一種是架構在多搜索引擎的基礎上。

    目前研究最多的是跨語言文本檢索和跨語言語音檢索。跨語言檢索主要涉及信息檢索和機器翻譯兩個領域的知識,但又不是這兩種技術的簡單融合。跨語言檢索系統的檢索功能,可以利用現有的檢索系統來實現,也可以重新構造新的檢索系統或檢索功能模塊來實現。

    跨語言搜索引擎的工作過程如下:用戶向系統提交檢索詞,形成一個源語言的搜索式,系統對搜索式進行語言識別,識別出語種後,就對進行提問式的詞法分析和結構分析,然後把這個分析過的搜索式翻譯成各種語言的搜索式,最後把這一系列的搜索式提交給系統進行檢索就可以了。

    檢索結果是含有多個語種的頁面。如果使用多搜索引擎,轉換成不同語言搜索式時還需要注意各種搜索引擎搜索式表達方法的不同。例如,新浪網搜索中文信息的結果比較好,那麼就把提問詞是中文的搜索式轉換成新浪網的搜索式;雅虎對英文信息的搜索結果比較好,那麼就向雅虎提交提問詞是英文的搜索式。

    關於多語種搜索有這樣幾種情況:檢索詞為不同語種,檢索結果也不同,這種情況是不經過翻譯的,對搜索引擎來講是不區分的。比如在Google裡輸入“知識發現 knowledge”,選擇所有語種,那麼只要網頁裡既有“知識發現”又有“knowledge”就可以檢索出來,不管該頁面是中文的,還是英文或者是日文的,搜索引擎並不識別檢索詞的語種,這不是真正的跨語言搜索引擎。第二種情況是,檢索詞為同一語種,檢索結果為不同語種。 

幾類搜索引擎技術.
copyright © 萬盛學電腦網 all rights reserved