因特網的迅猛發展、WEB信息的增加,用戶要在信息海洋裡查找信息,就像大海撈針一樣,搜索引擎(計算機愛好者,學習計算機基礎,電腦入門,請到本站http://.,我站同時提供計算機基礎知識教程,計算機基礎知識試題供大家學習和使用),技術恰好解決了這一難題,它可以為用戶提供信息檢索服務。目前,搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。
搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發展起來的技術。
據發表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前的網頁超過8億,有效數據超過9TB,並且仍以每4個月翻一番的速度增長。例如,Google目前擁有10億個網址,30億個網頁,3.9 億張圖像,Google支持66種語言接口,16種文件格式,面對如此海量的數據和如此異構的信息,用戶要在裡面尋找信息,必然會“大海撈針”無功而返。
搜索引擎正是為了解決這個“迷航”問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,並為用戶提供檢索服務,從而起到信息導航的目的。
目前,搜索引擎技術按信息標引的方式可以分為目錄式搜索引擎、機器人搜索引擎和混合式搜索引擎;按查詢方式可分為浏覽式搜索引擎、關鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語種又分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。
目錄式搜索引擎
目錄式搜索引擎(Directory Search Engine)是最早出現的基於WWW的搜索引擎,以雅虎為代表,我國的搜狐也屬於目錄式搜索引擎。
目錄式搜索引擎由分類專家將網絡信息按照主題分成若干個大類,每個大類再分為若干個小類,依次細分,形成了一個可浏覽式等級主題索引式搜索引擎,一般的搜索引擎分類體系有五六層,有的甚至十幾層。
目錄式搜索引擎主要通過人工發現信息,依靠編目員的知識進行甄別和分類。由於目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的准確度是相當高的,但由於人工信息搜集速度較慢,不能及時地對網上信息進行實際監控,其查全率並不是很好,是一種網站級搜索引擎。
機器人搜索引擎
機器人搜索引擎通常有三大模塊:信息采集、信息處理、信息查詢。信息采集一般指爬行器或網絡蜘蛛,是通過一個URL列表進行網頁的自動分析與采集。起初的URL並不多,隨著信息采集量的增加,也就是分析到網頁有新的鏈接,就會把新的URL添加到URL列表,以便采集。
機器人搜索引擎使用多線程並發搜索技術,主要完成文檔訪問代理、路徑選擇引擎和訪問控制引擎。基於機器人搜索引擎的Web頁搜索模塊主要由URL服務器、爬行器、存儲器、URL解析器四大功能部件和資源庫、錨庫、鏈接庫三大數據資源構成,另外還要借助標引器的一個輔助功能。 詳細介紹常用的幾類搜索引擎技術.