對於大的數據庫,將數據裝載到一個沒有 FULLTEXT 索引的表中,然後再使用 ALTER TABLE (或 CREATE INDEX) 創建索引,這將是非常快的。將數據裝載到一個已經有 FULLTEXT 索引的表中,將是非常慢的。
1.使用Mysql全文檢索fulltext的先決條件
表的類型必須是MyISAM
建立全文檢索的字段類型必須是char,varchar,text
2.建立全文檢索先期配置
由於Mysql的默認配置是索引的詞的長度是4,所以要支持中文單字的話,首先更改這個.
*Unix用戶要修改my.cnf,一般此文件在/etc/my.cnf,如果沒有找到,先查找一下find / -name 'my.cnf'
在 [mysqld] 位置內加入:
其它屬性還有
代碼如下 復制代碼 ft_wordlist_charset = gbk稍微解釋一下:
ft_wordlist_charset 表示詞典的字符集, 目前支持良好的有(UTF-8, gbk, gb2312, big5)
ft_wordlist_file 是詞表文件, 每行包括一個詞及其詞頻(用若干制表符或空格分開,消岐專用)
ft_stopword_file 表示過濾掉不索引的詞表, 一行一個.
ft_min_word_len 加入索引的詞的最小長度, 缺省是 4, 為了支持中文單字故改為 2
3.建立全文檢索
在建表中用FullText關鍵字標識字段,已存在的表用 ALTER TABLE (或 CREATE INDEX) 創建索引
4.使用全文檢索
在SELECT的WHERE字句中用MATCH函數,索引的關鍵詞用AGAINST標識,IN BOOLEAN MODE是只有含有關鍵字就行,不用在乎位置,是不是起啟位置.
5.詳細的說明請參數Mysql官方網站
http://dev.mysql.com/doc/refman/5.1/zh/functions.html#fulltext-search
這是Mysql 5.1的,不過4.X也可以做為參考,基本一置.我用的就是Mysql 4.1.
MySQL支持全文索引(Full-Text) 已經很久了,目前,fulltext是一種只適用於MyISAM表的一個索引類型,而且對定義索引列的數據類型也有限制,只能是以下三種的組合char、 varchar、text。fulltext可以在創建表的同時就一起定義好,或者在表創建完成之後,通過語句alter table或create index來追加索引,總之先後的效果是一樣的,但是兩者的效率卻是存在很大差異的,大量的實驗證明,對於大數量的表來說,先加載數據再來定義全文索引的 速度要遠遠優於在一個已經定義好全文索引的表裡面插入大量數據的速度。一定會問:這是問什麼呢?其實,道理很簡單,前者只需要一次性對你的索引列表進行操 作,排序比較都是在內存中完成,然後寫入硬盤;後者則要一條一條去硬盤中讀取索引表然後再進行比較最後寫入,自然這樣速度就會很慢。MySQL是 通過match()和against()這兩個函數來實現它的全文索引查詢的功能。match()中的字段名稱要和fulltext中定義的字段一致,如 果采用boolean模式搜索,也允許只包括fulltext中的某個字段,不需要全部列出。against()中定義的是所要搜索的字符串以及要求數據 庫通過哪種模式去執行全文索引的搜索查詢。下面通過一個例子分別介紹一下fulltext所支持的3中搜索模式。
Google的中文分詞技術采用的是美國一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分詞技術,百度使用的是自己公司開發的分詞技術,中搜使用的是國內海量科技(http://www.hylanda.com)提供的分詞技術。業界評論海量科技的分詞技術目前被認為是國內最好的中文分詞技術,其分詞准確度超過99%,由此也使得中搜在搜索結果中搜索結果的錯誤率很低。
海量http://www.hylanda.com/server/
下載MySQL5.0.37--LinuxX86-Chinese+
不需要提前安裝mysql 然後依次執行
mysql全文搜索有三種模式:
一、自然語言查找。這是mysql默認的全文搜索方式,sql示例:
[code=plain]
select id,title FROM post WHERE MATCH(content) AGAINST ('search keyword')
或者顯式聲明使用自然語言搜索方式
[code=plain]
select id,title FROM post WHERE MATCH(content) AGAINST ('search keyword' IN NATURAL LANGUAGE MODE)
由於自然語言搜索方式是默認模式,所以可以省略聲明模式的“IN NATURAL LANGUAGE MODE”部分。
自然語言搜索模式的麼特點:
1.忽略停詞(stopword),英語中頻繁出現的and/or/to等詞被認為是沒有實際搜索的意義,搜索這些不會獲得任何結果。
2.如果某個詞在數據集中頻繁出現的幾率超過了50%,也會被認為是停詞,所以如果數據庫中只有一行數據,不管你怎麼全文搜索都不能獲得結果。
3.搜索結果都具有一個相關度的數據,返回結果自動按相關度由高到低排列。
4.只針對獨立的單詞進行檢索,而不考慮單詞的局部匹配,如搜索box時,就不會將boxing作為檢索目標。
二、布爾查找。這種查找方式的特點是沒有自然查找模式中的50%規則,即便有詞語在數據集中頻繁出現的幾率超過50%,也會被作為搜索目標進行檢索並返回結果,而且檢索時單詞的局部匹配也會被作為目標進行檢索。sql示例
[code=plain]
select id,title FROM post WHERE MATCH(content) AGAINST ('search keyword' IN BOOLEAN MODE)
三、帶子查詢擴展的自然語言查找。[code=plain]
代碼如下 復制代碼select id,title FROM post WHERE MATCH(content) AGAINST ('search keyword' IN BOOLEAN MODE WITH EXPANSION)
暫時沒有明白這種模式。
在我的實際使用中還發現了以下細節:
•布爾查找時必須指定返回結果的排序方式,它不會像自然語言查找那樣會自動將結果按相關度排序返回。
•即使是布爾查找,對長度小於等於3的單詞也不會進行檢索,因為mysql有一個系統變量FT_MIN_WORD_LEN指定了全文檢索時可接受的最小單詞長度,默認值是4。.