這篇文章主要介紹了在Python的Flask框架中實現全文搜索功能,這個基本的web功能實現起來非常簡單,需要的朋友可以參考下
全文檢索引擎入門
灰常不幸的是,關系型數據庫對全文檢索的支持沒有被標准化。不同的數據庫通過它們自己的方式來實現全文檢索,而且SQLAlchemy在全文檢索上也沒有提供一個好的抽象。
我們現在使用SQLite作為我們的數據庫,所以我們可以繞開SQLAlchemy而使用SQLite提供的工具來創建一個全文檢索索引。但這麼做不怎麼好,因為如果有一天我們換用別的數據庫,那麼我們就得重寫另一個數據庫的全文檢索方法。
所以我們的方案是,我們將讓我們現有的數據庫處理常規數據,然後我們創建一個專門的數據庫來解決全文檢索。
只有很少的開源的全文檢索引擎。據我說知只有一個Whoosh提供了Flask的擴展,它是用Python語言寫的全文檢索引擎。使用純Python引擎的優點是它可以運行在任何有Python解釋器的地方。缺點就是它的搜索性能沒有達到用C或者C++寫的搜索引擎那麼好。在我的腦子裡理想的解決方案是有一個搜索引擎,它提供了Flask的擴展,能連接大多數數據庫,而且還要像Flask-SQLAlchemy那樣提供一個能自由使用大多數數據庫的方法,但現在貌似木有這樣的全文檢索引擎。Django的開發者有一個非常棒的,支持大多數全文檢索引擎的擴展,叫django-haystack。希望有一天某個家伙能為Flask提供一個相似的擴展。
但現在,我們將通過Whoosh實現我們自己的全文檢索。我們將使用Flask-WhooshAlchemy擴展,該擴展使得Whoosh數據庫和Flask-SQLAlchemy模塊結合起來。
如果你還沒在你的虛擬環境中安裝Flask-WhooshAlchemy擴展,馬上安裝它。
Windows用戶用以下命令安裝:
代碼如下:
flaskScriptspip install Flask-WhooshAlchemy
其他用戶用以下命令安裝:
代碼如下:
flask/bin/pip install Flask-WhooshAlchemy
配置
配置Flask-WhooshAlchemy灰常簡單。我們只需要告訴擴展全文檢索數據庫的名字即可(fileconfig.py):
WHOOSH_BASE = os.path.join(basedir, 'search.db')
修改模塊
在將Flask-WhooshAlchemy和Flask-SQLAlchemy結合起來時,我們需要在合適的模塊類(fileapp/models.py)指定哪些數據時需要被索引的:
?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 from app import app import flask.ext.whooshalchemy as whooshalchemy class Post(db.Model): __searchable__ = ['body'] id = db.Column(db.Integer, primary_key = True) body = db.Column(db.String(140)) timestamp = db.Column(db.DateTime) user_id = db.Column(db.Integer, db.ForeignKey('user.id')) def __repr__(self): return '<Post %r>' % (self.text) whooshalchemy.whoosh_index(app, Post)這個模塊有一個新的__searchable__字段,它是一個列表,包括了所有可以被當做搜索索引的數據庫字段。在我們的項目裡我們只需要所有文章帖子的body字段。
在這個模塊中,我們也必須通過調用whoosh_index這個方法來初始化全文索引。
這不是一個能影響我們關系型數據庫的改變,所以我們沒必要換新的數據庫。
不幸的是所有的博客文章在添加全文檢索引擎之前就已經存在於數據庫中了,而且沒有被索引。為了保持數據庫和全文檢索引擎的同步,我們將在數據庫中刪除所有已經存在的博客文章,然後重新開始。首先我們打開Python解釋器。Windows用戶為以下內容:
代碼如下:
flaskScriptspython
其它操作系統用戶:
代碼如下:
flask/bin/python
然後在Python命令提示符中刪除所有博客文章:
?
1 2 3 4 5 >>> from app.models import Post >>> from app import db >>> for post in Post.query.all(): ... db.session.delete(post) >>> db.session.commit()搜索
現在我們開始做搜索。首先,讓我們添加幾篇博客文章到數據庫。我們有兩種方法做這個事。我們可以像普通用戶一樣通過網頁打開應用程序添加文章,或者直接在Python命令行裡添加。
用一下方法從命令行添加:
?
1 2 3 4 5 6 7 8 9 10 11 >>> from app.models import User, Post >>> from app import db >>> import datetime >>> u = User.query.get(1) >>> p = Post(body='my first post', timestamp=datetime.datetime.utcnow(), author=u) >>> db.session.add(p) >>> p = Post(body='my second post', timestamp=datetime.datetime.utcnow(), author=u) >>> db.session.add(p) >>> p = Post(body='my third and last post', timestamp=datetime.datetime.utcnow(), author=u) >>> db.session.add(p) >>> db.session.commit()Flask-WhooshAlchemy這個擴展非常不錯,因為它能連接Flask-SQLAlchemy然後自動提交。我們不需要維護全文索引,因為它已經很明顯的幫我們做了這件事。
現在我們已經在全文索引中有了一些文章,我們可以搜搜看了:
?
1 2 3 4 5 6 >>> Post.query.whoosh_search('post').all() [<Post u'my second post'>, <Post u'my first post'>, <Post u'my third and last post'>] >>> Post.query.whoosh_search('second').all() [<Post u'my second post'>] >>> Post.query.whoosh_search('second OR last').all() [<Post u'my second post'>, <Post u'my third and last post'>]上面的例子可以看出,查詢不需要限制為一個單詞。實際上,Whoosh提供了一個漂亮又強大的搜索查詢語言(search query language)。
整合全文檢索到應用程序
為了讓我們應用程序的用戶能用上搜索功能,我們還需要增加一點小小的改變。
配置
就配置而言,我們僅僅需要指定最大的搜索結果返回數(fileconfig.py):
?
1 MAX_SEARCH_RESULTS = 50搜索表單
我們需要在頁面頂部的導航欄中增加一個搜索框。把搜索框放到頂部是極好的,因為這樣所有頁面就都有搜索框了(注:所有頁面公用導航欄)。
首先我們增加一個搜索表單類(fileapp/forms.py):
?
1 2 class SearchForm(Form): search = TextField('search', validators = [Required()])然後我們需要增加一個搜索表單對象,而且要讓它對所有模板可用,這麼做是因為我們要將搜索表單放到所有頁面的共同的導航欄。完成這個最簡單的方法是在before_request handler上創建一個form,然後將它傳到Flask的全局變量g(fileapp/views.py):
?
1 2 3 4 5 6 7 8 @app.before_request def before_request(): g.user = current_user if g.user.is_authenticated(): g.user.last_seen = datetime.utcnow()