什么是分詞?
網站搜索中分詞是常用到的功能。比如我們搜索關鍵詞:上海網站建設。常規的匹配規則是從數據庫里模糊查詢,內容包含“上海網站建設”。這個稱為模糊匹配。但是當內容是“上海專業網站建設”就不符合我們的查詢要求了,但是按用戶體驗來說“上海專業網站建設”這個詞也符合用戶的搜索意圖。那么我們就需要對“上海網站建設”進行分詞處理了。
這里我們推薦用的是“PSCWS23”,PSCWS23 是由 hightman 開發的純 PHP 代碼實現的簡易中文分詞系統第二和第三版的簡稱。PSCWS 是英文 PHP Simple Chinese Words Segmentation 的頭字母縮寫,它是 SCWS 項目的前身。PSCWS 的第二版和第三版調用接口完全一致,詞典也通用,僅僅是內部分詞算法不一樣。其中第二版采用的是正向最大匹配結合N(默認為2)層消岐方案;第三版則采用雙向匹配比較相鄰詞匯的頻率取優。使用速度上第二版略快一些,但差別不大,準確率也相差不多各有特色。
比如上術搜索“上海網站建設”的分詞結果為:
這樣我們可以搜索內容包含這些關鍵詞任意一個,即可匹配到搜索結果。
分詞可以提取英文單詞,過濾人名,標點符號。
分詞結果
更多功能請參考源代碼,附件為源代碼可以下載測試。