北大開源了中文分詞工具包,準確度遠超Jieba,提供三個預訓練模型
車栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
「土地,快告訴俺老孫,俺的金箍棒在哪?」
「大聖,您的金箍,棒就棒在特別適合您的髮型。」
中文分詞,是一門高深莫測的技術。不論對於人類,還是對於AI。
最近,北大開源了一個中文分詞工具包,名為PKUSeg,基於Python。
工具包的分詞準確率,遠遠超過THULAC和結巴分詞這兩位重要選手。
我們 [中出] 了個叛徒
除此之外,PKUSeg支持多領域分詞,也支持用全新的標註數據來訓練模型。
準確度對比
這次比賽,PKUSeg的對手有兩位:
一位是來自清華的THULAC,一位是要「做最好的中文分片語件」的結巴分詞。它們都是目前主流的分詞工具。
測試環境是Linux,測試數據集是MSRA(新聞數據) 和CTB8(混合型文本) 。
結果如下:
比賽用的評判標準,是第二屆國際漢語分詞評測比賽提供的分詞評價腳本。
在F分數和錯誤率兩項指標上,PKUSeg都明顯優於另外兩位對手。
食用方法
預訓練模型
PKUSeg提供了三個預訓練模型,分別是在不同類型的數據集上訓練的。
一是用MSRA (新聞語料) 訓練出的模型:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA
二是用CTB8 (新聞文本及網路文本的混合型語料) 訓練出的模型:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA
三是在微博 (網路文本語料) 上訓練的模型:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
微博語料舉栗
大家可以按照自己的需要,選擇載入不同的模型。
除此之外,也可以用全新的標註數據,來訓練新的模型。
代碼示例
1代碼示例1使用默認模型及默認詞典分詞
2importpkuseg
3seg = pkuseg.pkuseg()#以默認配置載入模型
4text = seg.cut("我愛北京天安門")#進行分詞
5print(text)
1代碼示例2設置用戶自定義詞典
2importpkuseg
3lexicon = ["北京大學","北京天安門"]#希望分詞時用戶詞典中的詞固定不分開
4seg = pkuseg.pkuseg(user_dict=lexicon)#載入模型,給定用戶詞典
5text = seg.cut("我愛北京天安門")#進行分詞
6print(text)
如果想自己訓練一個新模型的話:
欲知更詳細的用法,可前往文底傳送門。
快去試一下
PKUSeg的作者有三位,Ruixuan Luo (羅睿軒),Jingjing Xu (許晶晶) ,以及Xu Sun (孫栩) 。
工具包的誕生,也是基於其中兩位參與的ACL論文。
準確率又那麼高,還不去試試?
GitHub傳送門:
https://github.com/lancopku/PKUSeg-python
論文傳送門:
http://www.aclweb.org/anthology/P12-1027
http://aclweb.org/anthology/P16-2092
—完—
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
喜歡就點「好看」吧 !


※李開復:不是言AI必稱中美,而是歐洲太堂吉訶德
※比Excel製圖更強大,Python可視化工具Altair入門教程
TAG:量子位 |