當前位置:
首頁 > 科技 > 北大開源了中文分詞工具包,準確度遠超Jieba,提供三個預訓練模型

北大開源了中文分詞工具包,準確度遠超Jieba,提供三個預訓練模型

車栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

「土地,快告訴俺老孫,俺的金箍棒在哪?」

「大聖,您的金箍,棒就棒在特別適合您的髮型。」

中文分詞,是一門高深莫測的技術。不論對於人類,還是對於AI。

最近,北大開源了一個中文分詞工具包,名為PKUSeg,基於Python。

工具包的分詞準確率,遠遠超過THULAC結巴分詞這兩位重要選手。

我們 [中出] 了個叛徒

除此之外,PKUSeg支持多領域分詞,也支持用全新的標註數據來訓練模型。

準確度對比

這次比賽,PKUSeg的對手有兩位:

一位是來自清華的THULAC,一位是要「做最好的中文分片語件」的結巴分詞。它們都是目前主流的分詞工具。

測試環境是Linux,測試數據集是MSRA(新聞數據) 和CTB8(混合型文本) 。

結果如下:

比賽用的評判標準,是第二屆國際漢語分詞評測比賽提供的分詞評價腳本。

F分數錯誤率兩項指標上,PKUSeg都明顯優於另外兩位對手。

食用方法


預訓練模型

PKUSeg提供了三個預訓練模型,分別是在不同類型的數據集上訓練的。

一是用MSRA (新聞語料) 訓練出的模型:

https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

二是用CTB8 (新聞文本及網路文本的混合型語料) 訓練出的模型:

https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

三是在微博 (網路文本語料) 上訓練的模型:

https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

微博語料舉栗

大家可以按照自己的需要,選擇載入不同的模型。

除此之外,也可以用全新的標註數據,來訓練新的模型。


代碼示例

1代碼示例1使用默認模型及默認詞典分詞

2importpkuseg

3seg = pkuseg.pkuseg()#以默認配置載入模型

4text = seg.cut("我愛北京天安門")#進行分詞

5print(text)

1代碼示例2設置用戶自定義詞典

2importpkuseg

3lexicon = ["北京大學","北京天安門"]#希望分詞時用戶詞典中的詞固定不分開

4seg = pkuseg.pkuseg(user_dict=lexicon)#載入模型,給定用戶詞典

5text = seg.cut("我愛北京天安門")#進行分詞

6print(text)

如果想自己訓練一個新模型的話:

欲知更詳細的用法,可前往文底傳送門。

快去試一下

PKUSeg的作者有三位,Ruixuan Luo (羅睿軒),Jingjing Xu (許晶晶) ,以及Xu Sun (孫栩) 。

工具包的誕生,也是基於其中兩位參與的ACL論文

準確率又那麼高,還不去試試?

GitHub傳送門:

https://github.com/lancopku/PKUSeg-python

論文傳送門:

http://www.aclweb.org/anthology/P12-1027

http://aclweb.org/anthology/P16-2092

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

李開復:不是言AI必稱中美,而是歐洲太堂吉訶德
比Excel製圖更強大,Python可視化工具Altair入門教程

TAG:量子位 |