當前位置:
首頁 > 知識 > LingPipe : 自然語言處理工具包

LingPipe : 自然語言處理工具包

(點擊

上方公眾號

,可快速關注)




來源:伯樂在線 - 劉立華







LingPipe是運用計算機語言學處理文本信息的工具包,可用於如下任務:






  • 在新聞中查找人名、組織或位置。



  • 自動分類Twitter搜索結果。



  • 提供查詢的正確拼寫建議。




架構




LingPipe的架構是有效的、可擴展的、可重用的、健壯的。亮點包括:






  • Java API源碼和單元測試;



  • 多語種、多域、集成型模式;



  • 用新任務的新數據訓練;



  • n最優統計的置信度估計輸出;



  • 在線訓練;



  • 線程安全模型和並發讀同步獨佔寫(concurrent-read exclusive-write)解碼器;



  • 字元編碼敏感的I/O。




教程列表





  • 主題分類


    通過人物語言模型分類新聞文章。





http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html






  • 命名實體識別


    介紹如何運行、訓練和評估命名實體識別器。





http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html







  • 聚類


    單連接和完整連接的層次聚類器圖,包括各種聚類評估技術。





http://alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html






  • 詞性標註


    介紹如何從語料庫用標籤解析器和處理器訓練詞性標註器,如何編譯模型到磁碟並讀取,如何運行並評估第一次最佳、第n次最佳及置信得分標註器(confidence-scored taggers)。







http://alias-i.com/lingpipe/demos/tutorial/posTags/read-me.html





  • 句子檢測


    介紹如何使用分塊介面檢測語句等。





http://alias-i.com/lingpipe/demos/tutorial/sentences/read-me.html






  • 拼寫校正


    類似搜索引擎的拼寫檢查,介紹如何調整和訓練模型。




http://alias-i.com/lingpipe/demos/tutorial/querySpellChecker/read-me.html






  • 資料庫文本挖掘


    第一部分使用MEDLINE引用JDBC填充MySQL資料庫。第二部分運行資料庫腳本創建表和實體。第三部分介紹如何通過資料庫查詢做資料庫文本挖掘。





http://alias-i.com/lingpipe/demos/tutorial/db/read-me.html





  • 字元串比較


    介紹如何使用距離和接近措施結束字元串,包括加權編輯距離,TF/IDF距離等。





http://alias-i.com/lingpipe/demos/tutorial/stringCompare/read-me.html






  • 興趣短語檢測


    從一個語料庫中統計顯著多字片語和相對的「熱詞」的提取





http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html






  • 人物語言建模


    訓練和調整人物語言模型。





http://alias-i.com/lingpipe/demos/tutorial/lm/read-me.html






  • 中文分詞


    介紹了如何細分中文字元成不同的話。





http://alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html






  • 連接符和音節


    展示了如何從訓練數據字典中訓練連字元和音節。例如荷蘭語、英語和德語。





http://alias-i.com/lingpipe/demos/tutorial/hyphenation/read-me.html






  • 情感分析


    使用語言模型的分類做電影評論的情感分析。





http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html






  • 語言識別


    語言識別作為分類問題





http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html






  • 奇異值分解


    使用奇異值分解因子矩陣。解釋了如何處理位置值估算、正規化、調優參數設置。





http://alias-i.com/lingpipe/demos/tutorial/svd/read-me.html






  • 邏輯回歸


    介紹了如何為判別標準估計正規化多項式邏輯回歸模型。





http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html






  • 期望最大化


    介紹了如何為半監督學習(semi-supervised learning)各種任務使用期望最大化。





http://alias-i.com/lingpipe/demos/tutorial/em/read-me.html






  • 詞義消歧


    詞義消歧是根據一個詞的上下文確定一個詞的含義的過程,用於分類、搜索、聚類等。





http://alias-i.com/lingpipe/demos/tutorial/wordSense/read-me.html






  • Eclipse


    使用Eclipse IDE編譯和測試LingPipe的基本說明。





http://alias-i.com/lingpipe/demos/tutorial/eclipse/read-me.html




開發文檔




教程





http://alias-i.com/lingpipe/demos/tutorial/read-me.html




下載





http://alias-i.com/lingpi

pe/web/download.html




API文檔





http://alias-i.com/lingpipe/docs/api/index.html




Demos





http://alias-i.com/lingpipe/web/demos.html




【關於投稿】




如果大家有原創好文投稿,請直接給公號發送留言。




① 留言格式:


【投稿】+《 文章標題》+ 文章鏈接

② 示例:


【投稿】《不要自稱是程序員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/

③ 最後請附上您的個人簡介哈~






看完本文有收穫?請轉發分享給更多人


關注「ImportNew」,提升Java技能


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ImportNew 的精彩文章:

FutureTask 在線程池中應用和源碼解析
一份不能錯過的 Docker 實戰指南

TAG:ImportNew |