當前位置:
首頁 > 知識 > 用於自然語言處理的開源 Python庫——PyTorch-NLP

用於自然語言處理的開源 Python庫——PyTorch-NLP

PyTorch-NLP 是用於自然語言處理的開源 Python 庫,它構建於最新的研究之上,可以幫助開發者快速開發原型。PyTorch 帶有預訓練嵌入(pre-trained embeddings)、採樣器、數據集載入器、神經網路模型和文本編碼器。

詳細信息可訪問 PyTorch-NLP 官方網站:

https://pytorchnlp.readthedocs.io/en/latest/

Github 鏈接:

https://github.com/PetrochukM/PyTorch-NLP

安裝

請先安裝 Python 3.5+ 和 PyTorch 0.2.0 及以上版本,然後用 pip 安裝 PyTorch-NLP:

pipinstallpytorch-nlp

可選安裝

如果您想使用SpaCy 中的英文標記器,則需要安裝 SpaCy 並下載其英文模型:

pipinstallspacy

python -m spacy download en_core_web_sm

或者,您可能需要使用 NLTK 的 Moses tokenizer。您必須安裝NLTK 並下載所需的數據:

pipinstallnltk

python -m nltk.downloader perluniprops nonbreaking_prefixes

用法

PyTorch-NLP 的設計思想直觀並且簡單易用:

載入 FastText,Facebook 的快速文本分類器

fromtorchnlp.embeddingsimportFastText

vectors = FastText()

vectors["hello"]# [torch.FloatTensor of size 100]

載入數據集,比如 IMBD

fromtorchnlp.datasetsimportimdb_dataset

train = imdb_dataset(train=True)

train[] # {"text":"For a movie that gets..","sentiment":"pos"}

用 torchnlp.metrics 計算 BLEU 分數:

fromtorchnlp.metricsimportget_moses_multi_bleu

hypotheses = ["The brown fox jumps over the dog 笑"]

references = ["The quick brown fox jumps over the lazy dog 笑"]

get_moses_multi_bleu(hypotheses, references, lowercase=True)# 47.9

【限時拼團】

NLP 工程師入門實踐班

三大模塊,五大應用,知識點全覆蓋;

海外博士講師,豐富項目分享經驗;

理論 + 實踐,帶你實戰典型行業應用;

專業答疑社群,結交志同道合夥伴。

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據,教程,論文】

如何在NLP領域干成第一件事?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

用AI 打造遊戲,Unity 機器學習 Agent——ml-agents
Kaggle 商品銷量預測季軍方案出爐,應對時間序列問題有何妙招

TAG:AI研習社 |