用於自然語言處理的開源 Python庫——PyTorch-NLP

知識 03-21

PyTorch-NLP 是用於自然語言處理的開源 Python 庫，它構建於最新的研究之上，可以幫助開發者快速開發原型。PyTorch 帶有預訓練嵌入（pre-trained embeddings）、採樣器、數據集載入器、神經網路模型和文本編碼器。

詳細信息可訪問 PyTorch-NLP 官方網站：

https://pytorchnlp.readthedocs.io/en/latest/

Github 鏈接：

https://github.com/PetrochukM/PyTorch-NLP

安裝

請先安裝 Python 3.5+ 和 PyTorch 0.2.0 及以上版本，然後用 pip 安裝 PyTorch-NLP：

pipinstallpytorch-nlp

可選安裝

如果您想使用SpaCy 中的英文標記器，則需要安裝 SpaCy 並下載其英文模型：

pipinstallspacy

python -m spacy download en_core_web_sm

或者，您可能需要使用 NLTK 的 Moses tokenizer。您必須安裝NLTK 並下載所需的數據：

pipinstallnltk

python -m nltk.downloader perluniprops nonbreaking_prefixes

用法

PyTorch-NLP 的設計思想直觀並且簡單易用：

載入 FastText，Facebook 的快速文本分類器

fromtorchnlp.embeddingsimportFastText

vectors = FastText()

vectors["hello"]# [torch.FloatTensor of size 100]

載入數據集，比如 IMBD

fromtorchnlp.datasetsimportimdb_dataset

train = imdb_dataset(train=True)

train[] # {"text":"For a movie that gets..","sentiment":"pos"}

用 torchnlp.metrics 計算 BLEU 分數：

fromtorchnlp.metricsimportget_moses_multi_bleu

hypotheses = ["The brown fox jumps over the dog 笑"]

references = ["The quick brown fox jumps over the lazy dog 笑"]

get_moses_multi_bleu(hypotheses, references, lowercase=True)# 47.9

【限時拼團】

NLP 工程師入門實踐班

三大模塊，五大應用，知識點全覆蓋；

海外博士講師，豐富項目分享經驗；

理論 + 實踐，帶你實戰典型行業應用；

專業答疑社群，結交志同道合夥伴。

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據，教程，論文】

如何在NLP領域干成第一件事？

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章: