用於自然語言處理的開源 Python庫——PyTorch-NLP
PyTorch-NLP 是用於自然語言處理的開源 Python 庫,它構建於最新的研究之上,可以幫助開發者快速開發原型。PyTorch 帶有預訓練嵌入(pre-trained embeddings)、採樣器、數據集載入器、神經網路模型和文本編碼器。
詳細信息可訪問 PyTorch-NLP 官方網站:
https://pytorchnlp.readthedocs.io/en/latest/
Github 鏈接:
https://github.com/PetrochukM/PyTorch-NLP
安裝
請先安裝 Python 3.5+ 和 PyTorch 0.2.0 及以上版本,然後用 pip 安裝 PyTorch-NLP:
pipinstallpytorch-nlp
可選安裝
如果您想使用SpaCy 中的英文標記器,則需要安裝 SpaCy 並下載其英文模型:
pipinstallspacy
python -m spacy download en_core_web_sm
或者,您可能需要使用 NLTK 的 Moses tokenizer。您必須安裝NLTK 並下載所需的數據:
pipinstallnltk
python -m nltk.downloader perluniprops nonbreaking_prefixes
用法
PyTorch-NLP 的設計思想直觀並且簡單易用:
載入 FastText,Facebook 的快速文本分類器
fromtorchnlp.embeddingsimportFastText
vectors = FastText()
vectors["hello"]# [torch.FloatTensor of size 100]
載入數據集,比如 IMBD
fromtorchnlp.datasetsimportimdb_dataset
train = imdb_dataset(train=True)
train[] # {"text":"For a movie that gets..","sentiment":"pos"}
用 torchnlp.metrics 計算 BLEU 分數:
fromtorchnlp.metricsimportget_moses_multi_bleu
hypotheses = ["The brown fox jumps over the dog 笑"]
references = ["The quick brown fox jumps over the lazy dog 笑"]
get_moses_multi_bleu(hypotheses, references, lowercase=True)# 47.9
【限時拼團】
NLP 工程師入門實踐班
三大模塊,五大應用,知識點全覆蓋;
海外博士講師,豐富項目分享經驗;
理論 + 實踐,帶你實戰典型行業應用;
專業答疑社群,結交志同道合夥伴。
新人福利
關注 AI 研習社(okweiwu),回復1領取
【超過 1000G 神經網路 / AI / 大數據,教程,論文】
如何在NLP領域干成第一件事?


※用AI 打造遊戲,Unity 機器學習 Agent——ml-agents
※Kaggle 商品銷量預測季軍方案出爐,應對時間序列問題有何妙招
TAG:AI研習社 |