100＋Chinese Word Vectors 上百種預訓練中文詞向量

知識 05-18

該項目提供了不同表徵（密集和稀疏）上下文特徵（單詞，ngram，字元等）和語料庫訓練的中文單詞向量。開發者可以輕鬆獲得具有不同屬性的預先訓練的向量，並將它們用於下游任務。

此外，該庫還提供了一個中文類比推理數據集CA8和評估工具包，供用戶評估他們的單詞向量的質量。

格式

預先訓練好的向量文件是 text 格式，每行包含一個單詞和它的向量，每個值由空格分隔。第一行記錄元信息：第一個數字表示文件中的字數，第二個表示維度。

除了密集的單詞矢量（用 SGNS 訓練）之外，我們還提供稀疏矢量（用 PPMI 訓練）。它們與 liblinear 的格式相同，其中「：」之前的數字表示維度索引，「：」之後的數字表示該值。

Github：

https://github.com/Embedding/Chinese-Word-Vectors

基礎設置

不同的領域

用不同的表示法，上下文特徵和語料庫訓練的中文單詞向量。

*本庫提供了字元嵌入，因為大部分古漢字都是獨立的字元。

本庫根據不同的共現信息發布單詞向量，目標向量和上下文向量在相關論文中被稱為輸入和輸出向量。

這一部分，可以獲取詞層面之上的任意語言單元向量。例如，漢字向量包含在詞-漢字的上下文向量中。所有向量都在百度百科上使用 SGNS 訓練。

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer，學完即推薦就業

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

基於典型相關分析的詞向量

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章: