當前位置:
首頁 > 知識 > 100+Chinese Word Vectors 上百種預訓練中文詞向量

100+Chinese Word Vectors 上百種預訓練中文詞向量

該項目提供了不同表徵(密集和稀疏)上下文特徵(單詞,ngram,字元等)和語料庫訓練的中文單詞向量。開發者可以輕鬆獲得具有不同屬性的預先訓練的向量,並將它們用於下游任務。

此外,該庫還提供了一個中文類比推理數據集CA8和評估工具包,供用戶評估他們的單詞向量的質量。

格式

預先訓練好的向量文件是 text 格式,每行包含一個單詞和它的向量,每個值由空格分隔。第一行記錄元信息:第一個數字表示文件中的字數,第二個表示維度。

除了密集的單詞矢量(用 SGNS 訓練)之外,我們還提供稀疏矢量(用 PPMI 訓練)。 它們與 liblinear 的格式相同,其中「:」之前的數字表示維度索引,「:」之後的數字表示該值。

Github:

https://github.com/Embedding/Chinese-Word-Vectors

預訓練中文詞向量

基礎設置

不同的領域

用不同的表示法,上下文特徵和語料庫訓練的中文單詞向量。

*本庫提供了字元嵌入,因為大部分古漢字都是獨立的字元。


各種共現信息

本庫根據不同的共現信息發布單詞向量,目標向量和上下文向量在相關論文中被稱為輸入和輸出向量。

這一部分,可以獲取詞層面之上的任意語言單元向量。例如,漢字向量包含在詞-漢字的上下文向量中。所有向量都在百度百科上使用 SGNS 訓練。

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

基於典型相關分析的詞向量


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

阿里將 TVM 融入 TensorFlow,在 GPU 上實現全面提速
2018 Data Science Bowl 第一名方案新鮮出爐,鑒定細胞核新技能 get

TAG:AI研習社 |