100+Chinese Word Vectors 上百種預訓練中文詞向量
該項目提供了不同表徵(密集和稀疏)上下文特徵(單詞,ngram,字元等)和語料庫訓練的中文單詞向量。開發者可以輕鬆獲得具有不同屬性的預先訓練的向量,並將它們用於下游任務。
此外,該庫還提供了一個中文類比推理數據集CA8和評估工具包,供用戶評估他們的單詞向量的質量。
格式
預先訓練好的向量文件是 text 格式,每行包含一個單詞和它的向量,每個值由空格分隔。第一行記錄元信息:第一個數字表示文件中的字數,第二個表示維度。
除了密集的單詞矢量(用 SGNS 訓練)之外,我們還提供稀疏矢量(用 PPMI 訓練)。 它們與 liblinear 的格式相同,其中「:」之前的數字表示維度索引,「:」之後的數字表示該值。
Github:
https://github.com/Embedding/Chinese-Word-Vectors
預訓練中文詞向量
基礎設置
不同的領域
用不同的表示法,上下文特徵和語料庫訓練的中文單詞向量。
*本庫提供了字元嵌入,因為大部分古漢字都是獨立的字元。
各種共現信息
本庫根據不同的共現信息發布單詞向量,目標向量和上下文向量在相關論文中被稱為輸入和輸出向量。
這一部分,可以獲取詞層面之上的任意語言單元向量。例如,漢字向量包含在詞-漢字的上下文向量中。所有向量都在百度百科上使用 SGNS 訓練。
從Python入門-如何成為AI工程師
BAT資深演算法工程師獨家研發課程
最貼近生活與工作的好玩實操項目
班級管理助學搭配專業的助教答疑
學以致用拿offer,學完即推薦就業
新人福利
關注 AI 研習社(okweiwu),回復1領取
【超過 1000G 神經網路 / AI / 大數據資料】
基於典型相關分析的詞向量


※阿里將 TVM 融入 TensorFlow,在 GPU 上實現全面提速
※2018 Data Science Bowl 第一名方案新鮮出爐,鑒定細胞核新技能 get
TAG:AI研習社 |