當前位置:
首頁 > 科技 > 逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了

逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了

銅靈 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

逆天的語言模型GPT-2又有最新開源進展了!

GPT-2,這個造假新聞編故事以假亂真,能完成閱讀理解、常識推理、文字預測、文章總結等多種任務的AI模型,從誕生開始就引起大量關注。

但因一開始只放出了117M的小型預訓練模型,OpenAI還被網友調侃為「ClosedAI」。OpenAI表示,不是不開源,而是時候未到。

剛剛,OpenAI宣布將其345M的預訓練模型開源,外加其Transformer的1.5B參數。

這一次,你也可以將最強語言模型,用到自己的項目中了。

稱霸各大語言建模任務

語言模型GPT-2在語言建模任務中,簡直是逆天般的存在。

作為一個沒有經過任何領域數據專門訓練的模型,它的表現比那些專為特定領域打造的模型還要好,橫掃各大語言建模任務。

GPT-2在不同語言建模任務上的測試結果(從左到右:數據集名稱、指標類型、GPT-2測試結果、此前最好結果、人類水平)

一經問世就獲得了Hinton等大牛的強推和關注。

簡單來說,GPT-2就是基於Transformer架構的大規模模型。

GPT-2是GPT演算法「進化版」,比GPT參數擴大10倍,達到了15億個,數據量擴大10倍,使用了包含800萬個網頁的數據集,共有40GB。

這個龐大的演算法使用語言建模作為訓練信號,以無監督的方式在大型數據集上訓練一個Transformer,然後在更小的監督數據集上微調這個模型,以幫助它解決特定任務。

上圖左部分,是研究中使用的Transformer架構以及訓練目標。右邊部分,是針對特定任務進行微調。將所有結構化輸入轉換為token序列,由預訓練模型處理,然後經過線性 softmax層處理。

就GPT-2而言,它的訓練目標很簡單:根據所有給定文本中前面的單詞,預測下一個單詞。

幾天前,在此架構基礎上改進得到的模型MuseNet,也能預測一段音樂中下一個音符是什麼了,還用貝多芬的曲風續寫阿黛爾的Someone Like You,讓莫扎特續寫披頭士。

不來了解一下?

傳送門

最後,附上GitHub代碼地址:

https://github.com/openai/gpt-2

GPT-2數據集地址:

https://github.com/openai/gpt-2-output-dataset

OpenAI介紹主頁:

https://openai.com/blog/better-language-models/#update

小程序|get更多AI資訊與資源

加入社群

量子位AI社群開始招募啦,量子位社群分:AI討論群、AI 行業群、AI技術群;

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI 行業群需經過審核,審核較嚴,敬請諒解)

喜歡就點「在看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

天文學家首次拍到黑洞:質量是太陽400萬倍,照片4月10日晚公之於眾
SpaceX載人龍飛船意外爆炸,據稱幾乎被完全摧毀

TAG:量子位 |