當前位置:
首頁 > 新聞 > 用AI寫出的第一本書面世:先進演算法能對機器生成的內容負責嗎?

用AI寫出的第一本書面世:先進演算法能對機器生成的內容負責嗎?

發表的研究數量超過任何學者希望跟上的數量,但很快他們可能會依賴AI同伴閱讀數千篇文章並從中提取摘要——這正是歌德大學的一個團隊所做的。

學術出版商 Springer Nature 出版了第一本由機器學習生成的書籍——《鋰離子電池:機器生成的當前研究摘要》,它概述了鋰離子電池領域的最新研究成果,大約250頁。

與電池研究一樣有趣的是,它只與該項目的實際目的相關。人工智慧的創造者,在本書的廣泛而有趣的序言中,解釋了他們的意圖更多的是開始討論機器生成的科學文獻,從作者問題到技術和道德問題。

換句話說,他們的目的是產生問題,而不是答案。他們有豐富的問題??:

誰是機器生成內容的創始人?演算法的開發人員可以被視為作者嗎?或者是從初始輸入開始的人(例如「鋰離子電池」作為術語)並調整各種參數?是否有指定的發起人?誰決定一台機器應該首先產生什麼?從道德的角度來看,誰對機器生成的內容負責?

這裡面用到的技術,是由Springer Nature和法拉克福歌德大學共同開發的一種先進演算法:Beta Writer。它使用的是基於相似性的聚類分析,將海量的源文檔排列成連貫的章節,然後創建文章的簡潔摘要,同時,將文章內部加入超鏈接,這樣利於讀者進一步閱讀原始的文章。

AI這種創新化的結構化摘錄成書,有利於研究人員更高效地管理海量信息,以及人們從海量內容里快速選擇、使用和處理相關領域的文檔。

他們之間已經進行了激烈的辯論,他們的同行以及與他們合作製作這本書的專家,研究人員清楚地知道這只是一個開始。但正如Henning Schoenenberger在序言中所寫的那樣,我們必須從某個地方開始,這就像任何地方一樣好。

確實,我們已經成功地開發了第一個原型,這也表明還有很長的路要走:大型文本語料庫的提取性總結仍然不完善,而且有時複述文本、語法和短語聯想仍然顯得笨拙。但是,由於我們要突出顯示機器生成內容的當前狀態和剩餘邊界,我們明確決定不對任何文本進行手動修改或複製編輯。

正如他們所說,這本書本身就是不完美和笨重的。但聽起來自然的語言只是人工智慧嘗試的任務之一,因為它而忽略整體的成功是錯誤的。

人工智慧在這個高度技術性的主題上分發了數千篇關於1,086篇論文,分析它們以找到關鍵詞,參考文獻,「代詞回指」等等。然後根據他們的發現對論文進行聚類和組織,以便以邏輯的、基於章的方式呈現。

代表性的句子和摘要必須從論文中提取,然後重新制定以供審查,這既是出於版權的原因,也是因為原文的語法在新的背景下可能不起作用。(團隊談到的專家說,他們應該儘可能接近原文的意思,避免「創造性」的解釋。)

想像一下,論文中最好的句子開頭是「因此,正如2014年論文所建議的那樣,它產生的絕緣係數提高了24%。」

AI必須很好地理解論文,它知道「它」是什麼,並且在重構句子時,將「it」替換為該項,並且知道它可以取消「因此」和最後的旁註。

這必須完成數千次模擬,並且許多邊緣情況會彈出模型不能正確處理或產生一些公認的笨拙的用語。例如:「這種研究的主要目的是獲得具有優異性能的材料,如高容量、快速的鋰離子擴散速率,易於操作和穩定的結構。」

最終,這本書具有可讀性和可以想像的有用性,已經將大約一萬頁的研究歸結為大約250頁。但正如研究人員所說,這一承諾要大得多。

這本書裡面包含了2016-2018年發表過的150多篇權威研究論文。僅在過去3年,關於鋰電子電池的研究論文就發表了超出53000篇,這對試圖學習這一領域的科學家是一個巨大的挑戰,但AI的自動掃描和總結輸出,能讓科學家們把更多時間用在重要的研究上。

這裡的目標似乎並不遙遠,就是能夠告訴一項服務「給我一份50頁的生物工程最後4年的總結。

文本的靈活性意味著您也可以用西班牙語或韓語請求它。參數化意味著您可以輕鬆調整輸出,強調區域和作者或排除關鍵字或無關緊要的主題。

可以預見,未來的學術出版以及各類書籍,將不再只是人為創造,而是有更多形式出現,包括了混合人機文本生成的書籍或完全由機器學習生成的文本。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 前瞻經濟學人APP 的精彩文章:

「碰瓷者聯盟」:那些躲在法律背後賺取暴利的「視覺中國」們
你們在「看」黑洞,我在看黑洞幕後的美女天才

TAG:前瞻經濟學人APP |