從物理學、社會學、天文學、醫學到化學,科學界正在被人工智慧改變
出行、消費、健康醫療、金融等應用場景之外,人工智慧技術也在改變科學本身。
整理 | Lj Linjing 劉燕
來源 | Sciencemag
AI早期試驗場:尋找新粒子
正如「神經網路」一詞能讓公眾展開無盡遐想,粒子物理學家們從上個世紀 80 年代就開始搗鼓人工智慧。由於幾乎每項試驗都是在複雜粒子檢測器的無數高度相似數據中發現微度空間的模式— — 這正是 AI 所擅長的,所以人工智慧和機器學習自然而然地適用於粒子物理學領域。「我們花了許多年的時間來讓人們相信這一切不是魔術,不是變戲法,也不是黑箱操作。」說這話的是Boaz Klima,伊利諾伊州巴爾迪莫費米國家加速器實驗室( Fermilab )首批使用該技術的物理學家之一。
為了解宇宙的奧秘,粒子物理學家們需要粉碎亞原子粒子,同時用巨大的力量炸出新的異常物質(物理學中,異常物質指的是與普通物質不同,具有奇異特性的物質的統稱)。比如,在 2012 年,科學家使用世界上最大的質子對撞機(瑞士的大型強子對撞機( LHC ))發現了傳說中的希格斯玻色子。這顆稍縱即逝的粒子正是物理學家們解釋其他所有基本粒子如何獲得其質量的關鍵。
然而,這種異常物質很難定性。在 LHC 中,大約每 10 億個質子碰撞中才會出現一個希格斯玻色子,而且在十億分之一皮秒內,它會衰變成其他顆粒,比如一對光子或被稱為μ子的四分之一粒子。為了「重建」一個希格斯玻色子,物理學家們必須發現所有更常見的粒子,看其是否能與來自同一種父輩物質一致的方式相配合——在典型的碰撞過程中, 大量不相關的粒子群使這項工作變得更加困難。
費米實驗室的物理學家 Pushpalatha Bhat 說,神經網路演算法優於直接從原始數據中篩選信息。在粒子檢測器中——這通常是一個由各種感測器組成的巨大的桶狀結構——光子通常在被稱為電磁熱量計的子系統中產生粒子噴霧。雖然電子和粒子都被稱為強子,但它們的簇與光子還是有細微的差異。機器學習演算法可以通過探測這類簇的多個變數之間的相關性來辨別差異,同時也可以幫助區分源自任意一對由希格斯衰變後產生光子。「這就好比大海撈針,」Bhat說,「所以從數據中提取最多的信息非常重要。」
機器學習尚未攻克這一領域。物理學家們仍主要靠對隱含物理學的理解來找出與新粒子相關的數據。但 AI 很可能變得愈來愈重要,加州伯克利勞倫斯伯克利國家實驗室的計算機科學家 Paolo Calafiura 說。2024 年,研究人員計劃升級 LHC 以將碰撞率提高10 倍。Calafiura 說,在這一點上,機器學習對於能否跟上數據大潮至關重要。
演算法如何分析大眾情緒
社交媒體每年數以十億計的用戶以及數以千億計的推特和帖子為社會科學帶來海量數據。心理學家 Martin Seligman 認識到這也為利用人工智慧研究大眾傳播的走向提供了前所未有的機會。在賓夕法尼亞大學正面心理學中心進行的世界福祉項目( World Well-Being Project )中,他與 20 多位心理學家,醫生和計算機科學家使用機器學習和自然語言處理方法來篩選數據,以檢測公眾身心健康狀況。
這通常是由調查問捲來完成的。但是,社交媒體數據 「不起眼,價格便宜,而且數量級更大」,Seligman 說。 這些數據當然首先需要大量預處理,但 AI 同時也提供了強大的可視化工具。
在最近的一項研究中,Seligman 和他的同事們對 29,000 位參與了抑鬱自我評估的臉書用戶的日常更新進行了跟蹤。 使用其中的 28,000 個用戶的數據,機器學習演算法發現了更新所用的辭彙與抑鬱水平之間的聯繫。然後可以根據其更新內容成功預測其他用戶的抑鬱情況。
在另一項研究中,小組成員通過分析 1 億 4890 條推特來預測郡縣的心臟病死亡率。與憤怒和負面關係有關的字眼被歸為危險誘因。由社交媒體信息推測出來的數據較傳統印象中的所謂十大關鍵誘因,比如吸煙和糖尿病,更接近真實的死亡率。通過社交媒體信息,研究人員還可預測出人格,收入,政治傾向;同時還研究醫療護理,過往經歷以及定向模式。通過推特數據,該團隊甚至根據幸福指數,抑鬱程度,信任度和五種人格特質,創建了一張美國郡縣地圖。
「語言與心理學的交叉分析註定會有一場革命。」德州大學奧斯丁分校的社會心理學家 James Pennebaker 說,他關注的重點不是內容而是行文風格。比如,通過觀察大學申請書中使用的功能詞可以預測成績。冠詞和介詞代表了辯證思維和更高的分數;代詞和副詞則代表敘事思維和較低的分數。而據傳那部 1782 年的戲劇「將錯就錯」( Double Falsehood )大部分為莎翁所著,Pennebaker 也找到了相關的佐證:機器學習演算法通過諸如對認知複雜度和罕見詞等要素將其與莎翁其他作品進行匹配。「現在我們可以對你之前發布和撰寫過的所有內容進行分析。」Pennebaker說,結果就是,「越來越多的圖片拼湊出一個原本的你。」
梳攏自閉症基因
對於基因學家來說,自閉症是一項惱人的挑戰。遺傳圖譜表明它具有很強的先天性遺傳因素。但已知的在自閉症中發揮一定作用的數十種基因的變體只能解釋約 20% 的病例的病因。在其他 25,000 種人類基因和相關DNA數據中找到其他的變體或許可以對完整解釋自閉症有一定幫助。所以普林斯頓大學計算生物學家 Olga Troyanskaya 和紐約西蒙斯基金會( Simons Foundation in New York City )也拿起了人工智慧的武器。紐約基因組中心創始人兼洛克菲勒大學臨床醫學科學家羅伯特·達內爾解釋說:「我們只能做到像生物學家那樣,發現類似自閉症這樣的疾病到底隱藏著什麼秘密。一台機器可以搜索成兆問題的同時一個科學家只能找出 10 個。這完全改變了遊戲規則。」
Troyanskaya 收集了上百個數據集,其中包括特殊人體細胞內活躍基因的數據,蛋白質如何相互作用以及轉錄因子與其他關鍵基因組特徵結合點位於何處的數據。然後她的小組利用機器學習構建了一個基因相互作用圖譜,並把少部分已知的能夠促成自閉症的高危基因與其他數以千計的基因進行比較,找出其中的相似度。他們在去年的自然神經科學雜誌( Nature Neuroscience )上發布了 2500 個可能與自閉症有關的基因。
但是基因學家們近期才意識到,基因並不是孤立的。它們的行為是由數百萬附近的非編碼基因聯合造成的,而且與 DNA 結合蛋白以及其他因素相互作用。識別哪些非編碼變體可能影響附近的自閉症基因是比找到病變基因本身更難的問題,特洛伊斯卡亞所在實驗室的研究生 Jian Zhou 正在試圖用 AI 解決這個問題。
為訓練深度學習系統,周將該系統運用於從 Encyclopedia of DNA Elements, Roadmap Epigenomics 收集到的數據。這兩個項目列出了成千上萬個非編碼 DNA 如何影響鄰近基因的點位。該系統學習了應該抓住哪些特徵,因其預估了未編碼 DNA 的潛在活動。
在周和特洛伊斯卡亞在 2015 年 10 月的《自然》雜誌上發表了他們的 DeepSEA 研究之後,加州大學艾爾文分校的計算機科學家 Xiaohui Xie 盛讚這是「應用深度學習邁向基因組工程的里程碑」。現在,普林斯頓的團隊正通過 DeepSEA 運行自閉症患者的基因組,對非編碼基因的影響進行排序。
Xie 也準備將 AI 應用於基因組,而且相較自閉症側重更廣。 他希望通過研究任一基因演變為有害基因的或然性來對基因突變進行分類。但他認識到,在基因組學中,深度學習系統只能在其訓練的數據集上表現得很好。他說:「人們懷疑這樣的系統是否能可靠地解析基因組。但我認為,越來越多的人會接受深度學習。」
通達天意的機器
今年 4 月,天體物理學家凱文·沙文斯基( Michael Schawinski )在 Twitter 上發了幾張模糊的星系圖片,並問有沒有同仁能幫他區分出這四個星系。同事們說,這些圖像看起來很像與銀河類似的橢圓螺旋星系。
一些天文學家懷疑這是 Schawinski 的小把戲,直截了當地問,這些是真正的星系還是在計算機上模擬建模出來的?事實上都不是。瑞士蘇黎世理工學院的 Schawinski ,計算機科學家席 Ce Zhang ,以及其他合作者,用對物理學一無所知的神經網路造出了這些星系。
Schawinski 只想通過這條 Twitter 來表明神經網路生成的東西有多麼逼真。但他更大的目標是創造一些類似電影中的技術,可以神奇地使模糊的監控圖像變得清晰。神經網路可以使一張模糊的星圖看起來像是用一台高性能望遠鏡拍攝的,然而實際使用的望遠鏡或許沒那麼好。這也能夠讓天文學家從中觀測出更精細的細節,「用於天文觀測的錢多達數千萬甚至數十億美元,」Schawinski 說,「藉助這項技術我們可以立即獲取更多的信息。」
這張星系圖片是由生成對抗網路( generative adversarial network )生成的,這是一種機器學習模型,將兩個對抗的神經網路相互作用。一個是產生圖像的生成器,另一個是試圖減少生成圖片缺陷的鑒別器 —— 用來提高生成器的功能。Schawinski 團隊拍攝了數千個星系的真實圖像並人為地降低解析度, 然後研究人員讓生成器更聰明地處理圖像,以便能夠通過鑒別器的鑒別。 最終,神經網路對星系圖片降噪處理可能會優於其他技術。
費米實驗室的天文物理學家布萊恩·諾德( Brian Nord )說,Schawinski 的方法是機器學慣用於天文學中的特別前衛的例子,但絕不是唯一一個。在 1 月份的美國天文學會會議上,諾德提出了一種機器學習方法來追蹤強引力透鏡:當遙遠星系的圖像在傳往地球的過程中經歷扭曲時空時,形成了天空中罕見的光弧,這些鏡頭可用於測量宇宙的距離,並發現不可見的超濃縮物質。
強引力透鏡在視覺上很獨特,難以用簡單的數學規則來描述。這使傳統的計算機很難抉擇,但卻容易為人所掌握。Nord 等人意識到,經過數千個鏡頭訓練的神經網路可以獲得類似的感知。 在接下來的幾個月中,「實際上已經有十幾篇論文在使用機器學習來尋找強大的鏡頭。 大多數匆忙上陣。」Nord 說。
這只是越來越多的天文學認知的一部分。人工智慧提供了一種強大的方法在 PB 級數據中查找和分類有趣的對象。 對Schawinski 來說,「我認為這個時代真的會變成一個『哦,上帝,數據太多了』的時代。」
神經網路學習化學合成之道
有機化學家是一切向後看的專家。像大廚從考慮成品菜的樣子開始然後研究具體做菜步驟一樣,許多化學家從他們想要造的分子的合成開始,然後考慮如何組裝。德國明斯特大學研究生賽格勒(Marwin Segler)說:「你需要合適的食材和菜譜來組合它們。」他和其他人正將人工智慧引入他們的分子廚房。
他們寄望 AI 可以助其應對分子生成的關鍵挑戰:從數百個潛在的模塊中精挑細選,並連接以數千個化學規則。幾十年來,化學家們嘔心瀝血地攢出具有預裝響應能力的計算機,希望能夠創建一個能快速計算出最簡分子配方的系統。 然而,塞格勒說,化學「非常微妙,二進位很難覆蓋所有規則。」
所以塞格勒,明斯特的電腦科學家邁克·普雷斯( Mike Preuss )及其導師馬克·沃勒( Mark Waller )都轉向了 AI 。他們通過深度神經網路模型替代了生硬快速的化學反應規則進行編程,從數百萬的例子中自行學習化學反應的過程。「提供的數據越多越好,」賽格勒說。 隨著時間的推移,模型學會了預測合成所需步驟的最佳反應。 最終,它可以從零開始自己製造分子。
三人用 40 個不同的分子測試了機器學習程序,將結果與傳統的分子生成程序進行了比較。在今年的一次會議上,他們做了相關發言。常規程序在 2 小時計算窗口中僅有 22.5% 的時間用於提出合成目標分子的解決方案,而 AI 是 95% 。即將前往倫敦製藥公司工作的塞格勒希望採用這種方法來改善製藥環節。
斯坦福大學的有機化學家保羅·溫德( Paul Wender )表示,現在對塞格勒方法下結論還為時尚早。 但是,他認為「可能會產生深遠的影響」,不僅僅在構合成已知的分子方面,而是在生成新的分子方面。 塞格勒補充說,有機化學家不會很快被人工智慧所取代,因為他們的能力遠遠不止預測反應如何進行。 但像GPS導航系統一樣,人工智慧可以領航但它不能自己設計和實現一個完整的化學合成。
當然,所有 AI 開發人員都得眼觀六路融會貫通。


※從健康應用和疾病預防、到延緩衰老和遠程醫療,人工智慧正在革新醫療價值鏈
※使用深度學習進行醫療影像分析:文件格式篇
※機器學習在金融領域的四大優勢和五大應用
※計算語言頂會ACL 2017開幕在即:國內接收論文梳理
※計算語言頂會ACL 2017開幕在即:國內接收論文梳理(5篇傑出論文)
TAG:機器之心 |
※專家學者解讀哲學社會科學界「三大體系」建設
※美國研發新型物質,金剛石跌下神壇,引科學界和物理學界轟動
※數學和哲學——科學界相愛相殺的一對
※中國科學界的無冕之王——錢學森
※世界著名物理學家霍金去世,科學界的巨星隕落
※科學家研製新型醫療設備,可修復人體神經系統,引科學界轟動
※中國科學家發現蜘蛛乳汁震動科學界!
※未來科學大獎——科學界的「奧斯卡」
※中國科學家成功克隆猴子,引起世界科學界倫理爭議
※哲學社會科學界深入開展「不忘初心、牢記使命」主題教育
※中國學者新發現顛覆科學界對「RNA病毒圈」認知
※機器學習有毒!被指讓科學家更自欺欺人,給科學界帶來危機
※超級地球引科學界轟動!科學家:或將成為移民的最佳星球
※「榜單」十年來中國社科學界綜合學術水平排名:王利明列法學首位
※科學界「奧斯卡」,未來科學大獎星光熠熠
※科學家眼裡的「佩奇」長什麼樣?它是科學界香餑餑
※科學精神何以在中國茁壯生長?科學界、媒體界大咖如是說
※科學界的競爭,並不亞於宮斗
※未來科學大獎星光熠熠 成就科學界「奧斯卡」
※不負人民重託 彰顯使命擔當 哲學社會科學界代表委員認真履職