當前位置:
首頁 > 科技 > Google I/O 李飛飛等四領域女性專家,談機器學習的過去、現在和未來

Google I/O 李飛飛等四領域女性專家,談機器學習的過去、現在和未來

機器之心原創


作者:李亞洲、李澤南、虞喵喵


在 Google I/O首日的 Keynote中,Google 公布了一系列新的硬體、應用和基礎研究。自去年提出 AI First 戰略,今年的大會上 Google 同樣安排了不少與機器學習開發相關的內容,比如《教程 如何使用谷歌 Mobile Vision API 開發手機》。


今天是 Google I/O 的最後一天,一場討論機器學習前沿研究與未來方向的 Session 同樣不容錯過。谷歌雲人工智慧與機器學習首席科學家李飛飛將與谷歌雲部門主管 Diane Greene 等頂級專家,共同討論 Alphabet 的機器學習研究與未來。

Google I/O 李飛飛等四領域女性專家,談機器學習的過去、現在和未來


Dinae Greene 主持了此次對話,其他參與者包括:


Fran?oise Beaufays,谷歌語音識別負責人。


李飛飛,谷歌雲科學家、斯坦福人工智慧實驗室負責人


Fernanda Viegas,谷歌高級研究員、計算設計員(computational designer)


Daphne Koller, Alphabet 旗下 Calico Labs 的首席計算官(Chief Computing Officer)、Coursera 聯合創始人


Dinae Greene:第一個問題想問一下 Daphne 對深度學習革命的看法?


Daphne Koller:我認為深度學習變革非常令人振奮,改變了如今生活的許多方面。這一變革來自於許多機器學習研究員想出的演算法。在此之前的十至十五年,深度學習經歷了非常困難的一段時間來開發模型、動手實踐更多想法和更多的先驗知識。當時,我們需要考慮模型的具體細節以及它與領域(domain)的關係,因為那時你沒有很多的數據,需要用更多的人類直覺替代數據從而構建模型。


隨著我們有越來越多的數據,一些領域發展了,比如圖像和語音都是很好的例子。我們開始用越來越多的數據替代其中的人類觀念作為平衡。但過去十幾年的發展為如今的進步鋪平了道路,包括方法和運算演算法,都是如今深度學習成功的關鍵。


我們可能認為大數據是所有事的關鍵,但我認為它是一些特定領域的解決方案,一些領域還只有中級或者少量的數據,所以這些領域還需要平衡人類直覺與現在豐富數據領域所想出的模型。

Dinae Greene:李飛飛,你之前負責斯坦福的人工智慧實驗室,現在又來到谷歌,希望把人工智慧帶給大眾,對於這個轉變你有什麼看法?


李飛飛: 人工智慧大約有 60 年歷史,在科學發展歷程中屬於年輕的學科。在 60 年前,當機器開始進行簡單的數學計算時,人們開始認真考慮阿蘭·圖靈提出的暢想:機器是否可以思考,是否會有一天能夠擁有智能?傑出的計算機科學家 Marvin Minsky、John McCarthy 等人(均為 MIT 的學者)共同構建了人工智慧作為一個學科的框架。人工智慧的研究在幾十年的發展中出現了很多新的技術,但一直遵循著先驅們當初的核心想法,探索人工智慧思考、社交、說話、交流能力。人工智慧已經有了幾輪的技術大發展。從邏輯、早期的機器學習,再到今天的深度學習革命。我把這 60 年的發展看做是解決這一領域的基礎問題的過程,尋找有潛力完成人工智慧任務的分支學科,如機器人、計算機視覺、自然語言理解、語音識別等等。在這個過程中,我們也在不斷考量自己前進的速度,試圖讓機器理解數據,打造新的工具。


在 2010 年左右,統計機器學習工具的成熟、網路與感測器帶來的大數據以及高性能計算晶元帶領人工智慧從積累階段進入了發展階段。


人工智慧發展階段意味著人工智慧開始對世界產生真正的影響了。現在只是這個新時代的開始,所有行業都會受到人工智慧的影響。在 Google Cloud,我們可以看到,隨著人工智慧、數據和機器學習的發展,世界的格局將產生改變。目前我們在人工智慧領域開發的工具和技術只是人工智慧的滄海一粟。我們或許不應該對人工智慧過份期望,但人工智慧必然會在很多方面為我們帶來幫助。


Dinae Greene:Fran?oise 你作為語音識別的前沿研究者,而如今語音識別應用已經非常普遍了,你能介紹下這個變革嗎?


Fran?oise Beaufays:我大約 12 年前加入谷歌,團隊中有不少人都想用語音識別做出有用而又有趣的東西來。如果你了解語音識別,那你應該知道語音識別已經存在有段時間了,但我們想做一些有趣的東西。但當時挺困難的,因為當時語音的質量不像如今,我們只能從一些有限的產品開始做起,比如識別一個人說的不算難的語音。我們只是想有所推進,但並不是很多。因為我們需要讓產品足夠成功,人們才會使用我們的應用,我們才有更多的數據訓練模型。


所以當時我們建立了 Google 411,一個語音搜索服務。要知道,12 年前還沒有 iPhone,但谷歌領導層很支持我們,到了後來所有的事情都發生了變化,我們看到了回報。


Dinae Greene:Fernanda 你希望能讓數據可視化變得更大眾化,對此有什麼想說的?


Fernanda Viegas:我做數據可視化有十幾年了。最開始的數據可視化要比現在難得多,那時計算機並不好用,能用的數據也非常少。變化的開始是我們發現不論什麼地方,人們都在與數據可視化互相作用。讓人興奮的是新聞業開始應用數據可視化,講非常複雜的故事,我們經常開玩笑說「數據可視化是統計學的 Gateway Drugs(誘導性毒品)」,因為在不知情的情況下你已經在使用統計學了,我們實在是太擅長抽象模式和勾勒輪廓了。


數據可視化正在變得大眾化,它幫助人們更好的了解數據和數字的意義。人工智慧方面,Geoffery Hinton 和他的同事們的人工智慧可視化研究造成了非常大的轟動。人工智慧或者機器學習最大的挑戰是系統的空間維度太高,人們很難理解這些系統。數據可視化是讓人們能站在最高點了解系統的方法之一,Hinton 開發的技術幫助我們理解不同模塊如何共同發揮作用,以及它們之間關係如何,因此,我將它視作重要的進步。當然,我們同樣站在用數據可視化幫助人工智慧進步的開端。

Dinae Greene:接下來我們會更技術一點,Fran?oise 先談一下語音識別的一些挑戰。


Fran?oise Beaufays:因為我們每個人有不同的聲音、口音、語言,所以語音識別非常複雜。語音識別一直都是基於機器學習的,神經網路的使用是非常重要的轉折。語音識別很早就使用了神經網路,當時也有很多有潛力的結果,但沒有計算支持。所以神經網路有曲折,而語音識別在一些基礎方法上也有所進步,比如高斯混合模型。


當我們再次深入深度神經網路的時候,需要處理很多挑戰,延遲問題、信號、訓練等等。最終,當深度神經網路變得可靠時,它也開啟了其他領域的道路。我們能夠快速的從一種架構發展到另外一種,比如循環神經網路(LSTM)、卷積神經網路、CTC 等。深度神經網路的發展打開了語音識別能力的大門。


Dinae Greene:Daphne 作為 Calico 的首席計算官與機器學習頂級研究員,能介紹下你的工作嗎?


Daphne Koller:很多人可能不知道 Calico,Calico 是 Alphabet 旗下的公司,致力於了解衰老的秘密,以及讓人們更健康的生活。40 歲以後,不管是心血管疾病還是癌症,發病幾率隨著年齡增長越來越高,但我們並不知道原因。


為了了解原因,我們必須研究衰老在生物系統和分子層面上的原因。我不認為我們會永生,但可以活得更久更健康。最早加入我們的科學家之一 Cynthia Kenyan 展示了一種基因突變,可以將蟲子的生命延長 30%-50% 的同時保持健康。人類也可以同樣如此嗎?


為了達到這個目標,我們還有很多研究要做。我們收集所有關於壽命的數據,蟲子的、酵母的、蒼蠅的、老鼠的還有人類的,以及他們在分子層面有什麼相似之處,沒有任何人有能力收集從生物層面到整個人類層面的所有不同類型的數據,包括 DNA、RNA、圖像等等。


應該如何將這些數據結合起來,了解衰老的原因?如何延緩衰老、延長壽命才是最有效的?收集數據需要協作,機器學習專家可以設計模型、將數據綜合起來,單打獨鬥是無法成功的。


Dinae Greene:李飛飛,你曾在 TechCrunch 上說視覺是人工智慧領域的「killer App」,這有何含義?AI 民主化的含義又是什麼?與 Google Cloud 有何關係?


李飛飛:有人問圖像識別的殺手級應用是什麼,我會說圖像識別是人工智慧的殺手級應用。有兩個原因。第一個來自於自然,4.5 億年前,生物界出現了一次前所未有的大進化,一些很小的種群脫穎而出產生了生物大爆發,這是如何發生的呢?科學家們多年來一直感到困惑。近年來,一個具有說服力的理論認為這是因為部分動物發展出了視覺,動物進化的路線由此發生了改變。4.5 億年後,人類成為了最具智慧的有視覺生物,事實上,進化給予了我們處理複雜視覺信息的能力,因為這種能力很重要。

另一個證據來自我們生活的世界,今天,數據洪流席捲了整個世界。在 YouTube 上,人們每分鐘都會上傳超過 300 小時的視頻;有統計顯示,互聯網上超過 80% 的數據是圖像形式的。看看我們使用的感測器,醫院、自動駕駛汽車中的設備正在不斷產生圖像數據。圖像數據對於所有公司來說是最具價值的內容。在 Google Cloud,我們對客戶提供所有類型的圖像處理服務。對於計算機視覺來說,現在是一個激動人心的時代。在語音識別和深度神經網路的啟發下,視覺在過去十年取得了非常多的成就。計算機視覺已從最基礎的圖像識別發展起來。目前物體識別和圖像標註技術已經應用在 Google Photos、自動駕駛汽車等領域。


我認為,計算機視覺接下來更重要的是,視覺在交流和語言等方面佔據著很重要的地位,我們講故事、辨別事物、區分視頻類別都是在進行圖像識別。將計算機視覺和語言結合在一起會非常有趣。而計算機視覺在生物醫療上的潛力也引人關注。所以,計算機視覺有非常大的機會發揮作用。還有不要忘了機器人,機器視覺和機器人是分不開的,而只要人工智慧還在推進,人們就會一直研究機器人。機器人需要知道自己身處何處,這需要強大的感知系統,在這裡計算機視覺就能派上用場了。


所以,我認為計算機視覺是機器智能最重要的部分,它也將會改變未來公司的形式。


Dinae Greene:Fernanda,如果計算機視覺是機器學習最有前景的方向,那麼你眼中的未來是什麼樣的?


Fernanda Viegas:回到李飛飛的話題,谷歌有很強大的計算機視覺系統。我們會不斷使用它,試圖探究計算機是如何處理任務的。機器學習接收大量數據,從大量可能性中找到答案。計算機視覺就像用有秘密武器一樣可以理解它接收到的圖像。我們非常在意其中的原理,其原因在於可解性,可修正性和可教育性。只有當我們理解了機器學習真正的過程,我們才能教育更多的人成為專家。另外,還有一個重要的地方是,通過計算機視覺,我們永遠會讓工作流程中有人類的參與,這對於系統的可靠性至關重要。


我想給大家講一個在研究中的小故事。以谷歌翻譯為例,谷歌翻譯是大量不同語言輸入進同一系統經過訓練的成果。經過訓練後,研究人員逐漸發現了機器學習翻譯的原理。此外,我們還發現了沒有料到的東西:zero-shot translation,讓機器可以在此前未見的情況下進行正確翻譯。在實驗中,對於研究人員來說最基礎的問題是:這個系統是如何解析多種語言數據的?機器學習系統是在內部構建了英語、西班牙語、葡萄牙語的模型嗎?還是它將所有一切都混合在一起處理?它或許學會了所有語言的真正意義。我們對此做的是將計算機處理的過程可視化了。


有意思的是,當我們把計算機處理句子的過程可視化時,發現機器學習系統在每個語言同一句話上的相應部位中的高亮位置是一樣的。這意味著機器學習學到了所有語言的共同表達方式,換句話說,我們第一次看到了「世界語」的形式。這太棒了,這就像是在看著計算機「大腦」的核磁共振照片一樣:看啊,多麼震撼。而當我們看到某個語言的高亮位置和大多數語言不同時,我們可以知道這個語言的翻譯結果不好。


這就是可視化帶來的好處:讓我們能更理解機器學習,讓它變得更好。在未來,我們要做的事是和李飛飛一起推動人工智慧的民主化。我相信,多樣性做得越好,我們的技術就越有希望。今天,人工智慧還是以工程師為中心,我們正在接納科學家、設計師等更多群體,他們帶來的想法是我們從來沒有想過的。有了他們,我們就能開展新的探索。


Dinae Greene:Fran?oise,我想問你有關語音識別的問題,未來的語音識別將會面臨哪些挑戰?


Fran?oise Beaufays:在語音識別領域中,我們面臨一些需要注意的挑戰。在遇到新的聲音片段時,我們需要儘快讓機器學會理解。例如口吃、深呼吸等現象,這些數據需要被輸入到已經訓練過的模型中再次對模型進行訓練。例如在 Google home 上,即使這樣的產品已經出現在消費者的家中,我們仍然需要收集這些產品收集到的數據改進我們的模型。我們進行了大量的模擬、研究,在訓練時加入噪音,使用了大量數據。我認為最有意思的是,語音識別設備需要面對多種不同語言,我們希望谷歌的產品可以自動識別所有人說出的語言。稍作思考就會發現,這是一個很大的挑戰。

如果你詢問一個語言學家,他/她會告訴你世界上大約有 6000-7000 種語言,大約有 1400 種語言有超過 10 萬人在使用。如果我們想要把自己的產品送到每個人手中,這就需要發揮創造性。讓機器學習系統在每個語言中發揮作用。


Dinae Greene:我想問一下李飛飛對未來有什麼看法?


李飛飛:我就從一個維度說一下,我深信人工智慧是第四次工業革命的驅動力。如今還只是開始,但它有潛力變革人類生活、工作、交流的方式。我最喜歡的一種說法是一位哲學家曾說沒有獨立的機器價值觀,機器價值觀就是人類的價值觀。這激發我的是人工智慧要包含更多的科技來建立未來,因為一旦我們有更多多樣性表達,我們能建立面向整個人類的技術,而非片面的技術。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

谷歌發布機器學習演算法 AutoML,能自行設計神經網路構架
谷歌IO李飛飛等四位女性專家,談機器學習的過去、現在和未來
回歸、分類與聚類:三大方向剖解機器學習演算法的優缺點
基於大數據和機器學習的Web異常參數檢測系統Demo實現
Linux內核添加異構內存管理將帶來加速GPU的新方式,還有可能帶來其他類型的機器學習硬體

TAG:機器學習 |

您可能感興趣

前Google、Apple、Stanford的頂級地圖專家加盟,DeepMap公布了一個超豪華的技術顧問委員會陣容
Oculus專家將在Display Week上探討下一代VR/AR顯示技術
GitHub因Memcached漏洞遭遇DDoS攻擊,專家稱攻擊會持續發生!
Method-2:一款遭專家抵制的韓國軍事機器人
專家教您擺幾個pose,對腰痛say goodbye!
都在期待電池技術突破,聽麻省理工電化學專家Donald Sadoway怎麼說
微軟、Imagination、雲天勵飛、中科院專家齊聚,直擊AI應用8大痛點!
手腕上運動專家,15種模式指導你運動更科學—Garmin vívoactive3 戶外運動腕錶評測
Steam遊戲《超級情聖(Super Seducer)》用真人出演教你撩妹 還有專家進行指導
五位專家跟你講講為啥Python更適合做AI/機器學習
自組電腦模擬遊戲《PC Building Simulator》,玩完可當組裝電腦專家?
投資專家Kari Mork加入Market.space成為項目顧問
Nutrients:益生元研究的最新進展——專家研討會聲明
【LeCun發聲】牛津大學專家:Facebook不算數據泄露,你們都錯了
人工智慧精神病專家 AI Shrink
為什麼Python更適合做AI/機器學習?五位專家給你答案
專家觀點-如何監管Facebook?
LeCun發聲:牛津大學專家:Facebook不算數據泄露,你們都錯了
與iPhone X比較專家認為S9更強?
NLP頂級專家Dan Roth:自然語言處理領域近期的任務和主要應用