當前位置:
首頁 > 最新 > 對話Google產品經理、AI前沿發起人:這波人工智慧熱潮從何而來?

對話Google產品經理、AI前沿發起人:這波人工智慧熱潮從何而來?

科技行者報道

來源:Knowledge@Wharton

編譯:科技行者

AI Frontiers conference將於11月3日至11月5日在美國加利福尼亞州的聖克拉拉市舉行,Google出色的產品經理Apoorv Saxena也是AI Frontiers conference的發起人之一,他在接受沃頓知識在線(Knowledge@Wharton)的採訪時談到了為什麼人們對於人工智慧的興趣正在日益增長,短期內的未來會怎樣以及還有哪些挑戰需要花更長的時間來克服。

下面是經過編輯的採訪記錄。

近來人們對人工智慧的興趣急劇增長。是什麼在推動這波炒作?關於人工智慧的一些最常見的誤解是什麼?你會如何將炒作與現實區分開來?

Apoorv Saxena最近有很多因素引發了人們對人工智慧的興趣。首先是人工智慧在處理一些長期存在的問題上取得了重大進展。這些主要是指圖像和語音理解方面的問題。例如,現在的電腦能夠比人類更好地謄寫人類的講話。理解語音的工作已經進行了大約二十到三十年,直到最近我們才看到這方面的重大進展。對圖像的理解也是類似的情況,一些人類語言理解的具體部分——例如翻譯——也是如此。

通過應用一種被稱為深度學習的舊技術並將其運行在高度分布和可擴展的計算基礎設施上,這種進步已經成為可能。這個因素與可以訓練這些演算法的大量可用數據和易於使用、能夠構建人工智慧模型的工具結合在一起,構成了推動對人工智慧興趣的主要因素。

人們很自然地會將最近在特定領域的成就延展到未來。一些人甚至將目前的成功延展到深度學習並不是非常有效的領域,造成了很多的誤解和炒作。人工智慧在學習新概念並將學習擴展到新環境方面的表現仍然非常糟糕。

例如,人工智慧系統仍然需要大量的數據進行訓練。人類不需要看四萬張貓的圖像來學習如何識別一隻貓。一個人類的孩子可以看到兩隻貓,然後就會弄清楚貓是什麼而狗又是什麼——並且能夠區分這兩者。所以今天的人工智慧系統還遠不能夠複製人類頭腦的學習方式。在可預見的未來,這將是一個挑戰。

理解自然語言或對話需要大量的人類知識和背景知識。」

你會如何將炒作與現實分開?

Saxena大量的炒作來源於對當前趨勢的外推,忽略了從研究論文到工程產品中了解一些現實。作為負責使用最新的人工智慧技術構建產品的產品經理,我不斷嘗試將炒作與現實分開。想做到這一點最好的辦法是將工程師的健康懷疑與研究人員的樂觀結合起來。因此,你需要了解推動最新的、炫酷的人工智慧演示的底層技術原理,並且只能推斷那些有堅實技術基礎的技術部分。例如,如果你了解語音識別方面的改進的底層推動因素,就可以很容易地推斷出即將到來的語音識別質量的提升。結合了對自然語言理解現狀的健康懷疑,你將能夠確定正確的機會,說出在不久的將來,什麼樣的呼叫中心工作流程將會自動化。

對於人工智慧來說,哪些是短期內有可能實現的,哪些事情做起來要困難得多?

Saxena正如我在前面所說的,在諸如語音識別等較為狹窄的領域內,人工智慧現在比最好的人類更為老道,而在需要推理、語境理解和目標追尋等更為寬泛的領域,人工智慧甚至還無法與五歲的孩童抗衡。我認為人工智慧系統仍然沒有辦法很好地進行無監督學習,也沒有學會使用非常有限的數據進行訓練,或者在沒有大量人為干預的情況下進行訓練。這些都仍將是非常困難的重要問題。而最近的研究在這些方面也沒有顯示出多少進展。

Google的工程師Geoff Hinton被譽為深度學習之父,在這裡非常合適引用他曾經說過的一句話。我的引用可能不準確,但是這句話大概是這樣說的,「深度學習實際上損害了人工智慧,因為它讓很多人認為它能做一切事情,而我們知道它只能解決種類非常有限的問題。」我認為人工智慧仍然面臨著巨大的挑戰。最近的進展並沒有告訴我們何時能夠到達那裡,或者在近期能夠解決這些問題。

人工智慧是一個覆蓋了很多領域的廣闊領域,其中的一些領域對非專家來說會感覺非常混亂。例如,你和沃頓商學院的運營、信息和決策教授Kartik Hosanagar於去年四月在沃頓知識在線(Knowledge@Wharton)上發表了一篇關於機器學習民主化的文章。今天,機器學習領域中有哪些正在發生的事情令你印象最為深刻?或者令你最為吃驚?

Saxena令我印象最為深刻的是,有了真正易於使用的工具,人工智慧被如此廣泛地用於幫助這個世界。所以我們聽說過日本農民使用人工智慧來分揀黃瓜,把他們的農產品按照好壞區分開來。非洲的一些物流公司正在使用人工智慧來安排包裹路徑。人們在使用人工智慧方面表現出的革新和創意,以及他們表現出的饑渴程度總是令我感到驚訝。即使它在某些方面有局限,人們仍然在使用它並使其有意義。我對於(這種現象)絕對是超級印象深刻。

除了機器學習之外,你還有幾次提到了深度學習。對於我們很多不是人工智慧專家的讀者來說,你能否解釋一下深度機會與機器學習有何不同?深度學習中最大的突破是什麼?

Saxena:機器學習比深度學習要廣泛得多。機器學習本質上是一種計算機從數據中學習的模式,並使用學到的模式對新數據進行預測。深度學習是一種特定的機器學習技術。

深度學習的模型是建立在對人類大腦如何學習的推測的基礎之上的,並使用了神經網路——這是一種從數據中學習模式並進行預測的分層網路。所以就像人類使用不同層次的概念化來理解一個複雜的問題一樣,神經網路的每一層都以分層的方式抽象出一個特定的特徵或概念,以此來理解複雜的模式。而深度學習的美好之處在於,與其他的機器學習技術不同,當你為這些技術提供更多的培訓數據時,它們預測性能的提升會達到一個穩定的平台,而深度學習的表現會隨著數據的增加而不斷提高。此外,深度學習已經被應用於解決一些非常困難的問題,並且有非常好的表現,這些問題通常是不可能用其他技術解決的。所有的這一切讓深度學習與眾不同,特別是對於你可以輕鬆投入更多數據和計算能力的問題來說更是如此。

你能談談深度學習中讓你印象最為深刻的一些重大突破嗎?

Saxena:深度學習是一個激動人心的領域,在過去的兩到三年的時間裡,出現了許多實驗和新技術。在這裡會想到兩種技術。一個是強化學習,我稍後會解釋它。另一個重要的技術是GAN,或者可以稱之為生成對抗網路(Generative Adversarial Networks)。

這兩者都是突破,因為它們解決了我強調過的一個人工智慧的關鍵問題——如何在沒有大量人類監督的情況下學習。所以用大多數外行人士的話說,強化學習本質上是以代理為基礎的學習,代理——一個軟體程序被賦予一個優化目標,並試圖通過多條路徑進行優化,並通過從失誤或錯誤中學習來選擇最佳路徑。是同樣的技術帶來了機器學習的進步——如何玩視頻遊戲,例如Atari遊戲,或者甚至是像圍棋這樣更高級的策略遊戲。

「例如,在兩個人之間安排會面或約見就完全可以交給聊天機器人處理。」

引發了巨大興趣的另一個重要領域就是生成對抗網路或簡稱GAN。用外行人的話來說就是,想像有人和搭檔一起學習東西。所以我們從本質上來說是有兩個神經模型相互競爭和相互教學,互相促進以加快學習進程。GAN在面對被稱為無監督學習類別的問題時表現良好——對這類問題,你沒有太多的訓練數據來告訴機器要學習什麼。GAN已經被應用於圖像生成和視頻變形等方面,並已經取得了重大進展,在未來還會有更多精彩呈現。

另一個吸引了很多關注的人工智慧領域是自然語言處理,通常會涉及到智能助手,例如蘋果的Siri、亞馬遜的Alexa或者微軟的Cortana。聊天機器人會如何發展,聊天機器人的未來又會如何呢?

Saxena正如你所說,對於所有的大牌玩家來說,這都是一個投資巨大的領域。這個領域引起了很多的興趣,造成這種局面的原因有兩個。它是人們與機器交互的最自然的方式,只需與它們說話,然後機器就能理解了。這導致了計算機和人類交互方式的根本改變。幾乎每個人都認為這將是下一件大事。

儘管如此,這種技術的早期版本非常令人失望。原因是自然語言的理解或處理是非常困難的。你不能僅使用一種技術或深度學習模式——比如說就像你對圖像理解或語音理解所採用的方式——解決一切。自然語言理解在本質上是不同的。理解自然語言或對話需要大量的人類知識和背景知識。因為有很多與語言相關的語境,除非你能教會你的代理所有的人類知識,否則它就甚至可能理解不了最基本的東西。

那就是存在挑戰的地方。你提到的所有大公司都在這方面投入了大量資金。我看到在一些狹窄的領域取得了一些進展,例如訂購比薩餅或解決諸如「我的銀行賬戶快要空了,你可以讓我做這個交易嗎?」之類的問題。這樣的問題有望在短期內得到解決。但是,當你進行更開放的討論時——想像一下,你的人工智慧助手像你的精神科醫生一樣說話——這些解決方案就要深入得多,因為它們需要更深入地理解人類的知識和情感,而這是人工智慧在可預見的未來都缺乏的能力。

你覺得聊天機器人的未來會如何?

Saxena當聊天機器人運行在特定的垂直領域和語境之中時,正如我所說的,它可以做得很好。如果上下文是固定的,並且不會改變——而且,更重要的是,用戶對聊天機器人的期望是有限的——我認為在這些情況下,聊天機器人會做得很好。

我們看到聊天機器人使用的其他領域就是我們稱之為目標導向的對話。例如,在兩個人之間安排會面或約見就完全可以交給聊天機器人處理。在這種情況下,上下文是非常有限的,協調兩個人的日程安排或者預定餐廳位置。這樣就不用人打電話給餐廳進行預約了,聊天機器人可以自動完成這個任務,因為這項任務和語境都非常明確。在我看來,任何超出這個範圍的事情都仍然是非常困難的。

什麼是計算機視覺?它是否有可能使機器以人類的方式理解視頻?這個領域最有希望的業務應用是什麼?實現它最大的挑戰是什麼?

Saxena:計算機視覺是理解圖像和視頻的科學。理解圖像的一個例子是識別圖像中的對象。視頻也是一樣的。在視頻中,你可以識別你看到的不同的場景以及場景中不同的人和物體。

然後通過關聯視頻內的不同圖像或場景或框架來描述每個場景也是可能的——或者說現在正在變得越來越有可能——人工智慧可以觀看視頻並總結在視頻中看到的內容。所有這些都在計算機視覺或視覺理解的範疇之內。

有許多計算機視覺可以應用的領域。計算機視覺的一個有希望的應用領域是監視。我們有能力檢測出監控視頻中的異常。另一個大的應用是在自動駕駛車輛領域,人工智慧讓汽車知道道路上有什麼,探測物體,然後做出決定,並讓汽車據此做出決定。那是另一個大的領域。

「因此,修改視頻並對視頻進行調整,並讓它顯得非常逼真的能力將成為一個巨大的挑戰,同時也是一個巨大的機會。」

在視頻方面,我看到了很大的提升。由於我們理解視頻的能力非常有限,因此在今天視頻被稱為暗數據。但是想像一個機器可以開始理解視頻內容的世界。你將在不久的將來看到機器在幫助人們自己生成視頻方面的巨大進步。這不會完全自動化的,但是這裡的一個風險是創造偽造視頻的能力。最近你可能已經看到——這在社交媒體上可是非常受歡迎的——一個奧巴馬說假消息的視頻。修改視頻並利用人類唇形同步技術使得讓任何人相信任何事情都變得非常容易。這在這個領域內真的引起了很大的轟動。因此,修改視頻並對視頻進行調整,並讓它顯得非常逼真的能力將成為一個巨大的挑戰,同時也是一個巨大的機會。它就這樣出現了。

這聽起來真是不可思議。現在,一些大公司正在積極投身於人工智慧——尤其是美國的Google、微軟、亞馬遜、蘋果,而在中國則有百度、阿里巴巴和騰訊。創業企業和小公司在人工智慧領域有什麼機會?他們應該如何增加價值?你如何看待他們在適應更廣泛的人工智慧生態系統方面的表現?

Saxena我認為大企業和小企業都有各自的價值。大型玩家在這個領域的大量投資是建立平台,而其他人可以在這些平台上構建人工智慧應用程序。人工智慧領域的幾乎每一個玩家,包括Google在內,都創建了可供其他人構建應用程序的平台。這與他們為安卓或移動平台所做的事情類似。一旦平台建成,其他人就可以在平台上構建應用程序了。所以要聚焦在哪裡非常清楚。顯然,對於創業企業來說,在使用這些大型玩家創建的開放源代碼工具構建應用程序方面有著巨大的機會。

創業企業還將繼續發揮作用的第二個領域就是我們所謂的垂直領域。人工智慧進步的很大一部分來自於好演算法和專有數據的結合。即使是Google和其他的大牌玩家擁有最好的工程人才和演算法,他們也沒有數據。所以,例如一家擁有專有醫療保健數據的公司可以創建一個醫療保健人工智慧創業企業,並與大公司展開競爭。金融或零售等行業也是如此。

在人工智慧領域,你能舉出一些取得卓越成績的創業企業的例子嗎?他們的工作為什麼很重要?

Saxena在以人工智慧為中心的初創企業中,並沒有出現多少突破性的成功。當我說突破性成功的時候,我的意思是指數百萬美元甚至數十億美元級別的創業企業。全球有很多有前途的創業企業。例如,在客戶服務領域,我看到創業企業做得很不錯。在人力資源自動化領域,我也看到了一些不錯的創業企業。

在未來的12至24個月內,每個人都應該注意的三大人工智慧領域是什麼?為什麼?

Saxena我認為機器人與人工智慧的結合將是非常有趣的。機器人長期以來一直在採用的廣泛程度方面令人失望。這是我認為的一個領域,機器人和人工智慧的結合將是非常有趣的一個領域。你會在這個區域中看到一些值得注意的應用。有了自然語言理解和視覺理解的發展,當然還要加上機器人的進步,和人類更加相似的機器人將是一個很大的領域。這是一個我一定會關注的領域。

自動駕駛車輛也是一個重要的領域。在接下來的幾年中,我們將看到自動駕駛車輛的商業部署。

我看好我們將在視頻理解中看到的一些進步。視頻理解與虛擬現實的結合可以創造出一些有趣的突破。 這是我們應該繼續關注的另一個領域。 我看到的共同主題並不是特別的人工智慧,而是人工智慧同其他一些領域結合在一起。這可以在不久的將來創造出一些引人入勝的用例。

-END-


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技行者 的精彩文章:

飛利浦首席醫療官:AI會讓醫生有更多時間關心病人
AI炒作的背後是什麼?Google產品經理是這麼認為的
霍金這篇讓劍橋官網崩潰的有關「宇宙起源」論文到底講了啥?
連線雜誌:如何造一個有自我意識的機器人?
一個芬蘭科學家認為現在的AI太蠢了,下海開搞AI互聯網

TAG:科技行者 |