當前位置:
首頁 > 知識 > AI的發展不會對人類造成損害 專訪楊強

AI的發展不會對人類造成損害 專訪楊強

在7月13日,由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦的2019第四屆全球人工智慧與機器人峰會(CCF-GAIR 2019)上,香港科技大學講席教授、微眾銀行首席AI官、IJCAI理事會主席、ACM Fellow楊強教授帶來題為《聯邦學習的最新發展及應用》主題演講。

撰文 | 邸利會

阿爾法狗戰勝世界冠軍的那一刻,AI的強大震撼了每個人。它背後依賴的深度神經網路在其他任務,如語音識別、圖像處理也獲得了巨大的成功,很多測試集上的錯誤率降低到了人類的水平。

有人把這波AI的成功歸結為三個因素:演算法、算力、數據。神經網路的回歸讓在此方向默默堅持的「三巨頭」(Yoshua Bengio、Geoffrey Hinton、Yann LeCun)獲得了今年的圖靈獎;不斷縮小卻更為強大的晶元讓計算機的計算能力逼近百億億次;而互聯網和手機則造就了「大數據」的時代。

如今,在每個成功的因素上,人們還在努力 「百尺竿頭,更進一步」,但與演算法和算力的提升相比,數據的獲取卻不是那麼容易,可謂「理想很豐滿,現實很骨感」。

很多時候,沒有那麼多的數據,比如高質量標註的醫學影像就很少。缺少標註的數據還催生了一個個 「數據標註」 工廠,標記員從早干到晚,從上千張照片里把汽車、動物、建築等物品框出來。

除了短缺,數據的另一個麻煩是,不少機構之間,甚至同一個機構內部的數據都無法共享,形成一個個數據孤島。沒有了數據這種燃料,人工智慧的火箭將無法起飛。

更嚴峻的挑戰還在後面。

從2018年5月25日起,歐盟實施了迄今最嚴格的數據保護法 GDPR(The General Data Protection Regulation),其中的規定對AI業界可謂字字揪心,比如收集數據時,必須清楚地告知用戶數據的使用範圍,處理數據的法律依據,數據會保留多久,數據是不是轉移給了第三方,產品設計中是否一開始就考慮了數據保護,用戶有權利抹除自己的數據等等。

不少公司已經撞在了槍口上。今年年初,法國的數據保護監管機構CNIL給谷歌開出了5680萬美金的罰單;據 BBC 報道,愛爾蘭數據保護委員會稱,在它啟動的19項調查中,11項與臉書及旗下的 WhatsApp 和 Instagram 有關。

這樣嚴苛的數據保護法令某種程度反映了公眾對數據隱私的擔憂。臭名昭書的數據泄露事件讓人心有餘悸。

去年發生的臉書-劍橋分析(Cambridge Analytica)數據醜聞曾震驚世界,幾百萬的臉書用戶數據未經同意給了劍橋分析並隨後用於了政治宣傳。消息敗露,臉書股價幾天跌掉了數千億。

嚴格的數據隱私保護,讓不少企業感到沮喪。一些企業家甚至勸說用戶,為了效率可以讓渡自己的隱私,用戶本身不那麼在乎隱私,隱私只是媒體喜歡的話題等等。

面對數據短缺,數據孤島,越來越嚴格的數據隱私法規,AI是否會因此步入寒冬?離開了直接獲取的大量數據,AI是否還會有明天?

在香港科技大學教授、微眾銀行首席人工智慧官楊強看來,有辦法讓AI從這種困境中走出來。

「我們不這麼看,我們覺得挑戰是一個機會。這個機會使得我們有必要發明一種新的技術,在嚴格遵從法規的前提下還能夠把這些數據聚合起來,同時建模。」 在剛剛過去的 CCF-GAIR 2019 「AI金融」 專場的演講中,楊強對台下的聽眾說。

他提到的新的技術,一是從2016年開始興起的聯邦學習,可以實現數據共享同時保護隱私;二是遷移學習,可以克服數據的短缺。

「聯邦學習,我一說你就明白了,」 他繼續說道,「我們每個人的大腦里都有數據,可兩個人一起做作業或者兩個人合寫一本書,並沒有把兩顆腦袋物理結合在一起,而是用語言交流,把合作的書寫出來。」

這是一個很妙的比喻,兩顆大腦相當於經過數據訓練後的模型,語言交流相當於加密的參數傳遞,通過這樣的方法,每個人腦中的隱私數據不離開身體也可以建立共享的模型(這裡可以看作是書)。

而另一項利器遷移學習,則是他研究了20多年的題目,主要的用途在於將一個領域訓練好的模型遷移到另一目標領域,在該領域數據缺乏的情況下也能建立恰當的模型,實現特定的任務。

在過去的這些年,無論是在學術的場合還是面對公眾,楊強用他一貫的淺顯而明晰的方式解釋這些難懂的概念。

他經常把遷移學習比作舉一反三的學問,就像學會了騎自行車的人也可以學會騎摩托車,學會了看小說的人,也能看得懂電影。

「關鍵是找到一座橋樑。」 他說。

這裡所說的橋樑指的是某種不變或者共通的部分。「我現在在香港,經常回大陸,儘管兩個地方開車的習慣不一樣,一個是司機靠右,一個靠左,但掌握一個訣竅後就不會錯,訣竅就是無論是在哪個地方,司機都是在靠道路中央的位置。下次你們可以試試。」 在一個學會會議上,他向觀眾如此解釋道,台下發出會心的笑聲。

藉助遷移學習,之前因為數據短缺無法訓練模型的領域也照進了智能的陽光。

回到著名的阿爾法狗,在它驚人的成功的背後,是用了300,000盤的數據,可只要把棋盤的大小改換一下,阿爾法狗就得重新學習一遍。這種很低的泛化能力,讓人覺得它就是一個專用的智能。

通向通用智能的努力,由於遷移學習,似乎顯現了一絲微光。

在去年發表的一篇文章中,楊強和他的學生們,通過借鑒之前遷移學習所獲得的經驗,可以自動決定在遷移的過程中學什麼,怎麼學,再不用像之前那樣,從頭找成百上千個遷移學習的演算法。

這一想法是受到了教育心理學某些概念的啟發。比如,「善於下棋的小孩可以把所獲得的數學的技能、視覺空間感、做決策的能力分別用到解算術題、模式匹配、打籃球當中去。等他長大了,他或許可以把下棋學到的數學的技能、做決策的能力用到股票投資中,而不用視覺空間感這種能力」。

「遷移學習沒有深度學習火,但慢慢熱度上來了,吸引了越來越多人的注意,部分是由於深度學習的局限性。」 楊強說。

回顧過去60多年人工智慧的發展,可謂起起落落。在每一個階段,人們在看到AI系統某些進步或者優勢的同時,也會碰到一時難以克服的困難。作為幾十年的研究者,楊強經歷了這一切,但他相信,人工智慧技術終究是可以做到服務於人類而不是損害人的利益。在7月13日,第四屆全球人工智慧與機器人峰會(CCF-GAIR 2019)「AI金融」 的演講結束後,他接受了本刊的專訪,面對今天的人工智慧發展以及道德、法規、技術局限等方面的困境,分享了他的思考和判斷。

從太陽物理轉向人工智慧

《知識分子》:30年前你在馬里蘭大學獲得了計算機科學博士學位,但之前學的是物理,是什麼樣的機緣讓你選擇了計算機科學而且是人工智慧方向?

楊強我讀碩士的時候是研究太陽物理,需要處理很多數據,接觸了計算機,那時候計算機還是卡片的,就很熱愛計算機,有幾個原因:一是,天體物理需要很多數據,需要衛星去採集,但衛星有時候發射不了,一等就是幾個月,當時等數據是非常焦慮,而人工智慧,可以通過衛星圖像自己產生數據,不用等。第二是研究的很多流程我覺得都可以自動化,都可以用學習的方式來解決,所以就學人工智慧吧。後來博士我就轉到人工智慧了,這是一個切身的體會。現在天體物理界,數據的處理融合都用到人工智慧。

《知識分子》:可否談談那個時候人工智慧研究的狀態?

楊強:我是1985年轉過去(人工智慧)的。那時人工智慧剛剛經歷了第一次高峰,大家開始失望,發現專家系統其實有點言過其實。那時人工智慧最熱的時候比現在都熱,大會動輒就上萬人參加,學生還沒有畢業,就已經有好幾家公司來邀約。大家還是希望藉助人工智慧節省資源,提高效率,現在的這波AI驅動也是這麼來的——所有公司都想用最少的資源來做最多的事情,這是競爭的本質。

我覺得是個機會,也發現裡面有好多特別有趣的問題。老闆也給我「洗腦」,他去機械系待了一段時間,他說機械製造將來會全部被人工智慧取代,他還說,你看現在美國,十個律師才有一個做技術的,他門口就貼著個條——「Too many lawyers, too few computer scientists」。

他是美國人,他的想法就是要用人工智慧來代替有經驗的工人,因為80年代戰後,美國第一批有經驗的工人開始退休了,所以社會很焦慮,想用什麼代替他們,然後做計算機的人就出來說,用人工智慧來頂替他們,當然最後也沒成功。當時我是在馬里蘭念書,寫完了畢業論文就去加拿大了。

《知識分子》:能否談一下加拿大的研究氛圍?自從2019年的圖靈獎頒發後,大家有不少的討論,幾位得主都在加拿大獃了好些年。

楊強:加拿大也不是所有的大學都那麼有成就,加拿大有幾個大學是可以和美國大學比肩的,但卻沒有美國大學的一些煩擾。美國大學大部分是由工業、政府、軍方資助來維持實驗室。所以他們的教授特別能表達,能銷售自己的實驗室,美國這一點做得特別好。

在加拿大,教授不擅於表達,但他們有水平。政府給的資助(時間)也很長,而且不用寫申請書,一拿就是五年的資助,五年裡面就做那件事,也不用有人來參觀去接待,或者是填各種表格證明自己。這一定程度上會有懶人,但有志向的人就會脫穎而出。

當時我在的滑鐵盧大學,一開始他們跟微軟關係非常密切,以至於他們學生畢業後幾乎都去微軟,微軟當時1/3的員工都是滑鐵盧大學的。這種環境,包括資助的機制,對做長期的研究是挺好的。

能「舉一反三」的機器學習

《知識分子》:你是在怎樣的機緣下開始研究遷移學習?

楊強:我一開始做規劃(AI的一個子領域),裡面的關鍵是,讓一個機器人像人一樣做動作,比方說讓機器人去踢球。當時的AI研究者還定了一個特別雄心的計劃,2050年機器人要上世界盃,現在看來是不行。

後來我成為終身教授,可以自由地想一些問題,做著就發現一些阻礙。因為當時那些規劃、邏輯全都是人來定的,而且一般的人還不行,得專門的人來定。所以,為了這個我還去上了很多選修課,還去學木匠,去學做桌子、椅子,從砍樹皮開始,一步步怎麼做,把所有這些都記錄下來,然後賦能給機器人。我現在木匠活還特別好。

但是我就發現這條路是不通的,因為不能所有人都這麼去做(學習專門的知識)。後來我開始關注機器學習,尤其關注這種能「舉一反三」的機器學習。

當時進入了一個叫案例推論(case based reasoning)的機器學習分支里。我們拿下了加拿大的一個項目,不斷跑去核電站收集粒子樣本,這個項目做完了以後,我就開始關注和機器學習的結合。發現在機器學習也有一部分人在做類似遷移學習,當時還不叫這個詞,因為粒子的那個研究是一定要舉一反三的,我就繼續相關的研究探索,一直延續到現在。

《知識分子》:你在2010年時曾總結過遷移學習,當時提到什麼情況下不可以做遷移是一個公開的難題,現在是否解決了?

楊強:這個已經比較明確了。那個時候之所以有這個問題是因為數據太小,所以你隨便抓一個數據,要遷移到另外一個領域容易抓錯。現在的做法是源領域的數據一定要足夠大,足夠大就不會出錯。所以不管是在語音識別、圖像識別,還是自然語言處理,去年和今年美國的研究者做了一些工作,他們通過做一個巨大的源模型,然後目標領域用很少的數據就可以做到遷移。

《知識分子》:你在好幾個場合,包括 CIKM 2017的邀請報告的題目就是「當深度學習遇到遷移學習」,能否介紹一下這方面的情形?

楊強:所有機器學習的演算法,不管是不是深度學習,都可以用遷移學習來解決,所以遷移學習類似於方法論。有研究分析表明,淺層更具有一般性,更有遷移性,含有更多的不變特性。因為深度學習是把學習模型分層了,我們可以按層來分析它可遷移的程度,就知道對某一領域,遷移應該發生在哪些層,其他層就不用遷移。其他的機器學習也可以結合,但是與深度學習結合的效果特別好。

「我其實同意在大街上不能做人臉識別」

《知識分子》:2016年谷歌提出了聯邦學習的概念,你隨後也提出了全面的安全聯邦學習框架,可以解決數據孤島問題,讓不同機構之間可以分享知識但同時不對用戶的隱私造成影響。如今這一領域有哪些重要的進展?

楊強:對聯邦學習的學術研究在不斷深入,行業落地和生態建設也在不斷推進。工具層面,微眾銀行AI團隊自研的工業級聯邦學習開源框架 FATE(Federated AI Technology Enabler)近期捐給了 Linux 基金會;標準制定上,IEEE 國際標準已經召開兩次標準工作組會議,第三次會議將於8月在澳門舉辦,目前已經有十幾家國內外機構加入,而國內的首個聯邦學習團體標準也在上個月 AIOSS(中國人工智慧開源軟體發展聯盟標準)大會上發布;行業應用上,金融、醫療、零售多個行業目前都有落地項目在進行中。我們希望未來越來越多的機構能加入到聯邦學習生態建設中來。

《知識分子》:歐盟在2018年5月開始執行 General Data Protection Regulation(GDPR),中國也準備出台相關法律,保護用戶的隱私和數據安全,你怎麼看這樣的法規帶來的影響?

楊強:法律法規的確帶來很大的挑戰,原本就分散、割裂的行業數據更難聚集成大數據加以利用,但是這也是重要的機會,驅使我們去尋求技術解決方法,聯邦學習能在滿足數據安全和隱私保護的要求下讓大家進行AI協作,也因此會有更大的發展空間。

《知識分子》:你曾擔任華為諾亞方舟的主任,現在是微眾銀行的首席AI官,你覺得學界和企業界有何不同?

楊強:在學術界往往是深挖一個東西,持續做 10 年、20 年。遷移學習我做了 20 多年,最後寫出一本書,這是在學術界的做法,而在工業界就是發現問題,比如在工業界我就發現公司和公司之間、部門和部門之間數據不通,有部門牆。很多人可能會因此認為 AI 沒法做,但我認為這是機會,所以我嘗試在保護數據隱私的情況下,打破部門牆。這是到了工業界才發現的問題。

《知識分子》:談談 AI 向善,美國多個城市禁止使用人臉識別,你怎麼看?

楊強:我其實同意在大街上不能做人臉識別。我在街上,並不希望張三李四知道我在街上,我希望的是有人打我的時候,警察馬上能到這。現在街上的攝像頭,它能看見,但它還不具備這樣的能力。所以現在是有人打我了以後我去告,警察去查,才可以追蹤到那一段視頻。這是技術還不過關,技術是可以做到一種保護隱私的攝像頭,有人打你的時候它才報警,其他的時候都不作聲,而且不接受任何輸入。

《知識分子》:這個是可以做到的?

楊強:這個是可以做到的,只不過現在沒有做到。

人工智慧的第三種哲學

《知識分子》:2012年你寫了一本書《學術研究的成功之道》,你提到找到好的問題比解決問題更為重要,有意思的是,你說講給外行聽,如果外行感興趣了,那說明是一個好的題目,為什麼是這樣?

楊強:找問題的人如果沒有找好問題,是因為他沒有找對,或者沒有找好,或者沒有真正理解問題的本質,才導致整個項目失敗。我提的這個方法是一個試金石,如果你真的是理解了,雖然問題很複雜,有無數的變化,就像我剛才講的聯邦學習,有很複雜的加密演算法,但是你理解了,你可以用一種對方能理解的方式把概念給講出來,表明你真的理解了。

《知識分子》:人工智慧領域,現在發這麼多文章,很多是跟蹤,這是不是好事?如何產生重要的原創性想法?

楊強:現在大家跟蹤,其實也不是那麼壞。做深度學習的那些領導者,把門檻已經降得很低了,比如說谷歌做了 TensorFlow 框架,把流程梳理很清楚,這些事都需要花費大量精力,但那些人大公無私地做了,而且做得非常優秀,以至於一上手就能寫出論文,所以我們論文才這麼多。應該正向地來看,論文多是他們工作做得好的一個體現。

那麼大家都去發文章這件事是不是個壞事,我覺得不一定是,因為一開始你首先得知道大家做了什麼東西,你就得先把別人做的東西重複一遍,然後你可能就有想發表的慾望。我的建議是大家不要停在那,繼續走下去。繼續走下去,往往是要把思維打開,要發現新的東西,一定要跨領域地協作。

像神經網路,也是受到很多大腦神經學的啟發,不一定是沿用,還可以思索那是為什麼,就會有啟發。肯定不是按照計算機固有的方式來做智能機器,而是從這些啟發出發。如果以後的發明也有類似的情況,才有意思。

《知識分子》:當下人工智慧是否也會經歷寒冬?什麼時候,會因為什麼因素?

楊強:我覺得不會進入寒冬,只不過大家會更理智了,比方說不會亂投資。從機器下圍棋贏了人開始,人工智慧引起了大家興趣,到現在這一步,大家就開始探索落地到實際的場景,比如醫療場景、教育場景,金融場景。會發現醫療場景很難,教育場景也很難,還有很多更難的,比如無人車之類。這些「難」,往往都是在開放領域。

所謂開放領域,就是說在設計 AI 模型的時候,有些因素沒有預估到,因素是不斷出現的。所有的影響都能看到,就是封閉的。阿爾法狗就是一個封閉的場景,包括德州撲克也是,就這些牌,只不過出的時間和順序不一樣。但你走在路上,突然出來一個人,路封了,天黑,下雨,颳風,這些不可控的因素影響下都是開放領域。開放領域的人工智慧現在沒有特別大的進展。

我們在做的金融領域,是可以把它變成一個封閉領域,因為它足夠的垂直,又有大量的人貢獻數據,所以效果會比較好。

《知識分子》:現在深度學習很熱,未來會出現新的研究範式么?

楊強:未來一定會有新的研究範式。其實深度學習不是一個演算法,是一個哲學。

有計算機以後,我們就開始表達知識,怎麼表達?假如我看到一瓶水,把瓶蓋擰開就可以喝水,這裡面有三個物體需要表達,瓶子、瓶蓋、水,最原始的做法就是把它們分別對應到三個變數上,這是第一代的做法。

第二代就是深度學習。它不是這樣,找不到一個變數對應。它是分布在這些神經上,所有的神經都承擔了一部分水的特質,瓶子的特質,瓶蓋的特質,所以這是一個哲學的概念,不是說我們看到一個東西,這個東西就形成我們的經驗了,而是這個東西的特性是散落在我們神經裡面的各個部分。這是他成功的原因。

肯定還有第三種哲學出來,這需要我們怎麼辦呢?一定是跨領域去想,最後也可能不是做計算機的人想出來的。

參考文獻

1. SJ Pan, Q Yang, A survey ontransfer learning, IEEE Transactions on knowledge and data engineering 22 (10),1345-1359

2. M Long, Y Cao, J Wang, MIJordan ,Learning transferable features with deep adaptation networks, arXiv preprint arXiv:1502.02791, 2015

3. Jason Yosinski, Jeff Clune,Yoshua Bengio, and Hod Lipson. How transferable are features in deep neural networks? In Advances in Neural Information Processing Systems, pages3320–3328, 2014.

4. Z Li, Y Zhang, Y Wei, Y Wu,Q Yang, End-to-End Adversarial Memory Network for Cross-domain Sentiment Classification, IJCAI, 2237-2243

5. W Ying, Y Zhang, J Huang, QYang , Transfer learning via learning to transfer, International Conference onMachine Learning, 5072-5081

6. Q Yang, Y Liu, T Chen, YTong , Federated machine learning: Concept and applications, ACM Transactionson Intelligent Systems and Technology (TIST) 10 (2), 12

製版編輯 | 皮皮魚

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

中國的對外移民達到峰值了嗎?
美國科研威脅來自外部勢力還是內部?兩黨政要各執一詞

TAG:知識分子 |