電子科技大學陳建文:沒有完美的大數據,現實世界都是小數據
千人千面,任何的樣本,都是小樣本,任何的數據,都是小數據。
圖 | 陳建文電子科技大學 視覺智能研究中心主任
在國內AI人的印象里,陳建文是一名創業者,也是一位學者。
但他最在意的,還是學者的身份——電子科技大學人工智慧研究中心主任。
不過,顯然他這個學者不是嚴肅型的,而是跳脫型、開放型,那主要是因為他想得深、說得多。
因此,第一次見面,我們就被他的言論給「嚇」到了。
那是在7月9號的一次國內頂級AI創新峰會上,當時作為主辦方特邀嘉賓的陳建文就不時的爆出「駭人聽聞」的論斷。
時隔半月,在2017CJ上我們又見到了他,於是就有了下面的談話。又經過一周左右零零散散的整理,終於成文:
支撐AI復興希望的是人類對未來的嚮往
在很多人的印象中,人工智慧技術有著長達61年歷史、經歷過三起兩落的曲折歷程,而其之所以會一直保留著復興的希望,很大程度上依賴於某些關鍵性技術的不斷升級和突破。
這些關鍵性技術,既有感知技術、深度卷積神經網路,也有大數據、模式識別等等。
但在AI領域浸淫了十多年的陳建文看來,事實卻並非如此,他似乎有著自己獨特的判斷。
科幻電影也是技術突破的動力
「人工智慧之所以會長盛不衰,或是能夠不斷的復興,首先是因為它是未來的趨勢,是科技發展的大勢所趨,這個誰也抗拒不了。
「就像我們在70年代、80年代看的科幻片,到零幾年的《阿凡達》,甚至是近幾年的《星際迷航》、《駭客帝國》。基本上,大家看到的未來幾乎都差不多,大同小異。」
除此之外,陳建文認為,只有一個原因,那就是人類對未來的嚮往。正是這種嚮往,才推動著技術的不斷進步。
「想像一下,在未來,會有機器人跟你說話,陪你做各種事情——你看今天我們看到的科幻片,很多地方都描繪了這樣一幅令人嚮往的畫面。
「我昨天下午在四川參加了一場AI的學術會議,會議上一個參會者說:我們以前讀比爾蓋茨,他講的未來和他描述的東西,當時覺得像科幻片,但今天看上去,很多都已經實現了。
「所以我覺得,在眼下這個時間點看AI的未來,不管是三起兩落還是螺旋式上升,都是有跡可循的。」
技術的發展往往有自己的軌跡和規律,每個時間點都會有不同的技術出來,隨著計算能力、硬體條件等各方面的東西越來越完善,每個時間點的技術成就都不一樣。
「就像幾年前、十年前我們講模式識別,後面又說機器學習,這些其實都是隨著計算能力的增長,隨著演算法的突破,而自然逐步出現和逐步實現的。例如神經網路已經被用於解決各種各樣的問題,例如機器視覺和語音識別。這些問題都是很難被傳統基於規則的編程所解決的。
因此在陳建文看來,AI的復興並不僅僅得益於一兩個關鍵性技術的延續和突破,它更大的原因其實是人類對未來的嚮往。
而人類對未來的美好嚮往和心裡的渴望,這些都在支撐著AI技術和各種應用場景的深入發展。
整個《哆啦A夢》就是一場虛擬世界的直播交互
說到直播和交互,就不能不提到虛擬世界和現實世界的差距和界限。而在這裡,我們會發現一個非常有趣的現象。
就像很多70後、80後最喜歡看的一部日本動畫片《機器貓》(現在叫《哆啦A夢》),最終的結局什麼?就是主角某一天大夢初醒,發現頭上插了個東西。而劇中所謂的康夫、小靜等所有的人其實都是在一個虛擬世界裡的虛擬人物。
他們可以在天上飛來飛去,可以打開一個任意門,穿梭到另外一個地方去。這跟我們看到的magic(就是駭客帝國裡面看到的,躺在床上忽然就到了一個虛擬空間),和我們看到的《盜夢空間》、《阿凡達》所描繪的場景,有本質區別嗎?
似乎並沒有。
「所以在我看來,多年以後甚至未來的100年,技術都是會一直演進的,唯一不變的是人類對想像中的未來的嚮往。而這種嚮往讓所有的研究員、工程師、博士、資本趨之若鶩,都在往這個方向去努力。
「大家覺得這就是未來,我們就要達到那個目標。至於說要怎麼達到這個目標,這就是演算法要解決的問題。所以我跟朋友們講,看待現在的直播,你應該反過來想一個問題。
舉個例子,我在上海,你在南京,只要我們倆一直播一連線,我就可以看到你我在旁邊了,這是視頻直播;如果是VR直播呢?你會感覺到我就在你旁邊,但是那是另外一種截然不同的形態;而如果未來是全息的直播呢?又會是另一幅畫面了。
因此陳建文認為,視頻直播技術也是虛擬現實一種階段性的技術。從廣義來講,所有的AR/VR都屬於人工智慧範疇,它們的核心技術也都是AI技術。虛擬現實完成的是AI的視覺應用場景和用戶介面。這也是為什麼Facebook扎克伯格認為,VR應用還需要至少十年以上時間才能進入普通人的生活,但是依舊在重兵押寶這個領域。
「2015年業內講直播視頻,2016年講VR,未來可能會講的更多。像很多科幻片里的場景一樣,按鍵一按,我就「嗖」的一聲出現在你房間里,而且就在你旁邊。
「然後等聊天結束了,『哥們,我回上海了』,我一按,又回來了。
「其實,傳輸的是人嗎?不見得是人,而有可能是我的影像,在你那邊呈現出來而已。」
未來,智能家居、音箱等產品一定是家裡的標配
時光放到30年前,人們對智能家居、智能音箱還沒有一個成熟的概念,或者說不會奢望這些將會出現在日常生活中。但現在,情況顯然發生了變化。
對於家庭生活的智能化產品,陳建文一直持積極態度。他認為,在未來的場景下,智能家居、智能音箱等必然會成為家裡的標配。
中國的智能家居太獨立,背後沒有完整產業鏈
「當我們還小的時候,當時都不敢想像家裡會有汽車,而現在,我們的兒女一出生,往往家裡就已經有了一輛或幾輛車了!智能家居產品也是一樣,雖然目前還未普及,但未來一定會是家裡的標配。
「從演算法、環境等因素來看,智能家居、智能音箱它都屬於介面設備,它未來可能不一定會是我們目前所熟知的這個形態。」
關於這一點,業內其實有很大的想像空間。智能家居、智能音箱等,可能會是音箱的形態,也可能只是個貼在牆上的按鈕,甚至可能是個機器人、虛擬人。
「想像一下,你在家裡只要往那兒一站,旁邊就會出現一個標準的全息美女。她就跟你問好、陪你聊天、聽你指揮,那也是智能家居啊,對不?單單是她跟你說話,就意味著已經把音箱和家居給全部做到一起了。」
對現在市場上大行其道的智能音箱產品,如亞馬遜的Echo、谷歌的Google Home、蘋果的HomePod、還有小米的小愛同學、阿里的天貓精靈X1等,陳建文認為,它們是一場革命,一場針對傳統音箱和家居市場和理念的革命。
有句話叫做:只要方向是對的,就不怕道路有多遙遠。這其中的核心點就是商業化的技術和應用場景,陳建文認為,智能音箱的應用場景將會非常的廣、非常的大。
但是它爆發的時間點,或者說它在什麼時間裡被需要,將是另外一大課題。
「在目前看來,中國的智能家居、智能音箱還都太獨立,背後沒有形成一個產業鏈。這樣的話,到最後,整合市場就依然還是巨鱷的事,只有它們才有對應的體量和實力。
「今後,哪個公司能完全以智能音箱為介面,整合家居裡面所有的東西,那麼它就是未來。」
智能家居的核心是有什麼用,而不是長什麼樣
陳建文認為AI,更多的是一個工具,比如怎麼幫助盲人看到路,怎麼幫助別人快速的找到一個東西。
AI,也包括AR/VR,它不應該是一種玩具,它應該多一些工具的屬性。相應的,應用到家居領域的智能家居和智能音箱等,它的核心只能是工具性,而不在於外在的形態。
「智能家居、智能音箱的行業背景和應用場景很大,商業化技術需要過程,需要時間去形成一個完整的產業鏈,形成完整的東西的,我覺得這是一個很好的點。
「現在的音箱還是有固定形態的,而理想中的,或者說在未來,它應該是沒有固定形態的。它可能只是貼在牆上的一個danse,你在房間裡面說一句話,比如說music,它就開始放音樂。
「這個東西它可能跟音箱這個形態完全沒關係(它屬於語音識別的一部分),它僅僅是一個感測器。但遺憾的是,我們現在這個階段,中國的房子里還沒有把這種感測器做進去。
「所以,國內老講智能家居,某種程度上太概念化太虛了。我在美國的家裡面,衛生間裡面,買這個房子的時候,人家就已經提前安裝濕度檢測器、溫度檢測器,甚至語音識別設備等等。當你洗完澡之後,從來就不用管家裡所有的濕度、溫度等的調節,全部都是自動的。那你說,這個是不是智能家居呢?
「現在國內怎麼干呢,就是買一個加濕器放在那,就算了事兒。而歐美國家早就已經把智能這塊固化在牆壁裡面的感測器中了。」
所以說,目前所謂的智能音箱等只是階段性的產品。在人工智慧大數據、雲計算、智能演算法的加持下,這種階段性的產品也將很快會迎來更大的發展契機。
沒有完美的大數據現實世界都是小數據
研究AI的人都知道一個基本的原則:數據越大越全面,輸出的結果就越精準。
但問題是,我們始終找不到理論上完整的大數據,所以業內有小數據和小樣本學習,即推理和規則體序。而這二者的結合,似乎就是AI未來的重心所在。
「務實一點說,我們很多人,甚至包括一些professer,對大數據的理解是錯誤的。我在很多會議上都說過,這個大數據的大是什麼意思呢?不是說數據有多大,也不是說數據有多麼海量。
「我曾經跟一個教授談,他就說,我們是做三維全息的,我一秒鐘幾個G的數據,你看我數據大不大?還有人說,我一天採集了很多很多東西,我的這個sense很多很多......
「其實,按照學術界的說法,大數據我們更多講的是數據的維度。」
一個人,如果說只有一個維度,不管你再大,你就是一個人。只有當你具備很多不同維度的時候,你才是一個豐富的人,精彩的人。
實際上,數據永遠不可能是完整的。
「舉個例子來說吧:你想要了解我,因此你去搜了一下,搜到了一些信息。但是,你搜到的一定是一個子集。然後另外一個人也去搜,他搜到的也是一個子集。你們搜的都是一個子集,都是不完整的。
「但是有一千個人搜的數據合在一起的時候,我根據這一千個人的數據,我基本上可以斷定這個人的基本情況了。
「所以你看,越多個不完整的子集,就越接近事實真相。但是,核心的點是你永遠不可能拿到完整的數據,這個世界上又有什麼數據是完整的嗎?怎麼會有完整的數據呢?
「任何一件事情,你往深的挖,它都是不完整的。中國古語也有雲,『大道五十,天衍四九』,也有一點這麼個意思。」
大數據的意義在於,數據的維度要很多。如果這個數據本身就沒有什麼維度,就是個一維、二維或者三維的東西,那大數據也就沒有意義了。
當數據採集的維度很多、角度更多、採集的源泉更多的時候,日積月累,我們往往就能從統計意義上得到一個概念。
這是第一層,獨立數據的結果。
「還有另外一個情況,你從網上整理了很多信息,另外一個人也整理了很多信息,你們只是把信息匯總在了一起,最後得出一個結論,這是第一步;第二步呢,基於這個信息你要去做預測和分析。根據你喜歡吃辣椒、喜歡踢足球等特徵,從而預測出這個人性格應該是什麼樣子的,你就又往前走了一步。」
就像人們常說的的小樣本、小數據、大數據的學習,就我看到的所有的樣本,光靠採樣是永遠不可能采全的。
千人千面,任何的樣本,都是小樣本,任何的數據,都是小數據。
我們現在看到的所有互聯網上的數據,都是小數據集合成的大數據,小數據的內容聚合成一個大數據的整合。
對單獨的樣本來說,數據都是小數據,沒有所謂的大數據,完整的數據只存在於理論當中。在研究採集中,我們所得到的永遠只是一部分。從這個層面來講,它是屬於小數據和小樣本。
小數據多了之後,它會形成一個大數據,再通過梳理、預測,演算法,它會得出一定的結論。
這個能力是目前我們講的大數據里最大的行業應用,就是規則推理。
「真實世界裡沒有大數據,你看到這個人,你描述他,十個詞、二十個詞,都是小數據。但是,你站在宏觀上,不去測量這一個獨立人,而是去描述這一類人的時候,它就是大數據了。
「所有的東西都是這樣,你測量的時候,獲取、真實的採集這個數據的時候,這個數據就已經被你固定成小數據、小樣本了。」
解決好多維度、多任務的學習AI才有大未來
目前人工智慧技術,不可能是最終形態。那麼在現階段,它的技術缺陷在哪些方面?
「我覺得是這樣的,就像《機器貓》那個願景一樣,我們所說的AI第一大缺陷是:不管你今天看到的所有的場景,所有的東西,你依然不會覺得它跟你的人是完全一樣的。」
就像你跟機器人談話,你能感覺到他是假的;你跟AlphaGo下棋,你也能感覺到它只是一台機器。
「想要解決這個問題,實際上有兩種不同的途徑,一種是我們把這個演算法乾的更牛,我要有大量的數據,然後我給你反饋,這是一種人類不斷去逼近的方式。
「目前人工智慧的另一大缺陷,是在單維度方面取得了長足的進展,但是在多維度、真實的場景裡面的技術潛力,還有很遙遠的路要走。
「比如說,我們希望這個機器人又有語音識別,又有圖像識別,又有各種各樣的東西的,包括業務邏輯、語義識別等。但是,目前的狀態卻是,多維人工智慧領域的發展還很差,基本上目前還沒有看到希望。」
以目前的技術階段來看,我們僅僅達到了通用型人工智慧的初級水平而已。
自動駕駛領域的競爭結果巨頭依然還是巨頭
智能家居、智能音箱市場的格局,跟現在的自動駕駛有很高的相似度。
在自動駕駛領域,我們看到特斯拉很牛。而實際上,那些大型的傳統主機廠,他們現在只是沒發聲而已,而並不是悶聲憋大招,更不是像很多人以為的無所作為。
智能家居也好,智能音箱也好,說到底,它還是一個傳統家居行業。我們能說智能家居是互聯網行業嗎?就像無人駕駛一樣,以後是什麼情況,誰也不能妄下定論。
「只要能夠提供自動駕駛核心模塊的,就會有市場的一席之地,而並不會因為產品的差異化而導致競爭失敗。還是拿汽車舉例,我們說汽車很火、汽車市場足夠的大,但是也沒見到全世界的汽車發動機、變速箱都是一樣的。
「無人駕駛也有這樣的問題。無人駕駛是L1、L2、L3、L4,能提供L4的當然牛。可能L4的你要賣兩萬美金,那便宜點的我1000美金就能搞定,畢竟我只要可以上路就行了,甚至是可以半自動一點的。
「從這個意義上講,這個市場將是足夠大大,大到以後也不可能有哪一家能夠單獨吃得下。而一旦標準統一化之後,我們就會發現,原有的巨頭依然還是巨頭。
「就像現在一年產千萬輛級別的主機廠,如豐田,它只是把它裡面的一個元器件和電腦系統對接上去,換成自動駕駛的模塊就可以了。」
所以說這就回答了很多人疑問:
既然百度要做無人駕駛了,為什麼很多人還要投自動駕駛呢,就不怕被無情的碾壓嗎?
「思維邏輯就是這樣。雖然已有科技巨頭押寶自動駕駛,但這卻並不妨礙,依然有層出不窮的自動駕駛創業企業獲得投資就是這個原因。」
虛擬重建和情緒感知將對Live直播帶來劃時代的改變
未來的世界,不管科技怎麼改變,一定還是「以人為本」的。針對於人的人工智慧技術才是核心關鍵。 把人重建進一個虛擬的世界中,如何讓這個虛擬的世界真實起來呢? 人最基本的情感是必須有的,但是這個問題要怎麼解決呢?
一個是重建,另一個是情感的感知。
「你現在打遊戲可能感覺不到,但是我要是講旁邊站了個范冰冰,你就需要她跟你交互,跟你說話,跟你有眼神的互動,等等。
「那麼,這就是帶來另一個問題,我們需要準確的識別動作和人臉及情緒,才能實現真正的交互。
「也就是說,我不僅要識別你的臉,還要識別你的情緒感知,把這些東西全部放進去,你才能跟范冰冰愉快的玩耍。
「這也是我們易聯視訊現在在乾的事。」
想要在虛擬的世界裡,把真正的「人」裝進去,就是要做到兩個點:第一是把人重建進去,第二是讓人的情緒、動作、表情、神態等全部跟著本人同步而動。
如果可以完成這兩件事,就將是一個劃時代的改變。
「因為那個時候你會發現,一回家你就可以跟別人約會去了,都是真人,絕對不是假人。能看到人,外形也能感知到情緒,就是心靈交互。
「這種情況下,你今天看到的場景,包括視頻會議,都將發生巨大的改變。這也是我覺得人工智慧在短期內可以預期的一個點。」
在陳建文看來,AI在每一個垂直點上,機會都是有的,而且很大。
舉例一下:可以預見的是,AI技術一旦實現實質性突破,現在的這些社交、醫療、教育等,都不再是在線教育,而是真實教育、智能教育。
「你按一下按鍵,就有老師教你家孩子彈鋼琴,而我只需要搞一架鋼琴就可以了。你家孩子坐在那,老師不用到你家裡也可以指揮孩子手上的動作,就像真的在上鋼琴課。
「同樣的,上完鋼琴課,我們可以隨時更換課程,換成繪畫或者舞蹈。」
以上帝的視角來看AI的發展,陳建文認為,這將是全人類的夢想所在。
「比較高興的消息是什麼呢?谷歌告訴我們,到2030年我們就可以活一百歲了,然後大家就可以在我上面所描繪的願景里,想幹嘛就幹嘛了。
「因此,對於AI這個產業,我就是一句話:有的干!」
做AI,不幻想,不吆喝
我不希望變成資本方,一天到晚講人工智慧馬上就能改變人類,那是不可能的。
資本可以去盡情吆喝,但做公司的人必須腳踏實地,一味的幻想反而不好。
陳建文和他那一句小小的「豪言壯志」
我曾經看過一篇文章,說改變世界有兩種人:一種是科學家,一種是工程師。我在想,為什麼科學家不能是工程師呢?這樣不就會更好的改變世界了嗎?
哈哈,我覺得我就是個科學家,還是個工程師!
點擊展開全文


※防患於未然,DNA測序中隱藏著的計算機安全威脅
※Magic Leap搗鼓了一項AI技術,用攝像頭估算房間大小和形狀
※仙知機器人趙越:「能友好工作」的機器人才能真正的為人類服務
TAG:鎂客網 |
※中國有大禹治水,世界各地也都有類似的傳說,史前大洪水是真的嗎
※大都會藝術博物館,是美國也是全世界最大的藝術博物館!
※在這個大大的世界裡,我們都是《渺小》的個體
※大多數人的世界,沒有容易二字
※英國大叔要完成世界上最大的拼圖
※世界十大城市,這才是國際大都市!
※影響世界進程的十個偉大的科學家,看看都有誰?
※中國有四大美女,其實,世界也有三大美女,其中一個就在中國
※世界最偉大的十位電影演員,中國只上榜一人,不是成龍和張國榮
※實拍「乾隆石經」:世界上最大、最重的一部中國文化經典
※英國歷史第二偉大的科學家,他創立的方程完美詮釋原子內部世界!
※瑪雅文明:世界上唯一一個不是出現在大河流域的古代文明
※世界十大最佳科幻電影
※美國大學打造世界最小的奧巴馬納米肖,竟然要用顯微鏡才能看清!
※華為被美國最大運營商欺騙,沒什麼大不了,中國的華為世界的華為
※世界十大頂級建築,中國占數一半
※中國古書的大秦確實古代外帝國,能不能入選世界古代十大帝國之一呢?
※中國史上四大奇文,超級實用勝過千本書,全世界唯中國獨有!
※秦始皇都建造了那些龐大工程?世界八大奇蹟佔了兩個,基建狂魔名不虛傳
※世界最壯觀的十大橋樑 中國也有上榜