當前位置:
首頁 > 知識 > 科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準

科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準

按:這是科大訊飛輪值總裁胡郁在2016網易科技未來峰會上發表的題為《「人工智慧」以語音和語言為入口的認知革命》的演講。雷鋒網(搜索「雷鋒網」公眾號關注)整理,有刪改。


剛才(華大基因董事長)汪建老師說,將來的世界是一個生命科技的時代,我非常同意這一點。將來人類的命運掌握在我們自己手裡,我們可以改造自己。


人類也想扮演上帝的角色。人類能夠在地球上統治整個世界,是因為我們有智能,現在不僅僅自己有智能,還希望能夠創造出新的智能。在當前世界,各種各樣的智能層出不窮,甚至有段時間「智能」一詞都被用濫了,到底智能應該向什麼方向發展,智能到底應該給我們帶來什麼?今天我們帶著這個疑問想跟大家探討一下。

今年3月份時有個非常著名的AlphaGo大戰李世石,在此之前很多人都給出了預測,包括我自己在內,我當時的預測是機器人一定能夠戰勝人類。為什麼呢?其實在研究界有句很有名的話,機器人在智能方面戰勝人類一定用它最擅長的方式,而不是用人類思維的方式。我們原來在討論時總想著下圍棋是一個非常高尚的運動,並不是每個人都能把圍棋下得很好,但其實機器根本不是這麼想的,在下完這個比賽時,鳳凰衛視《一虎一席談》請我和古力九段和柯潔九段去討論AlphaGo和李世石對打的情況,柯潔九段在「一虎一席談」上就比較謙虛了(按:比賽之前他曾經放話「就算阿法狗戰勝了李世石,但它贏不了我」),他說這個東西還是要好好準備。


AlphaGo為什麼能夠戰勝人類,因為它用的確實不是人類所擅長的方法,而是機器所擅長的方法,AlphaGo能夠同時計算每部棋下幾十步甚至上百步的可能性,而且AlphaGo能夠記住三千萬種法的對弈,而這是我們人類所不擅長的。 但是人工智慧是不是能夠在所有方面超越人類呢?我覺得這也不一定,因為我們看到圍棋是一個完全信息透明情況下的公開博弈,就像以前的國際象棋,機器是佔有很大優勢的。


很多人會問,人工智慧到底體現在什麼方面呢?我們知道人類有農業革命、工業革命,還有現在講的信息革命,但可能很多人不知道的是,人類在統治地球的過程中其實經過了漫長的歷史發展。有一本書《人類簡史》,這本書里寫到:人類在地球上已經出現兩百萬到三百萬年了,但這些人類在全球各地,就是我們講的猿人、歐洲的原始人,中國的山頂洞人、元謀人和藍因人;但經過歷史學家和基因工作者的研究發現,七萬年前,智人從非洲走出來把其他猿人都給滅種了,現在不管是黑人白人還是棕色人種、黃種人,都是智人的後代。


在這個過程中,好像智人突然開竅了一樣,人的智能在經過兩三百萬年的發展中突然邁上一大步,是什麼讓他們走到這一點?歷史學家把他們叫做「認知的革命」,因為他們發現這些人跟其他猿人最大的不同是在他們的語言得到了極大的豐富,先有對話,然後產生文字,產生文字後有幾個好處:

第一個好處,它可以更好地描述周圍的自然世界,比如河邊有隻獅子,他們知道獅子長多大,身上有沒有病,處於什麼樣的狀態。更重要的是因為有了語言、有了語音,我們可以描述團隊和團隊之間的關係,如果沒有語言,現在動物群種裡面的黑猩猩,一個團隊最大不能超過50頭,超過50頭就無法管理;但智人因為有了語言,因他們可以組織上千人的團隊。


第二個好處,有了語言以後我們可以描述我們共同想像的內容,一些虛構的概念,「公司」、「夢想」都是從此得來。所以我們可以看到,現在歷史學家一個非常重要的觀點就是人類的認知革命將人類的智能帶到一個新的高度。


機器擅長的運算智能,但如果講到感知智能,機器其實比我們差得很遠。 這也是科大訊飛現在正在踐行的以語音和語言為入口的計算機的認知革命。我們所執行的訊飛超腦計劃想要做的事情,就是讓機器通過感測器和演算法感知世界,並且能夠對自然的人類世界進行認知,作為我們人工智慧一個非常重要的突破點。


怎樣實現這種突破,其實我們有兩種不同的途徑,一種和我們的腦科學非常有關,我們可以對大腦所有的神經元構造和它的工作機理進行分析,甚至可以根據大腦的整個工作機理重構出來真正和大腦相同的機制,這是一條思路,但這條思路時間比較長;另外一條思路就是用互聯網的思維,利用我們機器學習演算法和大數據,不完全模仿大腦,但利用機器運算的方法能夠模擬我們的感知和認知。


我們研究鳥類飛行造出了飛機,但我們並沒有造一個鳥出來,是因為我們是知道了鳥在飛行中的空氣動力學;我們研究大腦,其實並不是把大腦完成複製,而是希望找到大腦中的智力動力學,進一步優化我們整個學習的演算法。

從另一個角度,如果用互聯網思維來解決、改進我們的人工智慧,要感謝三個方面的進展:一是人工神經網路,這個人工神經網路就像我剛剛說的,只是學到了大腦一些簡單的機理,沒有大腦那麼複雜,但已經可以很好地工作了;另外拜互聯網和移動互聯網所賜,我們可以得到大量大數據;更重要的是我們有千千萬萬的演算法,有直達用戶的產品,這些產品把用戶的使用習慣源源不斷傳入後台,我們可以利用網路的效應不斷地優化它。正是因為有這三者的支撐,我們得到了非常好的結果。


真正人工智慧的框架應該是什麼樣的呢?再給大家舉個例子,人類大腦皮層在工作過程中分為兩個層面:一個叫感知層面,就是我們講的視覺、聽覺和觸覺,還有一個層面是認知層面,當我們看到一隻貓,聽到貓的叫聲,或者是摸貓的皮毛,人腦里有一個概念,這些概念形成了我們語言中的單詞和辭彙,就是「貓」這個概念,它們匯聚到我們講的語言和理解的大腦的認知皮層層面。所以在訊飛超腦里分兩個層面:感知智能是對我們聽到的、看到的、觸覺到的東西進行識別,同時把識別結果上升到我們認知智能的層面,形成一個概念空間的表示和推理,在過去五年中我們相繼把深度學習網路應用在剛才我們講的感知和認知,包括視覺、包括聽覺,包括自然語言,包括翻譯的各個方面。


(工作人員播放了三個語音片段)


這是一段語音片斷,大家聽到第一個好像是「休息」,第二個好像是「休息室」,但當聽完完整片斷時你會知道(按:類似於大腦自動「校正畸變」),原來這句話說的是「《西遊記》之大鬧天宮」。人腦是怎麼工作的呢?人腦能夠記下短時或中間的或長時的記憶,通過一種遞歸的方法識別語音,現在最新型的遞歸神經網路能夠模擬我們在大腦方面的感覺,這個過程非常複雜,我就不一一介紹了。


但光有遞歸還不夠,光能夠存儲記憶還不夠,現在最新的一個方式是用我們講的圖像的方法識別語音,當語音進入我們的耳朵時,我們耳朵里的纖毛會根據它的長度不同與語音中不同的頻率進行共振,如果把共振的頻率分析出來,我們可以得到一張語譜圖,這個圖形里的信息很豐富,在MIT專門有科學家可以根據這些圖形就能夠跟你說這句話里用的是什麼樣的文字。我們的識別系統如果能夠讀這些圖,整個性能的穩定性就會有很大提高。

如果你是一個盲人,你的耳朵就會特別靈,因為它借用了我們在視神經方面的一些神經系統和細胞,這樣可以把它的一些能力借用過來。我們應用一個新型的卷積神經網路,它原來是專門用來做圖像的,來處理我們的語音圖像,我們得到了一些非常令人驚訝的結果:即使是跟最新的遞歸神經網路相比,用卷積神經網路——也就是用識別圖像的方法,我們仍然能取得一個48%的提高。


可以說,現在我們的語音不僅可以聽到,而且可以看到。因為這樣的結果,我們大家會越來越多地看到,在我們各種各樣的輸入法里,在我們的語音搜索里,還有在我們各種各樣的語音互動式系統里,語音識別的錯誤率正在以每年30%的水平下降,我相信再過四到五年的時間,我們最後的語音識別系統就能跟人整個的感覺完全一樣了。


在感知方面,我們語音識別技術不斷取得提升,但是在認知方面,它有幾個非常核心的任務要完成,訊飛超腦關於語言理解及深層、知識表述及推理,還有自主學習,要實現這些技術必須要有兩個層面的東西:第一是要解決自然語言描述的問題,在此基礎上我們要解決語言理解及深層,還有我們講的知識表述及推理各個方面。


剛才我們提到了大腦在大腦皮層中關於概念的表示,它是一張圖,不同的詞語它們之間概念是有空間的,我給大家舉個例子,比如「大家好」,傳統的表達,每個詞就代表了一個空間,我們把每個詞的出現看成「1」,不出現的地方看成「0」,這是傳統表現詞語的一種方法,詞語和詞語之間,要不就是距離相同,要不就是不同。 現在我們採用一種連續的空間來表現詞語,每個字、每個詞都可以用「詞語卷積」的方法,用一段連續的數字,相當於一個空間里的坐標系,這樣每兩個單詞之間的距離就可以把它計算出來。

科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準



我們把所有詞聚了一下類就可以看到這麼一個結果,比如我們可以看到新浪、網易、騰訊,這些東西是連在一起的;我們可以看到呂布、張飛、關羽、諸葛亮,他們是比較接近的。如果通過醫學的方法來測量,我們也會發現相關詞語在大腦皮層中存儲的位置也是非常接近的。


利用這種方法,我們就建立了一種表現詞語的空間概念的表達體系,在這樣的表達體系之下,我們可以進一步地去分析詞語層面、句子層面和篇章層面,他們在各個層面上的連接和計算的距離。 有了這個以後,我們來看一些實際的作用,他們能做什麼樣的事情呢?


首先我們看一下語言的理解及深層。首先來看翻譯,在翻譯方面,我們知道他們要進行語句的練習,因為不同語言是不一樣的,這時候用到人腦中一個非常重要的概念,關注度模型,比如我們人在看一幅圖像,海邊有一個燈塔,我們看的時候注意力是集中在燈塔上而不是其它方面。

科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準


科大訊飛胡郁:再過四到五年時間,機器語音識別就能達到人類水準



這張圖比較有意思,上面這張圖是一個男司機在開車時觀察各種各樣的東西,下面這張圖是一個女司機,她的思路就比較狹窄。


如果我們來看一段文字,這兩天正好歐洲杯,我們的注意力其實也是集中在那些文字中比較有信息量的地方,這種關注度模型,其實它的方法是能夠把我們最關注的那些輸入量自動尋找出來,與我們最終的結果進行對應。


我們來看一下基於機器翻譯的實際例子: 大家都知道,不同的語言之間,他們的機器翻譯,比如有很多謂語、主語、賓語,它們的位置是不同的,會進行倒裝,順序也會發生很多變化,原來用規則的方法來描述這些變化非常複雜,通過我們現在講的這個神經網路,大家可以看到下面,輸入「我是誰」,「誰」和「我」,它們的位置是有差異的,但利用attention這個神經網路,它們可以自動找到對應關係。採用全新的神經網路的翻譯系統,相比傳統系統,提高會非常多。


再看下一個具體的例子,我們都知道最近科大訊飛在教育方面做了非常多的工作,我們希望能夠利用機器人幫助我們的老師進行卷面批改,比如我們寫了一個作文,這篇作文,我們希望機器人也能給它打出分數並給出它的評語。 大家看這個樣例,右邊94分是這篇文章的得分,右邊有評語,而且從這篇文章中可以看到它用到了排比,用到了一些語句的引用,我們如何來做,讓機器也能看懂這些東西?機器的關注度如何自動落在這些關鍵的地方呢?其實很簡單,右邊是一個範文,剛才我們講了,用連續空間把它表示出來,這些範文和作文之間的向量,利用我們的關注度模型,會自動找到之間比較對接的地方,應該講,現在我們這方面的結果在中考和高考的作文評卷,不管是中文還是英文,都取得了很好的效果,比普通老師改得還要準確,當然這是大規模的結果。


最後我們來看一個閱讀理解題。我們看一段話,「月牙的影子在水中晃動小鴨子看見了,以為是條魚,趕緊游過去」,現在題目是我把「小鴨子」摳掉,讓機器看完這段話以後自動在上面填出來這地方應該填什麼,利用我們現在的系統,我們會把篇章和問題進行attention的規劃,「小鴨子」也在其它地方也出現過,它可以計算出每個地方熱力度(關注度)的情況,後來我們發現「小鴨子」的關注度最高,這樣我們就可以把「小鴨子」填在這個地方,而且是填對的。


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

谷歌微軟的圖像識別行不行,還得斯坦福的這位美女說了算
機器人專家中的財神爺:參與月球機器人項目
看谷歌和OpenAI聯合發布五條AI定律如何打臉霍金
無人機馱著捕蚊器?微軟真會玩
宇宙的禮物:兩次確鑿、一次疑似引力波事件!

TAG:雷鋒網 |

您可能感興趣

櫻木在高三的時候,會達到什麼樣的水平?能超過仙道和流川么?
海賊王即將達到大將水平的高手,到底有幾個能真的超過大將?
九大入靜層次,最後一層偶爾能達到!
大開眼界,十部評分達到2分的爛片,有的你可能都沒看過!
庫里:我們還能達到另一個級別
軍人的四種境界,你能達到哪一種?
主人怒砸鸚鵡籠子,鸚鵡瞬間發狂,英語竟能達到六級速度!
盤點十大「龍」級怪人,最後一個有可能達到了「神」級!
女性在啪啪時能達到巔峰最多的年齡是多大?
健康男人的十大標準,你能達到幾條?
膽小的喵星人看到刮毛器,這攻速瞬間達到滿值
一艘航母也就那麼大,為啥攻擊範圍能達到上千公里?
這三個生肖財運越來越旺,在六月份達到頂峰,橫財大發,年底車房都會有!
看到的境界,不一定就能達到
玩紫砂,你達到幾段了?
科比寄語青少年籃球愛好者:每天進步一點 才能達到更高的目標
插入多少次女人才能達到G潮?
連過數人、精準鏟斷、中場破門,20年前他竟已達到了這等水準!
深夜東西 | 擁有非人類音域的小哥哥以前長這樣?來了中國才幾天,就達到了顏值巔峰