當前位置:
首頁 > 最新 > 搜狗武健:從機器人看人工智慧

搜狗武健:從機器人看人工智慧

圖片來源:視覺中國

在鈦媒體在線課「鈦坦白」第40期,我們請來了三位鈦客,分享AlphaGo與柯潔「人機大戰」勝負之外的更多思考。本期鈦客之一、搜狗基礎平台負責人、機器人負責人武健,畢業於清華大學,2009年加入搜狗,先後負責搜狗瀏覽器、機器人等公司級重大項目。其參與主導的「搜狗汪仔」機器人,在「一站到底」節目播出後引起行業關注與討論。

本文節選自武健在鈦坦白的分享。如果您還不是鈦媒體Pro用戶,希望查看鈦坦白所有乾貨,進入鈦坦白九個專業群交流,並查看更豐富的專業數據和信息,可點擊:http://www.tmtpost.com/pro 註冊。

以下根據武健在鈦坦白的分享實錄整理:

大家好,很高興今天晚上在鈦坦白跟大家聊聊人工智慧。我叫武健,畢業於清華大學。畢業之後一直在搜狗工作,從去年開始主導了搜狗汪仔機器人的項目,參加了「一站到底」,目前節目已經播出了半年時間,效果很好,引起了很多人的關注。

我相信在若干年前,當大家聊起機器人時,腦海里浮現出來的可能是這樣的場景:

這些機器人看著都很炫酷,也非常高級,但感覺離我們的真實生活是非常遠的。今天,如果我再跟大家說機器人,大家可能想到的就是這樣的場景了:

誠然,工業機器人還在它所在的領域發揮著巨大的作用,這點是毋庸置疑的,但是人們的注意力已經轉移到各種聊天機器人、陪伴機器人、服務機器人以及教育機器人上面了。


對於機器人的定義與理解

在科技界,科學家會給每個科技屬一個明確的定義。機器人問世已經有幾十年了,但是對於它的定義仍然仁者見仁智者見智,沒有統一的意見,原因之一是機器人還在發展,新的機型和功能不斷的湧現出來。

但我覺得根本原因,是「機器人」涉及到了「人」的概念,成為一了個很難回答的哲學問題。機器人這個詞,最早誕生於科幻小說之中,人們對機器人充滿了幻想。也許正是因為對機器人定義的模糊,才給了人們充分的想像和創造空間。

不管怎麼樣,我姑且先把之前提到的這幾種機器人統稱為智能機器人,即人工智慧機器人。可能有人會想到底什麼是人工智慧呢?我先在這裡賣個關子,咱們最後再來討論這個問題。

智能機器人跟我們之前提到的這種工業機器人有什麼區別呢?在我來看,最重要的一點是智能機器人是擁有非常發達的大腦的。

那麼我們可以接著往下繼續深入的思考一下,到底擁有什麼樣的能力才算擁有了大腦?因為不同的人對於大腦的理解也是不一樣的,我提一些個人的想法。


人工智慧機器人的關鍵能力

如果讓我來定義的話,我覺得人工智慧機器人至少要擁有兩個關鍵的能力:

輸入和輸出信息的能力。當然這裡的輸入可以包含很多種了,有語音輸入、圖像輸入、感測器輸入、超聲波輸入、激光器等等,我也看到咱們群里有很多的朋友和老師都在相關的領域做著研究,我相信他們對這點有非常多的了解。輸出的方式也是有各種各樣的,有屏幕顯示、語音合成輸出、行為動作……

思考的能力。所謂思考的能力就是要求機器人根據自己的知識計算體系,結合到它收到輸入的信息,經過一定程度上的計算或思考,得到一個結論,這個結論會被用合適的方式給通過輸出通道反饋出去。

基於剛才我提到的這兩點,一個是交互能力,一個是思考的能力,來重新思考這個機器人的定義,那麼滿足這兩個條件恐怕就不僅僅限於我剛才照片里發的那些擁有真實物理形態的機器人了。

所以在我看來,智能機器人重要的不是是否擁有運動能力,能舉起多重的東西,是否能跳起來,而是看這個東西在跟誰打交道,怎麼打交道。如果一個不是人類的東西能夠跟人類正常的交往,那麼我其實就很願意叫它為機器人。當然我想在這裡強調一下我並沒有提起是否要滿足圖靈測試這一點,我個人認為在現階段要滿足圖靈測試還是一個夢想,拿圖靈測試來做一個東西的評判標準還是不太合適的,所以說我們可以把這個標準放低一點,來看這個事情。


智能機器人的交互能力

我剛才提到了智能機器人的重點是要跟人類打交道,那麼跟人類打交道裡面最重要的是什麼呢?大家來看機器人這個詞,把它拆開是機器+人來組成的,機器二字突出的是什麼呢?突出它的確是一個非人類,是一個物體。但是人字又體現出我們其實希望它是個人,更準確的說它像個人。那麼你在跟一個東西進行交流時,它怎麼樣才能像個人呢?

其實最基本的一點就是機器在跟人打交道時它要表現得很自然,我們把這種交互方式叫自然交互。怎麼樣的交互才叫自然的呢?是說這個學習成本越低越好,這個交互越接近人類的本能越好,還是說我們要從信息的輸入和獲取的方式上來判斷呢?

我們回過頭來看過去幾十年計算機的發展以及人和機器交互方式的演化,從純文字的命令行窗口,到有圖形的視窗+滑鼠控制輸入,再到後來的視窗+接屏控釋,我們不難發現,其實人和機器之間的交流的學習成本在不斷的降低,人機交互變得越來越接近人的自然能力。

今天,語音其實正在成為一個最自然的交互方式。馬麗米克在2016年的互聯網趨勢報告就提到了:"語音應當是最有效的輸入計算形式,在2015年,美國使用過語音助手的用戶比例已經達到65%。在這些使用語音的用戶中有43%的人是在家中使用。"隨著技術的進步和語音效果的提升,這兩年比例還在持續的擴大中。我相信在座一定都用過語音輸入這個方式。

人們使用語音的場景有很多,比方說開車時候你的雙手雙眼都被佔用了,在客廳裡面,有些設備可能就沒有傳統的這種鍵盤輸入,在戶外行走的時候打字很慢等等。說到這裡,我必須暫停一下,向偉大的蘋果公司致敬,剛才我們提到的每一個新的交互形態,都是由蘋果在工業界點燃的。通過自然語言來進行知識信息獲取和服務的,蘋果可能不是第一家,但它一定是開啟時代的那一家。當然互聯網上有很多關於"為什麼只有蘋果才能做出如此創新"的文章,數不勝數,大家都有自己的理解,我們這裡就不再深入去聊了。


如何做好自然交互?

對於這種開放式的問題其實並沒有唯一的答案,我也只是結合搜狗在做的事情談一些心得和體會。

在我看來,自然交互的本質其實就是人工智慧,而有價值的人工智慧 = 技術 + 計算力 + 數據 + 產品。所以,自然交互= 技術 + 計算力 + 數據 + 產品。這裡的有價值的人工智慧,指的是能夠以真實的產品形態滿足用戶需求的,而決不是停留在實驗室裡面的那些原型。

技術

在我剛才提到的模型裡面,技術是很重要的,所以我們把它放在最前面。但是技術有一個問題,它是天然擴散的。因為互聯網的本質就是分享和傳播,Google在地球的另一端發布一個新的技術,用不了幾天的時間,我們中國的各位選手就能馬上利用起來,來結合到我們現在的技術裡面。特別是在深度學習時代,技術已經很難成為公司之間的競爭壁壘。所以,在技術領域,我們要做到走在前面,跟住時代的步伐並且希望能夠一起參與進來,推動技術的本質進步。但在AI時代,想要依靠技術形成壁壘和壟斷我覺得已經不太現實了。

計算力

在這裡我特別想引用黃仁勛先生的一段話:「如果我們看晶體管的代進性能遞增確實速度是在放緩的,如果我們的創新只是依賴於晶元性能一代一代提升,這個速度也一定是會放緩的。但是,如果從系統、演算法、設計、架構等不同的方面去看性能的提升,我們還是可以有很大的機會的。比較我們這一代的GPU架構Pascal和上一代的GPU,性能在兩年之內已經有了十倍的提升,在4年時間有了65倍的提升。所以,我覺得現在可能已經進入了一個叫超級摩爾定律的時代了。」

我非常認同黃仁勛先生的觀點,計算力一直在穩步提升,甚至在加速提升。今天你引以為傲的計算力,可能沒多久就變成了大街貨,人人都可以擁有,所有參與到這方面的人都會享受到計算力提升帶來的紅利,只要你有足夠的投入。

產品與數據

所以說,技術是擴散的,計算力是指數性增長的。在當下時代,只有產品加數據才是你的私有財產,才能形成競爭的壁壘。

我們來看幾個例子,2005年,google的機器翻譯使用超過學術界一萬倍的數據,一舉成名,搞定了翻譯界多年都搞不定的翻譯的準確率難題。Google 2009年收購的reCAPTCHA,這個東西是通過一個巧妙的產品設計,讓用戶在網頁登錄輸入驗證碼的同時,為OCR訓練提供了大量的訓練樣本,解決了疑難字的識別問題。在AI時代之前,不管是商品的推薦還是電影的推薦,都是基於item之間的相似性來實現的。但自從有了大量用戶產品,並且用戶在這些產品里產生了足夠多的數據後,廠商們現在都是利用用戶行為建立推薦模型,商品的推薦進入了協同過濾時代。這是一個非常典型的通過產品上的數據積累改變了行業玩法的例子。

所以可以看出,要想做好AI,產品和數據才是重中之重。在產品和數據方面,要形成閉環,儘早讓一個功能上線到產品中去累積數據,進而不停去推動技術的進步。

我想再用搜狗舉一個真實的例子。搜狗目前語音識別能力和翻譯能力是非常出色的。在我們項目初期冷啟動階段,我們其實利用Google的語音識別API,做出了搜狗輸入法的語音輸入功能,並且投放上線。隨著用戶使用該功能的頻次逐漸增加,我們很快就積攢了一批原始數據,然後就開始了自己的建模和訓練工作,在很短的時間內就用自己的模型取代了Google API,完成了自主化。在接下來很短的時間內,隨著原始語料的不斷積累,技術模型的不斷演化,線上語音識別的正確率提升特別迅速。

目前,從技術方法本身上,搜狗沒有獨特的地方,訓練平台我們有超過1000塊GPU的體量,據我了解百度大概有2000塊GPU的體量,但我們的優勢是什麼呢?就是線上量大。我們擁有優秀的產品,給我們帶來了大量優質的數據。現在搜狗輸入法每天語音輸入請求能達到2.5億次PV,每天產生20萬小時的語料,在這20萬小時的語料中,還包含著全國各個地區用戶的語料數據。

剛才提到的只是數據積累的部分,其實你結合用戶產品,我們完全可以做得更多,比如說去年搜狗輸入法上線了語音修改功能:當你說錯了一句話時,以前你要用手自己在屏幕上定位,然後刪除,輸入新的字,現在你就完全可以跟用語音修改功能說把什麼字改成什麼字,再哪哪加一個標點這個功能。最初我們用輸入法用戶的行為形成了一萬條修改的文法,這個語音糾錯功能剛上線的時候,修改的成功率僅僅只有40%,但是你可以通過不斷的迭代和數據反饋,所以我們僅僅用了一個月的時間就把成功率提升到了80%。可以看出:通過好的用戶產品形態和數據,我們就可以讓產品本身表現的更智能,映射到自然交互上它就順理成章地變得更好了。

剛才我們提到了技術是擴散的,計算力是增長的,唯有產品和數據可形成壁壘,絕不是說技術是不重要的,產品和技術之間其實也是有非常大的關係的,因為新的技術一定可以給你帶來新的產品形態,同時好的產品形態一定會加速技術的進步,這兩個東西一定是相輔相成,一起往前推動了整個行業往前進步。


智能機器人的思考能力

思考能力是一個很寬泛的定義,到底做到了什麼樣的程度才算有了思考能力?是滿足了加減乘除?還是滿足了一定的功能響應或圖靈測試?到現在也是沒有確定的範圍。在這裡我就想提出個人的一些看法,在我來看,在當下如果一個機器人有了問答能力,就可以算是有了思考能力,就可以被稱為智能機器人了

當然問答能力本身還是一種比較寬泛的說法,這裡我把問答分成三類:

命令執行。舉個最真實的例子就是蘋果的Siri,但它需要跟iOS結合來執行你的各種命令。我們可以把它比作一種遙控器,因為這種問答AI它不僅僅可以跟iOS結合,它可以和其他任何硬體在一起,各種不同的載體來結合,也可以和各種垂直的服務結合,但它執行的一定是一個有限集合里的命令。你讓它幹什麼,它就幹什麼,它主要功能和能力就是對命令的理解和分類。

情感陪護。這裡面就是為代表作的就是微軟的小冰機器人,它主打的功能就是陪護。當你心情不好的時候去跟它聊一聊,或者閑著沒事幹,去和它聊一聊,我把這種關係比作人和人之間交往的這種蜜月期,這裡面蘊含的更多的是交往,建立情感上的交互,但是這裡面很少有信息,有知識的獲取。你可以試著問小冰知識,它就回答的非常差。情感陪護這種需求人是肯定有的,但是目前在我來看,它未必是個高頻需求。

答案建議。當你在跟朋友聊天的時候,你除了有情感上的交流之外,更多的可能是一種知識、信息的分享和交換。你希望從你的朋友那裡得到信息,得到答案,或者得到建議,得到知識,這種問題在不同的場景下有不同的形式,比方說有定義型的,網路爬蟲是什麼?有意見型的,孕婦懷孕了能吃芒果嗎?還有what型,一站到底是哪個電視台的節目?,還有how to型的,指尖陀螺怎麼玩?等等。

在以上三個問答的分類中,我認為這種答案建議的需求是目前來看是最高頻的,也是實現起來難度最大的

為什麼說答案建議是最高頻的呢?理由就是人類是有強烈的求知慾的,我們不管是在學習,工作,生活,還是娛樂,其實都需要不停地獲取信息。學習中你需要查資料,生活中你買東西要知道價格,工作中你要知道各種技能,娛樂方面你要想找一些內容,找一些花邊新聞,找電影看,找歌聽,人類求知慾的旺盛,也是互聯網這麼多年如此蓬勃發展的一個重要原因。


人工智慧與搜索引擎

說到這裡,大家就可以停下來想一想,在我們現在人工智慧時代到來之前,互聯網時代中我們最需要、使用頻率最高的東西是什麼?我認為很多人的答案應該是搜索引擎。為什麼搜索引擎很重要?就是因為它滿足了人類的求知慾。那麼同樣都是要滿足了人類的求知慾,搜索引擎和智能問答機器人之間的關係到底是什麼呢?我們不妨花點時間來回顧一下搜索引擎發展的歷史:

1996年-2012年,PC時代的搜索引擎

這時候所有的搜索行為都發生在個人電腦上,可能是家裡放著的一台連著貓的PC,也可能是辦公室裡面的一台筆記本電腦。用戶在使用搜索引擎的時候輸入的是關鍵字,其實本來大家用來交流的語言都是自然語言,但是由於那個時代技術的限制,大家用著就會發現,問搜索引擎一個完整的問題往往得不到想要的答案,反而把問句裡面的關鍵字人工的提取出來,就能得到更好的結果,這實際上是人對機器的一種妥協。就像我之前談到的自然交互一樣,使用關鍵字來表達我的想法,這種交互方式它不自然

同時在PC時代,所有信息的載體是網頁,萬億級別的網頁承載著互聯網上整個世界的信息,並且這些信息基本都是公開的,誰都能看見。那麼在那個時代的搜索引擎的主要挑戰有哪些呢?

第一個是全。看看誰能索引更多的網頁信息,因為有萬億級的網頁不是隨便一個做搜索引擎的公司都能把所有網頁都能索引下來的。

第二個是准。怎麼樣在這麼多個網頁中把最有價值的信息提取出來,展現給用戶?Google的崛起也就是因為它發明了page rank演算法,變得特別准,才變成搜索引擎的王者。

第三個是便捷。我怎麼統一入口,在第一頁的展現里把各種不同的信息都能很好的展現給用戶?到了PC時代的後期,搜索引擎除了文本之外,還能提供富媒體的內容,再往後就有了開放平台,直接接入各種服務商,提供垂直服務內容。比如說天氣這種東西,都能在搜索引擎首頁上直接展現結果。

2013年-2016年,移動互聯網時代的搜索引擎

從PC到移動發生了很大的變化,我們還是從設備、輸入和載體這三個維度來看。

首先設備上變化就很大,大家除了工作時用電腦,平常時間走路的時候休息的時候通勤的時候也會用手機,用pad等等,使用這些智能設備的時間變得更高頻,時間更碎片化。

輸入方面,除了pc時代的關鍵字,通過手機等智能設備,我們就可以輸入語音,輸入圖像,而且這裡面每一次的輸入里都蘊含著POI的信息。

信息的載體方面,除了公開的網頁之外,你會發現在各個垂直領域出現了大量優秀的APP,每個APP在它所在的垂直領域都非常好的解決了用戶在這裡面的需求。這些APP里包含著大量的信息,但它不像網頁是完全公開的,它在app裡面是私有信息。

這個時代的搜索引擎在做什麼呢?其實大家很容易發現,這個時代各個商業巨頭在做連接,試圖讓搜索和APP結合起來。比方說Google推出了Deep Links,iOS底有Spotlight,deep links和universal links。還有一些戰略上的合作,比方說搜索和社交的結合。Bing它收購了facebook 1.8%的股份,為的就是能讓Bing在網頁上展現出你的facebook好友對一條搜索結果的評論。Google和facebook之間的合作,facebook允許google索引部分內容,就是為了讓google把用戶引流到facebook APP裡面來。再比方搜狗和騰訊之間良好的合作,使得搜狗可以直接連接微信里的優質內容,推出了獨家的這種微信搜索功能,在搜索引擎中直接可以直接搜索微信公眾號的內容。

同時值得一提的是什麼呢?在移動時代,搜索的輸出形態也發生了變化,現在的一部分搜索結果可以直接以語音播報的形式反饋給用戶,在這個交互形態上也會變得更自然了。

從2016年AlphaGo「人機大戰」開始,人工智慧時代的搜索引擎

很多人把2016年定義為人工智慧元年。那麼在人工智慧時代又發生了什麼變化呢?從設備上來看,輸入設備變得更加多元化,不僅僅是手機,pad,任何可以聯網或以接入的設備都可以,比如眼鏡,車載系統,音箱,機器人。大家現在講IoT,這些東西都是T,things。當面臨這些東西時,很多場景是不允許你輸入關鍵字的,用戶的輸入就必須是自然語言了, 伴隨著自然語言輸入,還有一些周圍的環境信息,所以整個輸入維度會更多,更加立體化。在載體方面,之前的載體是網頁,是APP,在現在智能時代,我們不缺信息,信息是爆炸的,我們缺少的其實是成體系的結構化的知識,所以我們在這個時代會強調知識計算。

那麼大家仔細體會這三個階段,你會發現,在滿足人類求知慾的這條路上,問答就是在AI時代搜索的最終形態。輸入從關鍵字變成了一個完整問句,方式從鍵盤變成了語音,反饋從一堆網頁鏈接變成了一個直接的答案,但是它的職責永遠是不變的,就是要滿足人類的這個求知慾。

我粗淺的認為,在人工智慧時代,如果想做好問答機器人,那麼沒有搜索的這個積累和底蘊其實是很難實現的,這也是為什麼現在搜狗正在做問答的原因之一

在中文的知識類問答裡面,汪仔機器人其實已經完全超越人類了。從2011年IBM的Watson在危險邊緣中首次擊敗人類,到2016年AlphaGo戰勝李世石,當然圍棋是一個固定規則下的完全信息博弈問題,再到現在汪仔在中文自然語言理解、搜索、推理方面戰勝人類,每次新的超越所用的時間越來越短,我相信這也是人工智慧時代的特色之一吧。


汪仔與Watson的區別

我們在推出汪仔之後,總會有人會提到汪仔不就是個Watson么,這個說法,所以我想在這裡花一點時間來對比一下,汪仔和Watson,來看看人工智慧時代的問答機器人和Watson相比到底有什麼區別:

語言。汪仔處理的是中文,Watson處理的是英文。其實在NLP屆大家都會有一個共識:中文的自然語言處理難度是最高的。處理好中文所需要的投入是要遠遠大於處理英文的。

問題輸入。汪仔接收輸入的方式是聽主持人念題,看圖片中的題目,這裡面用到了語音識別和圖像識別技術,而Watson看過節目的人其實都知道,使用的是一種特殊的文本輸入。

問題範疇。汪仔是可以回答整個開放域的問題,問題沒有分類,沒有限制,而Watson回答的是一個封閉域的問題,它在進行答題之前他是要選問題的領域的,比方說文學,體育之類的,必須要提前選定問題的類別。

計算力。汪仔是聯網計算的,知識來源是整個互聯網,而Watson它是一個本地計算。同時汪仔是支持閑聊的,在答題之外可以和主持人以及參賽選手互動,而Watson只能答題,它並不能和人聊天。

賽制。Watson在比賽中是沒有搶答一說的,大家都是收到完整的題目之後,試圖去回答出正確的答案。但汪仔參加的一站到底,從賽制上是要求機器人和人類進行搶答,這也就要求汪仔在沒有收到完整的題目信息的時候,試圖去預測問題是什麼,並且進行回答。同時按照節目的要求,答題者如果你答錯了反而會給對方送分,那麼就要求我們汪仔你猜還不能亂猜,機器人得有信心知道自己能答對才會去搶答,這就把整個問題的複雜度提升了另外一個量級上。

所以可以看出來,相比起Watson,汪仔是一個人工智慧時代是各種優秀技術結合起來的智能問答機器人。

結合上述內容,這就是我對智能機器人的兩大要素的理解,第一是自然交互,第二是問答能力。可能有很多人會有不同理解,甚至意見和我完全是相悖的,我覺得是好事,因為現在這個時代正是一個思想綻放,百花齊放的AI時代。

到底什麼是AI?

在AlphaGo出現之後,大家都在喊AI,就好像之前大家喊連接,喊「互聯網+」,喊大數據一樣。但是不管是連接、互聯網、大數據,都沒有任何一個東西像AI一樣讓我思考這麼久。我一直在想,到底什麼是AI?它到底有沒有一個標準的定義?

于是之前我就花了不少精力去搜索了解,去看書,看各種文章paper,我發現並沒有一家權威機構對什麼是AI做出明確的定義。然後我去和各種在AI領域工作的人聊天,我會問他們"你在搞什麼?",他們會回答我"我在搞點和人工智慧有關的事情",那我繼續問"那你覺得什麼是人工智慧",得到的答案就千奇百怪了,甚至很多人都沒法用簡單幾句話給我描述清楚他心中的AI是什麼樣子。

各位不妨在心裡問問自己這個問題,能不能用簡單幾句話說清楚什麼是AI?

後來我又看一篇Stanford的一篇報告,對裡面的一些觀點非常認同,在這裡分享給大家。報告里提到:這個世界的確對AI缺少一個精準的,統一的定義,但是就是因為缺少這麼一個精準統一的定義,反而讓AI在各個不同的領域大放光芒,開花結果。各方參與者、研究者,可能都在對AI有一個朦朧的認識的情況下,就開始搞AI了,所以說AI沒有一個準確的定義,它未必是一件壞事情。

大家想在很多年前,在計算器剛被發明出來的時候,我相信那個年代的人一定會認為計算器是"智能"的,但是按照我們當今這個時代的標準來看,計算器頂多算是一個小孩子的玩具罷了,和我們所提的AI相去甚遠。但你又不得不承認在當時那個年代,計算器就是智能的。所以你仔細體會一下發展的過程,AI是不是能算做一種努力?

AI是一種不停的努力,試圖讓機器變得更智能。更有意思的是什麼呢?AI這種努力會推進我們向更先進更智能的領域前進,但是你一旦進入到這個領域之後,我們就會想方設法把AI從這個領域裡剔除出去。大家想想看,因為AI,我們把一個全新的科技帶入到一個common field裡面來,然後等人類熟悉這個東西之後,就不再覺得這個東西是個AI了,不覺得它智能了,然後又會有更新的科技誕生。所以你從這方面來看AI也能算做一種趨勢,它永遠去追求更遠的進步。

就拿現在的下棋AI舉例子,當年深藍在初次戰勝卡斯帕羅夫的時候,我還是一個小孩,我守在家裡小小的電視前面看新聞,我就覺得電腦好神奇,簡直太智能了,完全打破了我對計算機能做到的事情的理解。但現在你隨便對一個AI行業里的人去說,說只會下國際象棋的深藍是AI的話,估計你會被嘲笑吧。但是現在大家又全部都同意說AlphaGo現在就是AI的代表作之一,那麼十年二十年之後,AlphaGo會不會陷入到現在深藍的境地,誰又知道呢?但我相信,不管在那個年代AlphaGo是怎麼樣的,AI還一定還在人類心中。


鈦坦白群友互動:

1、請問,使用人工智慧做內容推薦,如何解決推薦的內容會限制用戶視野的問題?

武健:其實推薦的便捷和限制用戶視野的問題,的確是長久以來推薦體系面臨的問題,也是整個推薦系統大家一直致力於解決的一個問題。我覺得要從兩個層面來解決這個問題:

從產品層面上來看,除了推薦的內容之外,其實你一定還是有按照類別來區分,然後還有別的熱點內容展現給用戶。不可能全是推薦的內容對吧,否則你就形成了一種過擬合。然後你按照類別區分,產生別的熱點內容。不管用戶感不感覺興趣,你都可以推給他,有些用戶願意點,有些用戶就不願意點,你會形成更精準的這種數據反饋,然後就讓模型變得更好。

從技術層面來看,剛才說的內容除了推薦內容,還有熱點內容之外,也屬於技術內容的一部分,你也可以進行一些協同過濾,讓這些跟你有關係的用戶,還有一些別的東西,也推薦進來,這樣的話可能會擴大這種興趣範圍。另外一方面就是隨著你對用戶各方面精準刻劃和全面收集,你的範圍就會越來越廣。然後你就會看到它有更多的所謂興趣源,能讓這個領域變得越來越大,然後能讓歷史上或者將來的數據逐步的放大,去形成正向的一種循環。

2、請問什麼產品能更好承載了語音視覺交互的問答,耳機還是眼鏡?

武健:這個東西我比較關注的兩個,一個是說問答機器人,剛才我詳細的已經解說過了。還有一個是翻譯機,你會發現現在的熱點就是翻譯,翻譯機的形態有很多。它可能是一個耳機,也可能是一個手持設備。但是現在有很多的人都在集中力量來做這個事情,想實現多語言之間的這種互通,來方便出國旅遊或者會議這種翻譯場景的使用,像現在科大訊飛已經推出了2B的產品。

很好的實現了語音交互的系統,還有什麼呢?就是車載系統,剛才也提到了,比如現在的車載導航,我們正在致力於開發。首先它一定是在一個垂直領域裡面,然後它是基於多人對話的一種智能語音系統,你可以說:「我要去機場」,它問你哪個航站樓,你說:「我要去T3」,或者直接告訴他航班號。在路途中間,如果你說:「我想去喝杯咖啡」,他會幫你計算在你去機場的路上哪兒有星巴克。它就是以很好的產品形態承載了語音視覺的交互,同時它還伴隨著後面有個知識體系。

3、請問您認為在知識推薦領域,何時能夠做到精準並民用?

武健:這個問題我還是想結合搜索來回答。因為現在我們可以說搜索引擎已經是解決了這個問題,但是形態上跟推薦不太一樣。因為搜索上它給出的答案是十條,推薦上面它可能給你一個精準的答案。但是就像我之前說的,做這種精準的推薦一定是要基於搜索來做的,它往後更多的發展可能是你的產品形態上的變化,一定要有一個非常好的產品形態,然後才能讓它去進入精準的民用級。以我個人粗淺的理解,我覺得兩三年的時間吧。兩三年之內,這種精準的民用級知識推薦,不能說在全領域,但是一定是在一些特定的垂直領域,我覺得就能實現得很好了,我不知道這樣回答是否你想要的答案。

4、請問剛才提到的就是說現在的這種人工干預還多嗎?

武健:其實現在的人工干預還是非常多的。現在不管是在語音識別,在語義理解還是需要大量人工標註的,就是你數據的積累是一部分。但是你前期的提升靠大量的數據來灌其實效果是很好的,到後面你想一個點一個點提升的時候,還是需要有大量的人工標註的。現在但凡在模式識別這個問題裡面,我們還沒有說能夠脫離人工標註來進行完美實現的一個方案,所以說現在有些人就會戲稱所謂人工智慧其實還是工人智能。

(本文獨家首發鈦媒體,根據搜狗基礎平台負責人、機器人負責人武健在鈦坦白上的分享整理)

…………………………………………

更多鈦坦白乾貨文章、下期預告可以點擊:http://www.tmtpost.com/tag/1508094

更多了解人工智慧,你還可以看鈦媒體推薦的書單:http://www.tmtpost.com/2610569.html


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 鈦媒體 的精彩文章:

鄧亞萍回劍橋演講,披露曾因個子低被國家隊拒絕
這份報告顯示:全國35城中,智能電視比例超兩成,月活超六成
尷尬iPad:不斷「變臉」,盡成無用功
大疆進軍掌上無人機,新品「曉」Spark以手勢交互為主
中搜網路董事長、總裁陳沛:從「人機大戰」看人工智慧的崛起

TAG:鈦媒體 |

您可能感興趣

插上人工智慧的翅膀,讓搜狗英文搜索帶你「看世界」
王小川:搜狗以語言為核心的人工智慧布局
語音識別里的人工智慧還看搜狗,搜狗智能錄音筆C1體驗分享
對話搜狗王硯峰:如何用「搜狗分身」技術拓展人機交互的感知體驗?
對話搜狗董事長王小川:人工智慧要走差異化賽道
搜狗攜手中網 將人工智慧落地運動賽場!
大撒花,搜狗人工智慧打破世界紀錄!
搜狗副總裁吳滔:在人工智慧戰略中我們有獨特優勢
搜狗升級權威健康信息搜索 為國民健康搜全球
搜狗王小川:人工智慧視為戰略重點 改善用戶交流效率是關鍵
搜狗攜手新華社、咪咕、掌閱簽訂戰略合作協議,用人工智慧構建網路文娛新模式
搜狗不愛智能音箱,愛AI翻譯機
基於中文知識圖譜和機器翻譯技術,搜狗搜索正式上線海外權威健康信息
搜狗打造健康信息權威搜索 未來將推數字家庭醫生
搜狗上線海外權威健康信息搜索
對話搜狗口語機器翻譯團隊:國際冠軍的誕生
一線|搜狗搜索整合全球健康內容 上線海外權威健康信息
對話搜狗口語機器翻譯團隊:全球奪冠只為驗證技術,更看重落地商用
小巧實用!搜狗新品:攜帶型智能錄音筆C1體驗
AI合成主播「雅尼」首次亮相:搜狗人工智慧黑科技不斷升級