當前位置:
首頁 > 新聞 > 專訪陳華榮:搜「主角一開始就死」可搜齣電影,小米電視如何做到

專訪陳華榮:搜「主角一開始就死」可搜齣電影,小米電視如何做到


本文作者:蔣鴻昌


導語:模糊語義識別、智能問答、多輪對話,會讓家中的電視越來越聰明。


上個月,小米發布了一款新電視——小米電視4A。這次發布會距離小米電視4的發布僅過去了2個月。小米電視4A的發布有個小背景,從去年下半年開始,因為原材料價格的大幅上漲,2月份,小米電視3s已經漲價了500-600元,剛發布的小米電視4雖然還未上市銷售,但4.9mm的厚度以及超窄的邊框,註定了它在價格上不是一個「小米式」的產品。


小米電視4A被稱作回歸高性價比之作,不過同時,王川也給這款電視帶來了一個新特性——人工智慧,這是「小米首款人工智慧語音電視」。發布會上,王川的演示獲得了全場掌聲,尤其是他說出諸如「小嶽嶽追車的畫面」、「鄧超和張天愛第一次見面的場景」的指令,小米電視4A準確跳到相應畫面時。


這些讓人驚嘆的智能背後,需要語音識別以及自然語言處理的支持,三角獸正是為小米電視提供語義理解技術的公司。日前,雷鋒網採訪了具體負責這個項目的三角獸技術合伙人陳華榮,聊了聊他的職業經歷,小米電視4A的人工智慧背後的秘密,以及語義理解在垂直領域的商業化應用。


專訪陳華榮:搜「主角一開始就死」可搜齣電影,小米電視如何做到



三角獸技術合伙人陳華榮


陳華榮:從Bing的Answer系統到三角獸的聊天機器人


2005年,在中科院軟體所獲得計算機軟體與理論專業碩士後,陳華榮就加入了微軟,並先後在北京和微軟西雅圖總部工作。2013年,他回到了北京,在Bing部門負責中日韓的Answer系統。所謂Answer系統,即向用戶提供結構化的顯示結果,用戶不用離開搜索引擎,就能獲取到需要的信息。



專訪陳華榮:搜「主角一開始就死」可搜齣電影,小米電視如何做到



如上圖,當你搜索《羋月傳》時,第一條搜索結果會直接出現這部電視劇的信息、海報、簡介和每一集的視頻鏈接,而且來源於兩個不同的視頻網站。百度和Google也有類似的系統,它們通常以卡片的形式向用戶展示。


Answer系統和普通搜索結果的最大區別,是它力求準確而不是關鍵詞的相關性。陳華榮向雷鋒網解釋,這主要依靠工程師對數據整理的準確性。對結構化的數據,如電視劇評分,系統會直接抓取,而對於半結構化和非結構化的數據,則需要先抓取下來,再做語義分析,然後以結構化的方式呈現給用戶。對於視頻類信息,系統則通過接入API的方式,直接把視頻網站的數據呈現出來。


這個工作和三角獸目前專註的語義分析其實是匹配的。而在微軟這樣的大公司,即使有小冰、Cortana這樣的產品,它們的一切也要圍繞微軟的戰略進行,這是最讓陳華榮感到掣肘的地方。所以,在2016年,當三角獸的CTO,也是陳華榮在微軟的同事亓超找來時,他毫不猶豫地加入了後者。

讓自然語言理解的服務應用到更多領域,打造一個語義理解的大腦,是三角獸的願景。現在,三角獸專註的領域之一,任務驅動的多輪對話是陳華榮負責的重要工作。所謂任務驅動的多輪對話,即用戶帶著明確的目的來,通過自然語言的交互方式,快速解決自己的問題,如訂餐、看電影等。


多輪對話的目的,是因為和人類正常的聊天一樣,單獨一句話通常不能明確表達需求,這就需要系統通過反問、反覆確認來一步步明確用戶的需求,並返回結果。這已經超越了簡單的語義理解加信息檢索的過程,而是一個在對話過程中不斷明確需求的決策過程。這也是聊天機器人解決實際問題的基礎。


模糊語義識別:你把電視劇名字記錯了,我依然能給出正確的結果


陳華榮告訴雷鋒網,三角獸此次為小米電視4A準備了一整套的語義理解方案,而小米根據自身的產品需求和排期,主要選擇了模糊語義理解和視頻問答兩個部分。


所謂模糊語義識別,即在用戶輸入模糊的、不準確甚至錯誤的信息時,依然能給出正確的搜索結果。因為小米電視使用了語音作為交互方式,輸入時,用戶的語調不同,就有可能出現錯誤信息,另外,當用戶記憶不清時,也經常會給出錯誤的搜索詞。



專訪陳華榮:搜「主角一開始就死」可搜齣電影,小米電視如何做到



陳華榮舉了個例子,前段時間有一個很火的電視劇叫《老公們的私房錢》,而用戶則可能錯記為《男人們的私房錢》。這個時候,三角獸的技術就可以返回正確的結果。


對於模糊語義識別的實現過程,陳華榮介紹,三角獸在視頻這個領域建立了語義糾錯的語言模型,會處理字形像(半 -羋)、模糊音(肖生克 - 肖申克)、同音不同字(路遙知馬力 - 陸垚知馬俐)、語義相近(男人們 - 老公們)等等的問題。在該模型的基礎上三角獸做了特別的處理去做索引建庫。


當用戶的查詢(query)過來後,經過糾錯模型去作特別的處理後,再到資料庫中盡量地召回相關的視頻;之後,排序(Rank)模型的特徵在糾錯模型的基礎上,結合大數據挖掘的信息,如熱度、評分等等,對結果進行重排序,從而把用戶想要找的視頻正確的檢索出來和進行了語義上的糾錯。這也是三角獸可以把「男人們的私房錢」糾正為「老公們的私房錢」,「肖生克救贖」糾正為「肖申克的救贖」的原因。

視頻問答:剪刀手愛德華的男主角還演過什麼電影?


視頻問答系統,可以看成是影視百科,包含視頻簡介、演員百科、劇中的角色、該演員還演過什麼電影等各種信息。這樣,當用戶用語音詢問諸如「剪刀手愛德華的男主角」時,系統就能給出正確的答案。


不過,問答系統的功能遠不止於此。發布會上,小米也做了很多展示,某些時候,它甚至超出你的想像。比如,「剪刀手愛德華的男主角還演過什麼電影?」、「《肖申克的救贖》是哪一天獲得的奧斯卡獎?」「小李子什麼時候拿過奧斯卡金像獎?」等,問答系統都能給出答案。


而陳華榮告訴雷鋒網,這些其實是很成熟的技術。首先,對這些語句進行理解並不困難,整個實現過程最大的難點,在於數據的提煉,也就是說,要將影視劇的各種信息提取出來,並提煉出各種標籤,然後通過檢索、排序,匹配用戶的需求。


和問答系統實現過程類似的是電影搜索,唯一的不同是對用戶的指令進行語義理解後,不是直接返回答案,而是到資料庫里去檢索相關的電影,並作重排序返回結果。這個功能的實用性更高,比如你甚至可以直接讓電視找出「只有一個人出演的電影」、「主角一開始就死了的電影」等。



專訪陳華榮:搜「主角一開始就死」可搜齣電影,小米電視如何做到



(網路上散步著大量諸如「主角一開場就死了的電影」的信息,需要系統先抓取,再進行語義分析和信息提煉)


現在,對於影視劇信息,打標籤的大部分工作已經可以做到自動化。系統首先從影視劇的官方網站、豆瓣、貼吧、各種評論中抓取信息,再對這些信息進行挖掘,自動提煉信息。另外,對一些知名度高的頭部內容,三角獸也會用人工的方法進行標註,匹配用戶更多樣化的自然語言搜索需求。


陳華榮還告訴雷鋒網,未來,三角獸還將與小米電視在多輪對話方面展開合作,以對話的方式,更準確地匹配用戶更加個性化的需求。

例如,當用戶發出指令,「我要看《天龍八部》」時,系統會返回非常多的結果,為了更好地理解用戶,多輪對話系統會主動詢問「您要看電視劇還是電影?」如果用戶選擇了電視劇,系統可能會再次詢問用戶要看什麼版本,直到給出用戶滿意的結果。


進行多輪對話時,自然語言處理系統的關鍵一步是對對話狀態的追蹤,即根據多輪的對話來確定用戶當前的目標到底是什麼的過程。在這個過程中,系統要確認是講當前的狀態與前一個狀態是衝突的,還是要將兩個狀態進行合并。舉個簡單的例子,用戶想看劉德華的電影,但是對搜索結果不太滿意,他就可能轉換目的,「張學友的電影」,這個時候,系統已經按照兩個狀態衝突來進行處理,在結果中呈現張學友主演的電影;但是,如果用戶說了「和張學友的電影」,系統就會把兩個狀態進行合并,呈現劉德華和張學友一起演的電影。


所以,在智能電視的應用上,對影視數據的更精細化的提煉,以及對上下文的準確理解,是語義理解當前的一個難點。小米電視的應用,已經是一個開始。


語義理解大有「錢景」:智能客服、商場導購、車載系統、機器人、音樂……


除了任務驅動的多輪對話系統,三角獸的專註的另一個領域是開放域聊天。和要解決用戶具體需求的多輪對話系統不同,開放域聊天指系統能對用戶的任何問題給出回應,它的目的更多的是建立情感聯繫,拉近和用戶的距離。


在陳華榮看來,未來,開放域聊天會成為多輪對話的標配,沒有前者,系統會顯得呆板、機械,也很難給人智能的感覺。而開放域聊天和多輪對話、智能問答在一起,可以在很多領域有很好的應用。現在,三角獸已經在幾個領域有了應用:


金融領域:恒生電子


三角獸為這家給證券、銀行、基金、期貨等提供技術支持的企業開發了客服機器人系統,為用戶解決開戶,股票、基金投資信息等服務。


三角獸的客服系統的優勢在於語義理解系統,可以分析非常多樣的用戶提問,理解用戶的真實意圖,然後對應企業問答庫中的答案。


零售領域:香港新世界

三角獸提供了智能問答和多輪對話系統。比如在商場中,系統會推薦熱門的餐廳,也會在用戶提問時,通過進一步的引導,來明確用戶想要吃中餐、西餐,或者一人食還是聚餐的需求。


目前,該服務主要通過微信公眾號提供。系統還集成了開放域聊天技術,用戶也可以進行閑聊。


媒體領域:光明網


兩會期間,三角獸為光明網的「小明AI兩會」提供了技術支持(詳見雷鋒網之前的報道),分析了 40 多萬篇有關媒體報道和官方報告對其進行訓練,從29萬個辭彙中挖掘出近5000 個與兩會相關的關鍵詞,並據此整理出針對每一位代表委員的個性化報道。


車載環境:威馬汽車


主要是威馬汽車車載前裝音樂和導航模塊。在陳華榮看來,車載環境是語義理解應用非常好的垂直領域。因為這個環境里比較封閉,用戶的需求無外乎導航、尋找附近的銀行、餐廳,打電話等。


2015年,有一款叫Vinci的所謂智能頭機的產品,吸引了很多關注,但也引來了不少非議。現在,Vinci已經轉而主打語音交互,其背後的語義理解技術,同樣由三角獸提供。陳華榮還透露,三角獸正在與另一家大公司合作,更深入地進入音樂和智能音箱行業。


未來,讓銀行網點中不再需要櫃檯人員,以及對老人、小孩進行情感陪護,抑或通過IoT設備,通過自然語言的方式控制各種傢具設備,都是三角獸的目標。


雷鋒網原創文章,網站轉載請至雷鋒網官網申請授權。但,歡迎轉發分享~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

深度:「光語者」阿里技術總監謝崇進:我對摩爾定律的承諾
微軟承諾Windows 10一年兩更,從Redstone 3開始

TAG:雷鋒網 |

您可能感興趣

一線電影咖開始走下神壇接拍電視劇,陳坤黃曉明黃子韜,你看好誰
蔣介石為何在電視劇中都是光頭?原來我們一直都被電視劇騙了!
主人愛看電視,狗狗也成為電視迷,網友:如果將電拔了怎麼辦
主人愛看電視,狗狗也成為電視迷,網友:如果將電拔了怎辦
劉星爸爸真的牛,熱播電影電視劇中都有他,這眼光沒誰了
如果「王者榮耀」拍電視劇,哪些英雄會成為主角?
從范冰冰溜到林心如,電視劇《東宮》女主竟是個網紅,可惜眾配角
《如懿傳》未播被曝抄襲,為何抄襲的小說頻頻被拍成電視劇?
電視劇《東宮》還沒開拍,網友的吐槽就滿了!
漫威電影宇宙和電視宇宙二合一?這可能不再是夢想
章子怡周迅陳坤,電影咖為啥都來拍電視劇了?
二哈在家喝酒看電視,主人電話響後,行為亮瞎網友!
黃子韜也開始拍電影和電視劇了,為什麼沒人說他是小鮮肉?
電視劇《古劍奇譚2》看到女主角穎兒劇照都想棄劇了!
對話看尚劉斌:激光電視能否成為大屏電視的未來?
這些被網友吐槽為後悔看過的電影和電視劇,你看過幾部?
從書模到微電影,再從電視劇到大銀幕,吳倩每一步都用演技來充實
一部電視劇,你拍得跟電影似的真的好嗎?
這部電視劇剛播出一天,主演黃磊就快哭了!