有時覺得自己活的像個智障AI,總是接不來話茬子
小鹿創萌
聚焦「雲物大智」,提供前沿科技報道。
晚上下班回到家,你隨口說了句,「今天上班好累」。
你的家人會體貼又自然地說,「那今晚別做飯了,咱們出去吃?」
然而,你能想像人和機器之間產生如此對話的默契嗎?
(你不會是想說Siri吧)
設想這樣一個場景:你吃著東西滿手都是油,這時你突然想聽一首歌,於是你對智能音響說:
- 給我放首 Justin 的歌。
- 是Justin Timberlake,還是Justin Bieber?
- Justin Bieber。
- 你是想聽他最新的歌曲、還是榜單位置最高的歌曲、還是播放次數最高的歌曲、還是點贊次數最高的歌曲?你想從 Spotify 播放、還是 YouTube 播放、還是 iTunes 播放?您想聽播放量最高的視頻、還是評論數最高的視頻、還是好評率最高的、還是最新視頻?
……
「人工智慧」,究竟何時才能真正聽懂人話?
矽谷的初創公司 Mosaix ,就一家想讓AI真正實現「智能」的公司。
人和人交流,是從耳朵(聽到別人講話)、到大腦(明白別人的意思)、再到用手腳執行大腦發出的命令。
人和機器交流也一樣:先到機器的 「耳朵」,也就是負責聽懂我們人類到底在說些什麼的語音技術;再到負責理解這句話意思的大腦;再到執行命令,也就是連接各種服務。
目前,語音喚醒、語音識別之類的技術已經比較成熟,機器已經能夠比較準確地把我們人類說話時發出的聲音變成一句話。
然而,機器之所以經常聽不懂我們人類說話,是因為我們說的很多話無法被翻譯成一個可以執行執行的命令,也就是 「語義缺失」。
如果你對機器說,「找下五公里內最便宜的加油站」,那麼這句話已經包含了機器語言所有的要素:
先以你的位置為圓心、畫個半徑為五公里的圓,然後把所有商家都找出來,再按商戶類型過濾出加油站,選出價格最低的一個,完美搞定。
「找下五公里內所有加油站」 這句話,和機器所熟悉的語言很像、沒有缺失的語義,所以機器能直接把這句話翻譯成它能執行的語言。
但當機器聽到 「今天上班好累」 這種非常抽象的話時,內心是茫然而懵逼的。我是誰?我在哪?你想讓我做什麼?
GIF
Mosaix團隊要做的,就是想幫機器把缺失的語義填進句子里,讓機器可以理解人類抽象模糊的意思,理解背後的邏輯,從而舉一反三,變成人類貼心的好夥伴。
並且,他們希望Mosaix 除了能理解人類說話的意思,還能在聽懂後完美地執行接下來的動作。
比如你說,「來首 Justin Bieber 的歌」,這時Mosaix自己能決定從哪兒播放這首歌、從哪兒獲取信息。如果你說你想看劇,它甚至會知道你買了愛奇藝的會員,接著自動去愛奇藝給你搜劇。
GIF
這看上去似乎已經離智能不遠了。但,如何讓Mosaix聽懂「今天上班好累」呢?
Mosaix 團隊給出了解決方案:結合聲控搜索引擎+個人語音助理,以其 App 為入口,用它的雲端服務連接電視、汽車系統、音箱等各種設備。
比如你在洗碗時,對著帶有麥克風的智能音箱說,「給我來點帶勁的」。音箱聽到這個指示,懵逼了一會兒,便問在後台運行的 Mosaix:「 『給我來電帶勁的』 這句話啥意思?」 Mosaix 分析一番,弄明白意思後,就會告訴音箱放哪首歌。
這樣的配合之下,無論你用什麼設備發出請求,請求都會匯總發給 Mosaix,Mosaix在後端處理分析好後,再把答案發回去。接下來,你只用聲控就能聽歌、看電影、看新聞了。
有預測顯示,2020 年時全球 50% 的搜索將是語音搜索。互聯網雖然擁有所有答案,但常用谷歌的你一定明白,一旦你搜得不夠標準,比如用錯了關鍵詞,或者像平時和老師提問那樣在搜索框輸入一句完整的句子,就未必能準確搜索到想要的答案了。
可想而知,在互聯網上實現語音搜索的難度將會更大。給整個互聯網安上一個大腦,使它能夠聽得懂我們說的話,是人工智慧行業面對的一大難題。
Mosaix 公司要做的,正是想在 「讓互聯網聽懂人類說的話」 這個轉變過程中的助推者。他們的長期目標是未來某一天,人們能以更方便的模式,比如自然語言、或自然語言+屏幕交互等,接觸一個全新的、你直接說話它就能聽懂的互聯網。
素材來源:矽谷密探
編審:小鹿君
TAG:微軟南京孵化器 |