當前位置:
首頁 > 知識 > 尖叫連連!這是谷歌I/O帶來的新驚喜:智能助手零延遲對話、3D鯊魚「上舞台」

尖叫連連!這是谷歌I/O帶來的新驚喜:智能助手零延遲對話、3D鯊魚「上舞台」

機器之心報道

機器之心編輯部

北京時間 5 月 8 日凌晨,一年一度的谷歌 I/O 大會在加州山景城如期開幕。今年的大會上,除了常規的安卓 Q 版本更新以外,新手機和「家庭智能設備中心」Nest Hub 顯得更加引人注目。而去年驚艷的「能和人打電話的 AI」Duplex 也有了新升級。

前有微軟 Build 大會推出多個重磅產品,谷歌 CEO 桑達爾·皮查伊並不希望被搶去風頭。在陣陣掌聲中,一個又一個新應用與新產品呈現在了人們的眼前。

「今天我們發布的新產品和設備,有關你的工作、你的家庭和你的生活。」皮查伊在大會 Keynote 開場白中表示。

「鯊魚上舞台」的谷歌搜索

搜索,是谷歌的核心業務。Pichai 首先介紹了谷歌搜索添加的新特徵。

去年,谷歌發布 Google News 新特徵 Full Coverage。如今谷歌把 Full Coverage 功能加入到了搜索中,從而更好地組織與搜索主題相關的資源。以搜索「黑洞」為例,谷歌使用機器學習識別不同類型的文章,全景展示與搜索詞條相關的故事。此外,Podcasts 也將融入到谷歌搜索中。

但谷歌搜索最令人尖叫的新特徵是視覺展示。使用計算機視覺與增強現實,谷歌進一步強化了搜索體驗:3D。

例如搜索大白鯊,查看 3D 模式,然後可以直接把它搬到舞台中央!

當然,這一功能並非只是噱頭,它還有很強的實用性,例如購買鞋子時,可以把 3D 展示拉入現實場景,看鞋子和自己的衣服是否搭配,從而提升購物體驗。

搜索,只是計算機視覺技術應用的場景之一。從今天的大會上,我們可以看到谷歌在 CV 上的研究已經融入谷歌的產品生態中,例如通過 Assistant、Camera 等 APP,用戶可以藉助 Google Lens 識別菜單中的熱門菜品;通過 Google Go,翻譯圖片中的外語,並進行語音誦讀。

接管一切的智能助手

介紹完了視覺相關應用,進入語音部分。

去年的 I/O 大會上,Google Duplex 和人類打電話訂餐館的表演震驚了世人。但當時 Duplex 只能通過手機語音訂餐館,今年穀歌把該功能升級成為 Duplex on web,讓人工智慧可以幫助你在電腦和手機上自動訂餐、訂機票、打車了。以打車為例,新版的 Duplex 可以自動填充乘車人信息,使用者只需根據需要作出修改並確認即可。

此外,谷歌在模型壓縮方面的研究也有了回報。Pichai 介紹了谷歌取得的一項新的里程碑,近年來深度學習的發使得谷歌能夠把 100GB 的語音識別模型壓縮到 0.5GB,從而讓 Google Assistant 在移動端變得更快。

有多快?移動端實時識別語音速度提升 10 倍!谷歌工作人員的演示引起了現場觀眾的陣陣尖叫。

今天的語音助手和人的對話已經接近自然,在與 Google Assistant 對話中,用戶不在需要每次說「hey,Google」喚醒詞,且能跨越手機上的 APP 工作,例如在簡訊對話框讓 Google Assistant 搜索一張圖片發給好友。

此外,Google Assistant 還加入了一些新功能,例如 Personal References 能夠為你優化溝通結果;通過說"Hey Google, let"s drive.",開啟谷歌助手駕駛模式,不過這個功能要在今年夏天才會到來。

預計在今年下半年新的 Pixel 手機中,你就能看到新一代的 Google Assistant 了。

模型偏見與數據隱私

「以隱私與安全為核心,開發我們的技術」,這是 Pichai 介紹過前面如此多強大的 AI 應用之後強調的重點。

隨著深度學習在我們日常生活中的應用越來越普遍,我們不得不重視神經網路的一大問題:模型可解釋性。在使用大量數據訓練深度學習模型時,一個普遍的擔心是它們會學習到人類所擁有的偏見。

為了保證 AI 模型不會學習到這種偏見,谷歌做了大量研究提升模型透明度。

首先,Pichai 介紹了谷歌曾發布的一種方法:TCAV。

以識別斑馬的模型為例,使用了 TCAV 方法,能夠理解每個概念 (如條紋)對模型預測的重要性。

TCAV 相關論文:https://arxiv.org/pdf/1711.11279.pdf

除了提升模型透明度,谷歌建立「AI for Everyone」的另一種方式是保證產品的安全與私密性,讓人們清楚、明白數據所帶來的選擇。

從 2004 年到 2018 年,谷歌為其所有的產品添加了大量安全保護特徵,包括 Google Takeout、Activity Controls,以及如今谷歌賬戶的自動(數據)刪除設置、谷歌地圖的匿名模式。

「我們想要使用更少的數據,為用戶做更多的事。」聯邦學習為谷歌的這一願景提供了解決方案。

2016 年,谷歌提出聯邦學慣用於解決安卓手機終端用戶在本地更新模型的問題,從而保障數據交換時的信息安全、保護終端數據和個人數據隱私,保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

以谷歌 Gboard 為例,單獨的設備上學習無法為用戶主動推薦經常用到的辭彙,但加上聯邦學習,就能在用戶多次使用相關辭彙之後自動推薦。如今,大量設備的 Gboard 都已經使用到了聯邦學習,在輸入時為用戶推薦單詞與表情。

安卓 Q:加入防沉迷功能

在搜索之外,安卓(Android)系統是谷歌今天成功的重要原因之一。在 I/O 大會上谷歌透露,今天全球約有 25 億台正在運行的安卓設備。它已經成為了谷歌以及大多數其他公司部署新應用最優先的平台。如谷歌 AI 語音助理、人工智慧圖像識別產品等。Android 也是 Wear OS、Android Auto 和 Google 的流媒體電視平台 Android TV 的基礎。

Beta 版的安卓 Q 已經在一些開發者手中出現一段時間了,其中包括廣受人們歡迎的系統級暗色模式。在華為和三星推動下,安卓 Q 也加入了對摺疊屏手機的完整支持:在打遊戲的時候,手機在副屏幕和主屏幕(摺疊屏)上可以無縫立即切換顯示。谷歌智能推薦功能現在已經可以預測你下一步的動作了。而「設備上學習」功能的存在可以讓手機越用越聰明。

手機好用,但過於沉迷也不是好事,谷歌特意在安卓 Q 中加入了 Focus Mode,可以讓用戶選擇屏蔽郵件、信息的提示。谷歌表示在美國,孩子開始接觸手機的年齡已經下降到 8 歲左右了。安卓 Q 也引入了家長模式,可以讓父母觀察孩子們的手機使用了哪些應用,並控制他們的使用時間。

安卓 Q 上內置了 Live Caption 功能,可以為任何手機正在播放的視頻實時顯示字幕,這是此前幫助聽障人士的功能 Live Transcribe 的升級版,適用於從 Youtube 視頻到相冊中視頻的任何視頻內容。「它不僅可以幫助聽障人士無障礙地接觸更多信息,也可以在普通人不方便打開聲音的時候安靜地觀看視頻。」桑達爾·皮查伊介紹道。

值得一提的是,Live Caption 功能可以完全在設備端運行,在不聯網甚至飛行模式下也可以實時生成字幕。這得益於谷歌在設備上機器學習方面取得的突破,他們將模型進一步縮小,使得數據可以直接在客戶端進行處理,無需離開手機上傳到雲端,可以有效保護用戶隱私。

隨著 I/O 大會的召開,安卓 Q 的第三版測試也已開始,首批將在這些品牌的手機上出現,其中包括華為、小米、vivo、oppo 和一加。

由於 Beta 版是面向開發者的,在安裝前請三思而後行,除了所有 Pixel 手機之外,安卓 Q Beta 3 還支持華為 Mate 20 Pro、小米 9、一加 6T 等機型。Google 讓 Pixel 所有者只需使用谷歌賬號登錄,然後選擇兼容測試版的相應設備即可加入測試階段。你可以通過這種方式獲得測試版更新,就像通常用於穩定版本的系統一樣。

「平價版」Pixel 手機

谷歌從未在 I/O 大會上發布新手機,但今年是個例外。今天,谷歌在 I/O 大會上發布了 Pixel 家族的兩款新機 Pixel 3A 和 3A XL,並表示,這是為了讓全球更多人能夠接觸到最先進的人工智慧技術。

谷歌首次在 I/O 大會上開了場「手機發布會」,推出了 Pixel 3a 和 3a XL。

Pixel 手機永遠不是硬體配置最好的那一個,不過它總會最先得到谷歌官方帶來的新技術應用,如 Duplex、Night Sight 等。這些功能不受手機硬體的限制,更多的是谷歌的開發水平和利用人工智慧能力的體現。谷歌特別提醒道:Pixel 3a 將會得到谷歌未來三年內所有新技術升級的保證。

兩款手機都有相同的背面指紋識別、1220 萬像素單攝像頭(前攝像頭 800 萬像素)以及 OLED 屏幕,尺寸分別為 5.6 寸和 6 寸,電池容量分別為 3000mAh 和 3700mAh,據說可以至少滿足「長達 30 小時的使用時間」。兩款手機都有黑白粉色三種顏色可選。

在最重要的配置上,Pixel 3a 和 Pixel 3a XL 搭載驍龍 670 處理器,運存 4G,存儲容量 64G。

谷歌希望新技術可以為更多人服務,但發現當今的高端手機越來越貴了,因此希望讓 AI 技術能夠在普通配置的手機上也能呈現。新手機就是這種思想的載體。

「Pixel 3a 保留了 3.5mm 耳機介面,並使用 AI 演算法讓單攝像頭在各種光線下保持高拍照水準。」谷歌產品負責人 Sabrina Ellis 表示。在谷歌的展示中,低光、景深虛化、超解析度等其他手機需要雙攝像頭、甚至三攝四攝實現的功能,在 3a 上都可以通過高效率的演算法來完成。

使用 Pixel 就意味著可以搶先體驗谷歌最新發布的各種應用,現在你已經可以用谷歌地圖 AR 顯示巨大的虛擬路標用來導航了。

Pixel 3a 和 3a XL 的售價分別為 399 美元和 479 美元(摺合人民幣 2700/3250 元),講道理這樣的價格已經可以在國內買到很多品牌的驍龍 855 級旗艦機了,可能只有喜歡嘗試谷歌新 app 的玩家才會去買吧。

進軍智能家居

谷歌重組了智能家居的產品線,將所有產品都集中在 Nest 旗下,希望能夠讓自己的智能家居設備覆蓋 5 歲到 95 歲的人群。Nest Hub Max 是谷歌這次在 I/O 大會上推出最具特色的新硬體,它是谷歌的 10 英寸屏幕版本 Home Hub,是一個帶有攝像頭、大屏幕的智能音箱,它將成為智能家庭的控制中心,也可以作為監控攝像頭或者視頻通話設備。

與其他廠商聲紋識別區分用戶的方式不同,谷歌有一個基於人臉識別的 Face Match 功能:不同的人在 Nest Hub Max 的屏幕上看到的內容都是他們專屬的。

大屏幕也讓 Hub Max 可以當做一個「廚房電視」,放音樂或者用視頻教你做飯。有攝像頭的音箱也可以加手勢識別功能,如果你的電話來了想停止音樂,沖它抬一下手就行了。

助力殘障人士

在過去的一年裡,谷歌曾因與政府合作軍事項目而備受指責,讓人懷疑谷歌變了,不再是那個堅持「不作惡」的谷歌了。在今年的 I/O 大會上,谷歌似乎竭力挽回其社會形象,致力於打造「人人可用的產品」(Accessible products for Everyone)。

大會中,谷歌多位負責人強調了其產品的可及性以及對人的幫助,尤其是對殘障人士的幫助,其代表產品包括 Live Transcribe、Live Caption、Live Relay、Project Euphonia 等。

前面已經提到,Live Caption 和 Live Transcribe 都是語音轉文字的應用,可以幫助到全球 5 億的聽力障礙者。

一位聽力障礙人士在利用谷歌的 Live Transcribe「聽」其他人講話。

Live Relay 是一款幫助聾啞人士接電話的應用。電話接通後,語音助手會將聾啞用戶想要表達的內容生成語音展現給對方,同時將對方的語音信息轉換為文字呈現給聾啞人士,將電話界面轉換成了聊天窗口。這款應用也適用於漸凍症等特殊疾病人群。

Project Euphonia 是專為中風、口吃等語音不清晰的人群打造的項目。這些人無法使用普通的語音模型,需要對模型進行個性化訓練。研究人員收集了大量來自目標人群的語音數據,使得這類人群也能用上谷歌最新的語音技術,提高其產品的可及性和公平性。

Bert 太牛,上台吹一波!

在今天上午的 keynote 中,最後上台的是 Jeff Dean 大神,這在之前的谷歌 I/O 中極為罕見。

在一片掌聲中,Jeff Dean 介紹了谷歌 AI 近來取得的新成果,特別是在自然語言理解方面。Jeff Dean 說,「我們想要計算機有人類一樣流暢的語言能力」。因此過去數年,谷歌 AI 在這方面做了大量工作,特別是 2017 年提出 Transformers,取得了極大進步。

後來,在 Transformers 的基礎上,谷歌提出 Bert,在 11 種語言處理任務上都取得了頂尖成果,引發業內巨震。如今,Bert 模型廣為人知……

除了 Bert,Jeff Dean 在演講中簡略提及了 TensorFlow 框架,谷歌 AI 醫療團隊的 Lily Peng 介紹了一項她們在醫療領域的最新研究成果:從 CT 圖像識別肺癌,相關論文將發表在 Nature Medicine 期刊上。

小結

未來你的生活或許會是這樣:早晨,在廚房打開 Nest Hub 的食譜學做早餐,打開 Pixel 手機看到明天要去的城市,使用 Duplex 租一輛車,谷歌地圖會幫你計劃好行車路線——而在整個過程中,你不需要動一個手指。這就是谷歌 I/O 大會為我們展示的 AI 智能時代新體驗。

本文為機器之心報道,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

關於GAN的靈魂七問
圖解人工智慧,這群大學生做了個有趣的交互項目(中文版)

TAG:機器之心 |