當前位置:
首頁 > 科技 > 無障礙的新定義,一種確保用戶意圖被理解的交互

無障礙的新定義,一種確保用戶意圖被理解的交互

如何讓聽障人群接聽電話,如何讓語言障礙人群與外界對話?在腦機介面技術並不成熟的現階段,要想完成這種不可能之事,就要指望人工智慧和機器學習了。

無障礙的新定義,一種確保用戶意圖被理解的交互

▲ Live Transcribe

今年 2 月,Google 在 Android 手機上推出的 Live Transcribe 應用程序,再到 5 月的 Google I/O,發布了能夠實時轉錄語音 / 文字支持通話的 Live Relay,以及能夠為語言障礙者實現語音轉寫的 Project Euphonia 項目。

在「幫助人們更好地溝通」這件事情上,這些應該是人工智慧目前最前沿,並且能廣泛應用的進展了。

應該是目前世界上最先進的語音識別應用產品

Live Transcribe

Live Transcribe 是 Google 針對耳聾及聽力障礙人群開發的一款免費 Android 無障礙服務。基於此前在自動語音識別技術(ASR)的研究,Live Transcribe 將自動生成字幕的功能引入了手機設備。

無障礙的新定義,一種確保用戶意圖被理解的交互

▲ 較亮的內部同心圓代表雜訊層,外部同心圓表示手機麥克風對說話人聲音的接收狀況。

使用 Live Transcribe 的場景是這樣的:打開 Live Transcribe 這個軟體後,它會實時讀取外界的語音,並實時講語音轉錄成為文字,在手機屏幕上顯示出來。即使是說話者大笑、吹口哨等細節,也會有相應的文字提示。

也就是說只需一部聯網的手機,便可實現實時的語音轉文字功能。目前該軟體已經支持超過 70 種語言。

但 Live Transcribe 的實時轉錄,不僅需要手機設備上的神經網路做聲音分類,還需要依賴雲端的三個神經網路模型,去完成語音轉錄成為文字的過程。

無障礙的新定義,一種確保用戶意圖被理解的交互

▲ Sagar Savla 在展示 Live Transcribe

在愛范兒向 Google AI Research Group 產品經理 Sagar Savla 問及,何時 Live Transcribe 才能實現完全在本地運行、不依賴雲端網路時,他告訴我們:


我們正在做這樣的工作,但目前沒有準確的時間表。比如像中文這個語種,需要很大的模型,要想把很大的模型融入到終端設備並且保證其準確性,是很有挑戰的。

Live Relay

Google 在今年的開發者大會上展示了 Live Relay 的能力:如何在聽不到或者沒法開口說話的情況下,輕鬆地打電話。

如果你因為語言障礙、社恐、拔牙等各種情況沒法開口說話,在 Live Relay 的頁面輸入單詞,這個文本會被迅速轉換為音頻,發到另一個人的手機上。

無障礙的新定義,一種確保用戶意圖被理解的交互

如果你因為聽力障礙、身處噪音等情況沒法聽到聲音, Live Relay 也可以把通話對方的語音轉錄成為文本。

目前 Live Relay 依然處於研究階段,只能在特定的 Pixel 手機上使用,並且暫時只支持英文。

Live Relay 將完全在設備上運營,通過使用設備上的語音識別和文本到語音識別功能。

藉助即時響應和預測性輸入建議(smart relay 和 smart compose),打字速度提高後是可以與電話呼叫保持同步的。

在我看來,雖然 Live Relay 被歸類到 Google 的無障礙項目,尤其為聽障用戶提供幫助,但其實很多人也可能用得上。比如在開會時突然接到重要電話,沒法跑出去接聽,那麼 Live Relay 就能派上用場了。

Project Euphonia

據統計,漸凍症、多發性硬化症、腦外傷、中風等神經系統疾病的患者,通常也會出現語言障礙,外界通常沒法理解這類人群說的話,以及表達方式。

Euphonia 項目在為語言障礙人群建立語音識別模型,以及能夠識別手勢、眨眼、面部表情等基於計算機視覺的模型,幫助他們更好地與外界溝通表達。

他們通過與漸凍症組織合作,訓練 AI 去學習和識別漸凍症患者的聲音,從而實現對他們發音的轉錄。

與此同時,他們還在正對特定的患者,訓練個性化的 AI。

比如被診斷患漸凍症十多年的 Steve Saling,受特殊訓練的模型可以識別出他看體育賽事時的臉部表情,從而確定他想要對外表達的情緒。

無障礙的新定義,一種確保用戶意圖被理解的交互

在他想喝彩時,電腦會發出吹喇叭(airhorn)的聲音;喝倒彩時,則發出噓聲(boo)。

Euphonia 項目的產品經理 Julie Cattiau 表示,他們所面臨最大的困難是收集語音樣本。因為有語言障礙的人在人群中佔比不高,並且經常是有特定需求的,所以他們依然在招募尋找適合做這種語言識別研究的人。

無障礙的新定義:確保每個用戶意圖都被理解

尚有餘力的科技公司,在產品設計、開發的時候都會或多或少地考慮信息無障礙(Accessibility)。

某種程度而言,信息無障礙是智能產品交互設計中針對特殊人群的一個功能,它可以讓人們更加平等地享用產品在硬體和軟體上的各項功能。

無障礙的新定義,一種確保用戶意圖被理解的交互

科技產品中的「無障礙」,相當於互聯網世界中的盲道、扶手、助聽器、義肢。

無論是 Android、iOS 系統中的無障礙功能菜單、讀屏功能、放大鏡功能、反差顏色設置,還是一些 app 接入了無障礙套件、為功能按鈕添加「標籤」,這些都是很基礎的無障礙用戶體驗。

基礎的無障礙用戶體驗,是為了讓用戶能夠更準確接收到手機、電腦、app 等產品所發出的信息。

而 Google 藉助人工智慧和機器學習,讓無障礙從「用戶準確接收機器信息」,向「確保用戶意圖被機器理解」進化迭代。

無障礙的新定義,一種確保用戶意圖被理解的交互

這也意味著,「無障礙」在未來將是一種新的人機交互方式。它可以為特定人群展示提供更多的信息,也在讓用戶更便捷迅速地操作,更重要的是向「讓我來幫助你完成」演化。

技術的發展在重新定義「無障礙」,也對產品、科技公司提出了新的要求。一個能將無障礙體驗做好的產品,通常也能為普通用戶提供更好的體驗。

題圖來自:searchenginejournal.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 愛范兒 的精彩文章:

入海 10928 米,這塊手錶刷新了下潛記錄
吳軍:今天的 Google,這是一個頗為平庸的公司

TAG:愛范兒 |