有屏智能設備的多維對話：延遲和指令呈現

科技 07-24

本文轉載自：百度人工智慧交互設計院

7月4日、5日，第二屆百度AI開發者大會在北京舉行，此次大會還首次舉辦了AI設計論壇，論壇上除了發布機器人自然情感人機交互模型 NIRO，還從交互的角度解讀了AI 時代的環境、用戶行為變化以及用戶體驗的新特點，同時宣布與湖南大學達成戰略合作，共建聯合創新實驗室及博士後基地，探索中國AI時代的設計。

論壇結束後百度AI交互設計院更是馬不停蹄，馬上發布《多維對話——走向視聽融合的語音交互新體驗研究》新的研究報告（全文如下），彰顯了他們紮實的研究實力，視聽融合的語音交互，在聽覺的基礎上融入視覺信息彌補語音交互的不足，從育嬰向視覺延伸，已經是業界探索下一代語音交互範式的重要趨勢。

過去四十年，人與機器的交互方式在不斷進化，幾乎每十年就會有一次重大革新。來到人工智慧時代，生活中越來越多的設備開始支持語音交互，語音交互逐漸成為人們傳達意圖和與設備交流的優先選擇（Voice First）。與傳統交互相比，語音交互解放了雙手和雙眼，人們可以低成本與設備互動；而且，語音是多維的，除了言語本身的信息，言語中還蘊含著豐富情感，允許人們與設備進行更充分的互動。

語音交互也有局限性。語音交互是非可視化的，容易增加人們的記憶負擔，設想語音查詢信息的場景，你可能需要集中精力聽，如果不留神就容易錯過一些內容。鑒於此，正如人工智慧專家吳恩達提到的，人與機器交流最高效的方式是語言，而機器與人最高效的交流方式是語言加上視覺，即需要在聽覺基礎上融入視覺信息彌補語音交互的不足。從語音向視覺延伸，在語音交互中融入可視化信息，已經是業界探索下一代語音交互範式的重要趨勢。以智能音箱為例，除了無屏音箱以外，市場上開始出現帶屏幕的音箱。

百度人工智慧交互設計院本期以有屏智能設備為研究對象，聚焦語音交互反饋和內容輸出環節的體驗。考慮到屏幕尺寸差異可能對反饋和內容輸出體驗的影響，研究選擇了兩種不同屏幕尺寸的設備，分別是智能音箱（7英寸）和智能電視（55英寸）。本期的主要研究問題包括：

1）有屏設備的指令上屏反饋體驗，主要指用戶輸入語音指令後，文本指令上屏的延遲時間以及文本指令在屏幕上呈現的合理時間；

2）有屏設備內容輸出的音量干擾體驗，主要指用戶在特定場景下（如聽音樂/看視頻），插入其它任務後（如查詢百科），不同內容輸出時的音量合理設置。

一、有屏設備的指令上屏體驗研究

與無屏設備相比，顯示屏的融入使語音交互過程有更豐富的反饋形式。以語音識別階段為例，在無屏設備上，用戶通常無法直接知道輸入指令的識別結果。而有屏設備直接在屏幕上顯示指令的識別結果，用戶可以方便的查看識別結果的正確或錯誤情況，例如上屏後的指令」我要聽周杰倫的青花瓷」。然而，目前很多設備在指令上屏時存在一定程度的延遲現象，本實驗對指令上屏合理的延遲時間和呈現時間進行研究。

1、指令上屏延遲時間實驗

由於市場上的有屏設備多數採用實時上屏方式，即用戶輸入語音指令的同時就開始在屏幕上呈現識別結果，因此，本實驗只研究實時上屏。在實驗中我們使用實時逐字上屏的方式，並以控制首字上屏延遲時間為主要變數（註：首字上屏延遲時間指從用戶開始說到第一個字上屏的時間間隔），我們設置了不同的首字延遲時間，以此獲取用戶對指令上屏速度的滿意度評價（5點量表：1-非常不滿意，2-比較不滿意，3-一般，4-比較滿意，5-非常滿意）。在實驗中，我們分別提供了3種不同長度的指令。

實驗結果表明，首字延遲時間越短，用戶的滿意度越高，不同屏幕尺寸設備的首字延遲時間滿意度略有差異，我們將」4-比較滿意」看做用戶滿意的得分下限，將」3-一般」看做用戶可接受的得分下限，不同設備間用戶滿意和可接受的上屏時間如下：

1）對於有屏音箱，用戶滿意的首字延遲時間下限在500ms左右，可接受的首字延遲時間下限在1500-1600ms左右；

2）對於智能電視，用戶滿意的首字延遲時間下限在600-700ms左右，可接受的首字延遲時間下限在1100-1200ms左右；

結合對市場上其它設備的研究發現，部分設備的首字上屏時間明顯比用戶滿意的時間下限長，少數甚至比可接受的下限還要長。關於指令上屏速度，產品仍有改善和優化的空間，即語音識別ASR（Automatic Speech Recognition）技術除了在不斷提升識別準確率以外，同時也需要關注識別速度指標的提升。

2、指令上屏延遲時間實驗

除了指令上屏時間，我們進一步對指令上屏後合理的呈現時間進行研究，以避免指令呈現時間太短導致用戶無法看清，或者呈現時間太長導致整個交互過程拖沓冗餘。在實驗中，我們以文字呈現時間為主要變數（註：文字呈現時間指文本指令最後一個字上屏後到全部指令消失的時間間隔），獲取用戶對不同呈現時間的滿意度評價。由於語音識別涉及語言模型技術，實際的指令上屏並不是逐字的方式，因此，本部分實驗我們也模擬了逐塊上屏的方式，以指令」我想看劉德華2010年以前主演的香港電影」為例，」劉德華」被整體識別後才上屏。在實驗中，我們也分別提供了3種不同長度的指令。

實驗結果表明，存在最優的文字上屏呈現時間，不同屏幕尺寸設備之間，最優的文字上屏呈現時間無顯著差異。不同上屏方式間存在差異，逐字上屏和逐塊上屏的最優呈現時間分別如下：

1）逐字上屏方式下，最優的指令呈現時間為200-500ms的區間；

2）逐塊上屏方式下，最優的指令呈現時間為400-700ms的區間。

由於逐塊上屏方式更接近真實產品的上屏方式，因此建議主要參考400-700ms的呈現時間。需要說明的是，由於實時上屏的方式允許用戶在輸入語音指令過程中就可以查看已經上屏的文字，這與整體識別後上屏的方式明顯不同，因此，如果產品採用的是整體識別後上屏的方式，不建議參考本部分實驗的結論。

二、有屏設備的音量干擾體驗研究

有屏設備除了使語音交互有更豐富的反饋以外，屏幕的引入也擴展了設備過去不具備的功能，例如視頻內容消費和視頻通訊能力等。同時設備的使用也在經歷從過去單一任務到多個任務的變化，當看視頻時，你可以隨時插入任務查找信息，例如看電視劇《扶搖》時查詢演員楊冪的信息。本部分實驗主要研究用戶插入任務後，前景內容和背景內容間的音量干擾體驗，如當前景內容正在語音播報信息時，背景視頻或音樂的合理音量範圍，以避免過高的背景音對用戶獲取信息產生干擾。

1、音量干擾實驗

在實驗中，用戶被要求分別在看視頻和聽音樂兩種場景下進行信息查詢。我們設置了兩種初始音量（註：初始音量是用戶看視頻/聽音樂的音量）：60和65分貝，用戶查詢人物或百科信息後，通過設置不同的背景音量（註：此時前景內容為語音播報信息，背景內容為視頻或音樂），獲取用戶對背景音量的滿意度評價。同時結合實驗後問卷了解用戶對前景和背景信息展示的態度。由於不同設備間音量刻度範圍存在差異，實驗中對有屏音箱和智能電視的背景音量進行了分別設置。

實驗結果發現，無論背景是視頻還是音樂，用戶都不喜歡背景完全靜音（註：下圖中」0」代表背景完全靜音）。針對有屏音箱和智能電視，當初始音量約為60分貝時，背景音量舒適範圍略有差異，具體結果如下：

1）針對有屏音箱，背景視頻音量下降至36-53分貝範圍，背景音樂音量下降至39-56分貝範圍時，用戶主觀感覺較舒適；

2）針對智能電視，背景視頻音量下降至39-53分貝範圍，背景音樂音量下降至36-53分貝範圍時，用戶主觀感覺較舒適。

實驗中我們同時研究了初始音量為65分貝時背景音量的舒適範圍，因實驗結果與上述趨勢基本一致，篇幅所限，暫不一一展開。

此外，結合實驗後的問卷調研結果發現，關於背景的播放狀態，背景為音樂時用戶更傾向繼續播放，而背景為視頻時有屏音箱端傾向視頻暫停的用戶更多。主要是由於有屏音箱端背景視頻被完全覆蓋，因此，用戶認為背景視頻暫停較好，以避免錯過感興趣的視頻內容。

關於前景內容的播放狀態，無論屏幕尺寸差異和背景媒體類型，多數用戶希望能夠對前景信息進行語音播報，而不僅僅是在屏幕上以文字或圖文的形式展示。

三、小結

本文針對有屏設備的語音交互體驗進行研究，重點探索整合視覺系統後交互反饋和內容輸出環節的體驗問題。對指令上屏的延遲時間和指令呈現時間給出了我們的研究結果和設計建議，以及不同內容輸出時前景和背景的合理音量設置等。

從語音向視覺的延伸，語音交互的邊界和外延仍將不斷變化。語音交互與傳統的交互方式並不是互斥的、非此即彼的關係，未來的人機交互將融入聽覺、視覺、觸覺、味覺、嗅覺等多模態的交互方式。未來的交互範式必然不是這些交互方式的簡單堆砌和羅列，而是在考慮特定場景、人的因素、環境條件等因素後有序的、合理的組合和設計。百度人工智慧交互設計院也將會持續的關注多模態交互領域的研究和設計，並不斷輸出我們的研究成果和觀點。

未來，語音交互，我們一起探索和進步。

—完—

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※北京科技大學人工智慧研究院成立
※美國人民：機器人好棒棒，花錢買一個？1000塊不能再高了

TAG:量子位 |