是誰成全了我們在吃雞、狼人殺里的實時互動？

科技 08-10

作者 | 唐小引

去年今月，筆者曾撰文一解實時通信技術（RTC）的前世今生，詳實地回顧了實時通信技術的演進歷程與技術痛點。如今一年已矣，我們經歷了直播答題的撒幣成兵，玩過了吃雞、狼人殺，還有微信帶著十幾億用戶生態大力扶持即點即玩的小遊戲、小程序。而另一方面，當 AI 集成進入晶元、系統成為軟硬體的基礎能力之時，我們在小米小愛、百度小度、阿里小蜜等智能音箱之間來回穿梭，這其中所有應用的共同特性都在於 —— 實時、互動。

從遊戲、直播到社交、教育，落地開花的實時互動應用

直播、遊戲這些自不必說，實時的音視頻傳輸是其最為主要的功能特性，尤其在社交需求極強的「休閑類小遊戲」、「競技類遊戲」上，更需要實時語音來增強社交屬性，以進一步提升玩家的遊戲時長和用戶粘性。而當實時互動提高了平台的活躍度和黏性，平台可以輕鬆地通過廣告、道具、會員等各種各樣的方式變現。

從直播連麥、直播答題到「吃雞」的語音對講、組隊開黑、狼人殺，再到最近有望成為風口的後狼人殺產品「劇本殺」，都是已經被市場印證過的實時通信與全互動直播應用場景。

縱覽 App Store，劇本殺 App 們均主打的實時語音連麥

舉個例子，在社交、直播等領域，已經擁有了視頻群聊、主播 PK、多人相親、語音電台直播、一起 KTV 等創新玩法，諸如陌陌等社交平台均上線了群組聊天、多個主播連麥直播、語音聊天室等玩法。而現在在社交直播中，同時還有動態實時濾鏡支持，通過實時追蹤人臉多個特徵點，實現實時動態貼紙、360°無死角美顏、自帶哈哈鏡和顏色濾鏡等功能。

而在教育行業，除了傳統的語言、K12 培訓類的 1 對 1、小班課之外，音樂陪練、STEAM 教學（集科學、技術、工程、藝術、數學多學科融合的綜合教育）也越來越多，通過語音識別、圖像識別、自然語言處理等技術，實現對兒童的陪伴和教育，達到寓教於樂的效果。

再看微信生態，早在去年 12 月，微信小程序便正式對外開放了實時音視頻錄製及播放功能，符合微信類目所要求的小程序在自助開通後，可自建或使用雲服務，實現單向和互動的音視頻功能，如視頻直播、互動直播、在線教育、視頻會議、遠程諮詢和視頻客服等。

小程序視頻連麥邏輯實現圖

細分一下，在小程序上可以實現以下更為豐富的使用場景：

線上課堂：1 對 1、1 對多的在線直播課，適用於職業教育、小班教育、學前教育等場景，實現老師、學生實時互動；

視頻會議：一秒快速建立多人視頻會議，實現高效遠程協作；

在線醫療：突破醫療資源的地域限制，以及系統平台限制，實現遠程多方視頻會診，降低診斷成本；

在線購物：直播展示商品，同時觀眾連麥互動，進一步促成交易；

VIP 客服：專屬視頻客服，1 對 1 實時交流；

銀行開戶：專用網路，無需安裝 App，通過小程序快速實現信息認證與視頻開戶；

遠程報警：從微信小程序實現一鍵報警，迅速連接相關部門，並通過實時視頻通信，使警方能實時掌控現場情況。

當實時互動場景已經隨處可見，開發者需要關注什麼？

不過，與實時相對的，在音視頻通信上一直存在著「低延時」問題。當音視頻實時通信的應用場景隨處可見之時，對於開發者來講，除了關注快速實現不同應用場景實時通信之外，更需要斟酌的是，實時音視頻傳輸延時應該如何保證「低延時」，在低延時的同時保證音視頻質量，才能滿足具體的應用場景。

對於這個問題，CSDN 專門採訪了在 RTC 實時通信領域深耕二十多年的資深專家 —— 聲網 Agora 創始人& CEO 趙斌，他表示，「當前，通過互聯網基礎設施，音視頻實時通信是可以進行的。但互聯網本身並不是為實時設計，因此通話質量基本是靠天吃飯。」

在音視頻傳輸過程中，不同階段都會產生延時

而聲網在實時傳輸、編解碼、視頻體驗等多方面都有著獨到的深度技術方案，比如自建了專門用於實時音視頻數據傳輸的 SD-RTN 實時虛擬通信網路，通過智能調度演算法來優化網路傳輸，讓即使是在跨國跨州的傳輸中都有低延遲的保證；以及自研的抗丟包音視頻編碼器 Agora SOLO，即使是在 50% 的丟包下，用戶都至少可以沒有障礙地聽懂對方所講的內容。

如上圖所示即為 Agora SOLO 的處理邏輯，將包分為 packet 1 和 packet 1』，如果接收端只收到其中一個包，那麼就實現一個有限失真的恢復，質量相對稍差。如果收到 packet 2 和 packet 2』，便將兩個包合起來實現一個高質量的解碼。默認無需等待對當前網路丟包狀態的統計，只需直接將抗丟包做到編解碼內部。由此首先實現了更低的延時，因為無需判斷信道狀態而直接發送包；其次是更高質量，收到一個包時質量能夠達到普通編解碼器水平，而兩個包則能夠達到高質量編解碼水平；其三，面向多人環境，不同人下行網路、丟包均不同；其四，幾乎可以不用再做策略調整。

據趙斌介紹，在某些場景下，如合唱，端到端的延時最低可以做到 50ms。「但我們認為，延時的數字大小不能代替最終體驗，我們應該從實際的場景和用戶體驗出發來做權衡。」趙斌如是說道。

而其他如硬體適配、QoE 質量保障等技術難點均已有了相應的解決方案，在此不再做贅述，感興趣的同學可以閱讀《實時互聯網的隱形風口》。

RTC 技術起始於人類對於通信的渴求，一路從原始通信、電報、無線電通信、電話到網路通信等走來，經歷了長期了技術更迭，並在此過程中協議制定了規範、標準、編碼和價格等規則，使網路連接、信息加速。曾經，音視頻通信質量受制於網路條件和設備，如今技術仍然還在演進的路上。

對此，趙斌講道：「RTC 技術遠還沒有成熟，從採集、編碼、前後處理、傳輸、解碼、緩衝到渲染等整個功能流程，我們依然在對技術做深度改善，比如結合人工智慧技術，以機器學習來提升傳輸質量。而在此之中，使用場景的創新與拓展是同時發生的，我們面臨著很多來自應用層面的需求。這方面，聲網會在 9 月份的 RTC 大會上公布 RTC 與 AI 相結合的一些技術進步，也會在編解碼方面分享更多的技術突破。」

實時通信下一城，人工智慧、物聯網下的延伸

三年前，當移動端盛行即時通訊之時，筆者與 IM 行業人士交談，便已經被勾勒了一番物與物之間實現通訊功能的實時數據交換，以及人控制設備後，在物與物之上，人和人之間溝通的技術實現場景。比如，當一台物聯網冰箱發生故障時，用戶只需點擊冰箱內嵌的按鈕即可一鍵接通客服，不僅能視頻聊天獲得幫助，還可以發送相關參數以快速解決問題。

今天，這正在逐漸走向現實。

趙斌表示，「很多雲計算公司紛紛將戰略重點轉移到 IoT 領域，也有很多人說IoT 是下一個更大的計算和連接平台。如果是這樣，聲網作為底層實時通信和傳輸技術服務商，一定會有更大的想像空間，我們已經在 IoT 領域探索並落地了非常多的場景。比如亮亮視野在其第一視角 AR 眼鏡實現的遠程操控，就是實時通信與 AR/VR 的結合；以及小米小愛音箱，也是在智能家居領域與語音識別技術的結合探索。當然，還有更多在無人車、無人駕駛等領域的探索也是如此，舉個例子，我們有一個視頻無人機的合作，通過視頻遠程操作，可以遠程操控無人機上的攝像頭，比如是否要放到縮小、鏡頭角度調整等，這樣精密準確的無人機在進行視頻傳輸時要保證低延時，跟人的視角是同步的，由此才能確保真正的操控，也可以替代如風電機檢修員等高危工種的工作。」

對於 RTC 技術感興趣或將來可能使用 RTC 技術的開發者們，可以報名參加即將於 9 月 7 - 8 日在北京喜來登長城飯店舉行的全球 RTC 行業權威技術峰會 —— RTC 2018 實時互聯網大會，來自 Google、聲網 Agora、Twitch、The Meet Group 、新浪微博、華為、陌陌、騰訊、VIPKID、陌陌、Bilibili、滬江等知名互聯網公司的技術領袖、音視頻技術大咖、產品創新專家，以及來自全球 2500 名開發者將在現場一同交流分享，實時如何定義未來。

參考資料：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※出海，這可能會是國產瀏覽器產品的唯一出路
※程序員月入2萬與5千，這就是差距！

TAG:CSDN |