是誰成全了我們在吃雞、狼人殺里的實時互動?
作者 | 唐小引
去年今月,筆者曾撰文一解實時通信技術(RTC)的前世今生,詳實地回顧了實時通信技術的演進歷程與技術痛點。如今一年已矣,我們經歷了直播答題的撒幣成兵,玩過了吃雞、狼人殺,還有微信帶著十幾億用戶生態大力扶持即點即玩的小遊戲、小程序。而另一方面,當 AI 集成進入晶元、系統成為軟硬體的基礎能力之時,我們在小米小愛、百度小度、阿里小蜜等智能音箱之間來回穿梭,這其中所有應用的共同特性都在於 —— 實時、互動。
從遊戲、直播到社交、教育,落地開花的實時互動應用
直播、遊戲這些自不必說,實時的音視頻傳輸是其最為主要的功能特性,尤其在社交需求極強的「休閑類小遊戲」、「競技類遊戲」上,更需要實時語音來增強社交屬性,以進一步提升玩家的遊戲時長和用戶粘性。而當實時互動提高了平台的活躍度和黏性,平台可以輕鬆地通過廣告、道具、會員等各種各樣的方式變現。
從直播連麥、直播答題到「吃雞」的語音對講、組隊開黑、狼人殺,再到最近有望成為風口的後狼人殺產品「劇本殺」,都是已經被市場印證過的實時通信與全互動直播應用場景。
縱覽 App Store,劇本殺 App 們均主打的實時語音連麥
舉個例子,在社交、直播等領域,已經擁有了視頻群聊、主播 PK、多人相親、語音電台直播、一起 KTV 等創新玩法,諸如陌陌等社交平台均上線了群組聊天、多個主播連麥直播、語音聊天室等玩法。而現在在社交直播中,同時還有動態實時濾鏡支持,通過實時追蹤人臉多個特徵點,實現實時動態貼紙、360°無死角美顏、自帶哈哈鏡和顏色濾鏡等功能。
而在教育行業,除了傳統的語言、K12 培訓類的 1 對 1、小班課之外,音樂陪練、STEAM 教學(集科學、技術、工程、藝術、數學多學科融合的綜合教育)也越來越多,通過語音識別、圖像識別、自然語言處理等技術,實現對兒童的陪伴和教育,達到寓教於樂的效果。
再看微信生態,早在去年 12 月,微信小程序便正式對外開放了實時音視頻錄製及播放功能,符合微信類目所要求的小程序在自助開通後,可自建或使用雲服務,實現單向和互動的音視頻功能,如視頻直播、互動直播、在線教育、視頻會議、遠程諮詢和視頻客服等。
小程序視頻連麥邏輯實現圖
細分一下,在小程序上可以實現以下更為豐富的使用場景:
線上課堂:1 對 1、1 對多的在線直播課,適用於職業教育、小班教育、學前教育等場景,實現老師、學生實時互動;
視頻會議:一秒快速建立多人視頻會議,實現高效遠程協作;
在線醫療:突破醫療資源的地域限制,以及系統平台限制,實現遠程多方視頻會診,降低診斷成本;
在線購物:直播展示商品,同時觀眾連麥互動,進一步促成交易;
VIP 客服:專屬視頻客服,1 對 1 實時交流;
銀行開戶:專用網路,無需安裝 App,通過小程序快速實現信息認證與視頻開戶;
遠程報警:從微信小程序實現一鍵報警,迅速連接相關部門,並通過實時視頻通信,使警方能實時掌控現場情況。
當實時互動場景已經隨處可見,開發者需要關注什麼?
不過,與實時相對的,在音視頻通信上一直存在著「低延時」問題。當音視頻實時通信的應用場景隨處可見之時,對於開發者來講,除了關注快速實現不同應用場景實時通信之外,更需要斟酌的是,實時音視頻傳輸延時應該如何保證「低延時」,在低延時的同時保證音視頻質量,才能滿足具體的應用場景。
對於這個問題,CSDN 專門採訪了在 RTC 實時通信領域深耕二十多年的資深專家 —— 聲網 Agora 創始人& CEO 趙斌,他表示,「當前,通過互聯網基礎設施,音視頻實時通信是可以進行的。但互聯網本身並不是為實時設計,因此通話質量基本是靠天吃飯。」
在音視頻傳輸過程中,不同階段都會產生延時
而聲網在實時傳輸、編解碼、視頻體驗等多方面都有著獨到的深度技術方案,比如自建了專門用於實時音視頻數據傳輸的 SD-RTN 實時虛擬通信網路,通過智能調度演算法來優化網路傳輸,讓即使是在跨國跨州的傳輸中都有低延遲的保證;以及自研的抗丟包音視頻編碼器 Agora SOLO,即使是在 50% 的丟包下,用戶都至少可以沒有障礙地聽懂對方所講的內容。
如上圖所示即為 Agora SOLO 的處理邏輯,將包分為 packet 1 和 packet 1』,如果接收端只收到其中一個包,那麼就實現一個有限失真的恢復,質量相對稍差。如果收到 packet 2 和 packet 2』,便將兩個包合起來實現一個高質量的解碼。默認無需等待對當前網路丟包狀態的統計,只需直接將抗丟包做到編解碼內部。由此首先實現了更低的延時,因為無需判斷信道狀態而直接發送包;其次是更高質量,收到一個包時質量能夠達到普通編解碼器水平,而兩個包則能夠達到高質量編解碼水平;其三,面向多人環境,不同人下行網路、丟包均不同;其四,幾乎可以不用再做策略調整。
據趙斌介紹,在某些場景下,如合唱,端到端的延時最低可以做到 50ms。「但我們認為,延時的數字大小不能代替最終體驗,我們應該從實際的場景和用戶體驗出發來做權衡。」趙斌如是說道。
而其他如硬體適配、QoE 質量保障等技術難點均已有了相應的解決方案,在此不再做贅述,感興趣的同學可以閱讀《實時互聯網的隱形風口》。
RTC 技術起始於人類對於通信的渴求,一路從原始通信、電報、無線電通信、電話到網路通信等走來,經歷了長期了技術更迭,並在此過程中協議制定了規範、標準、編碼和價格等規則,使網路連接、信息加速。曾經,音視頻通信質量受制於網路條件和設備,如今技術仍然還在演進的路上。
對此,趙斌講道:「RTC 技術遠還沒有成熟,從採集、編碼、前後處理、傳輸、解碼、緩衝到渲染等整個功能流程,我們依然在對技術做深度改善,比如結合人工智慧技術,以機器學習來提升傳輸質量。而在此之中,使用場景的創新與拓展是同時發生的,我們面臨著很多來自應用層面的需求。這方面,聲網會在 9 月份的 RTC 大會上公布 RTC 與 AI 相結合的一些技術進步,也會在編解碼方面分享更多的技術突破。」
實時通信下一城,人工智慧、物聯網下的延伸
三年前,當移動端盛行即時通訊之時,筆者與 IM 行業人士交談,便已經被勾勒了一番物與物之間實現通訊功能的實時數據交換,以及人控制設備後,在物與物之上,人和人之間溝通的技術實現場景。比如,當一台物聯網冰箱發生故障時,用戶只需點擊冰箱內嵌的按鈕即可一鍵接通客服,不僅能視頻聊天獲得幫助,還可以發送相關參數以快速解決問題。
今天,這正在逐漸走向現實。
趙斌表示,「很多雲計算公司紛紛將戰略重點轉移到 IoT 領域,也有很多人說IoT 是下一個更大的計算和連接平台。如果是這樣,聲網作為底層實時通信和傳輸技術服務商,一定會有更大的想像空間,我們已經在 IoT 領域探索並落地了非常多的場景。比如亮亮視野在其第一視角 AR 眼鏡實現的遠程操控,就是實時通信與 AR/VR 的結合;以及小米小愛音箱,也是在智能家居領域與語音識別技術的結合探索。當然,還有更多在無人車、無人駕駛等領域的探索也是如此,舉個例子,我們有一個視頻無人機的合作,通過視頻遠程操作,可以遠程操控無人機上的攝像頭,比如是否要放到縮小、鏡頭角度調整等,這樣精密準確的無人機在進行視頻傳輸時要保證低延時,跟人的視角是同步的,由此才能確保真正的操控,也可以替代如風電機檢修員等高危工種的工作。」
對於 RTC 技術感興趣或將來可能使用 RTC 技術的開發者們,可以報名參加即將於 9 月 7 - 8 日在北京喜來登長城飯店舉行的全球 RTC 行業權威技術峰會 —— RTC 2018 實時互聯網大會,來自 Google、聲網 Agora、Twitch、The Meet Group 、新浪微博、華為、陌陌、騰訊、VIPKID、陌陌、Bilibili、滬江等知名互聯網公司的技術領袖、音視頻技術大咖、產品創新專家,以及來自全球 2500 名開發者將在現場一同交流分享,實時如何定義未來。
參考資料:


※出海,這可能會是國產瀏覽器產品的唯一出路
※程序員月入2萬與5千,這就是差距!
TAG:CSDN |