當前位置:
首頁 > 新聞 > 解讀AI手語翻譯機的技術硬核

解讀AI手語翻譯機的技術硬核

雷鋒網按:據2019年3月份世界衛生組織公布的最新數據,超過全世界人口的5%(約4.66億人)患有殘疾性聽力障礙。據估計,到2050年這一數據將達到9億。與此同時,手語作為聽障者使用較多的語言,能正確理解手語的健全人士卻寥寥無幾。

5月16日,騰訊優圖實驗室聯合深圳市信息無障礙研究會發布「優圖AI手語翻譯機」。據官方資料顯示,用戶通過面對翻譯機攝像頭進行手語表達,翻譯機屏幕界面便能快速把手語轉換為文字。

解讀AI手語翻譯機的技術硬核

據公開資料顯示,騰訊優圖實驗室創立於2012年,是騰訊三大人工智慧實驗室之一。去年,騰訊優圖實驗室已升級為騰訊計算機視覺研發中心。此外,更與國際期刊《科學》達成戰略合作,共享在計算機視覺領域的資源和信息。

手語識別技術,潛行多年

任何技術的發展都不是一蹴而就的,尤其是近些年來,優圖AI手語翻譯機也並不是第一款針對手語應用的的產品,在此之前,手語識別技術已經發展多年,包括國內IT企業級科研院校都曾針對這一技術進行研究,並有此類成果和產品推出:

2013年7月,微軟團隊和中國科學院計算技術研究所進行合作,通過Kinect For Windows創建手語識別軟體,可根據手語動作的追蹤識別轉換成正常人能夠讀懂的內容;

2018年2月,中科大發布了一篇手語識別的論文被人工智慧頂級學術會議AAAI 2018收錄;該論文提出一種新型連續手語識別框架 LS-HAN,無需時間分割;

2018年3月,Magic Leap的頭戴式設備識別手語和文本「感官眼鏡」,據3月新專利申請,相關信息概述了使用頭戴式設備檢測和翻譯手語的方法,並介紹了如何識別標牌和店面上的文字;

2018年7月,軟體開發者 Abhishek Singh演示了一款能夠理解手語手勢的 MOD,通過攝像頭的捕捉和深度學習,讓亞馬遜 Alexa 對手語手勢作出反饋;

解讀AI手語翻譯機的技術硬核

2018年12月,愛奇藝研發的AI手語主播在中國網路視聽大會上首次亮相,可識別用戶語音並轉換為文字,還能對健聽人自然語言進行理解,並智能翻譯為手語表達。

手語識別技術的困境與突破

傳統的手語識別方法通常會針對特定的數據集設計合理的特徵,再利用這些特徵進行動作和手勢的分類。受限於人工的特徵設計和數據量大小,這些方法在適應性、泛化性和魯棒性上都非常有限。

近年來,得益於大數據和深度學習技術不斷的進步,人工智慧演算法的發展也水漲船高,尤其在計算機視覺、音頻處理和自然語言處理等方面,這助推了AI演算法在許多應用和場景中實現落地,研究人員開始嘗試應用深度學習和數據驅動的演算法來解決手語識別中的難題。

然而,不同於大部分的計算機問題,手語特有的地域性、複雜性和多樣性給AI演算法帶來了難度。不僅增加了數據採集和清洗的成本,也使得這門技術的落地存在很大的挑戰,難以被實際應用。

目前,針對解決聽障人群溝通問題的研究,其研究方向多集中在將文字轉化成手語;反過來,將聽障人群的手語轉化成文字就比較難了。

據公開資料顯示,雷鋒網了解到騰訊優圖實驗室手語識別數據集覆蓋了近千句日常表達,900個常用辭彙。此外,優圖AI手語翻譯機能夠實現整句的識別和翻譯,用戶表達的時候可以將整個句子連貫表達完畢,不需要設定特定的結束或起始動作,也無需在句中故意停頓或放慢速度。

優圖AI手語識別技術的實現方法

據官方資料顯示,優圖AI手語翻譯機核心技術是與聽障者手語表達高度符合的數據集與手語識別演算法。

解讀AI手語翻譯機的技術硬核

針對AI手語翻譯機的手語識別數據集、特徵提取器等關鍵技術能力,雷鋒網根據官方資料整理如下:

手語識別數據集

目前,AI手語翻譯機的數據集覆蓋近千句日常表達,900個常用辭彙。此外,採集數據集還考慮了手語表達的地域性和多樣性,包含了不同的表達習慣和速度。

特徵提取器

結合普通2D卷積網路和3D卷積網路的優勢,通過2D卷積網路來提取手語中的手勢和身體姿勢等靜態信息,同時通過3D卷積網路來提取手語中普遍存在的細微而快速的變換動作的動態信息,最後將這兩個信息相結合,產生最後的特徵表達。

通過結合應用視頻中的動態、靜態信息,從而實現利用單純的RGB視頻圖像進行手語識別。

句子表達中挖掘詞級信息

該演算法在視頻幀與最後的輸出之間加入了詞級信息提取單元,詞級信息提取單元利用長短時網路充分考慮特徵提取器所提取出的信息,並結合視頻中相鄰的信息計算出詞級的特徵表達。這個單元使得演算法能夠更好地在句子中找到詞語表達的邊界,並提升對各種地域性表達的總結能力。

單句切分並充分考慮句中上下文信息

演算法在提取詞級信息的基礎上還會充分將整句中的上下文信息進行綜合考慮,然後再輸出最後的識別結果。同時,為了減少用戶在使用過程中的限制,技術團隊在手語識別之前加入人臉檢測和動作檢測兩個模塊,用人臉檢測確定手語表達者的位置,然後用動作檢測判斷用戶是否在進行手語表達。

優圖AI手語翻譯機的「劍走偏鋒」

目前來看,雖然AI手語識別技術受限於計算機性能、語料庫豐富程度等因素的影響,但是隨著人工智慧和圖像識別技術不斷受到關注,目前包括曠世、商湯等國內獨角獸企業,以及國內的BAT、國外的谷歌、微軟、亞馬遜,無不針對這一技術砸重金立項研究。

在智能語音技術帶來了智能音箱後,AI視覺技術是否能帶來類似的爆款硬體產品,此前大家更多關注的是受眾人群更大的智能攝像機,騰訊優圖此次發布的「優圖AI手語翻譯機」雖然難免有些「劍走偏鋒」,卻也不失為是一種更為場景化的應用和嘗試。至於是否能為特殊人群帶來真實便利,還有待真實應用場景中的用戶反饋數據來呈現。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

特斯拉正式吞下 Maxwell,Musk 要憑乾電極技術再次書寫傳奇?
英特爾首次向其投資者談論一個不為人知的「秘密」

TAG:雷鋒網 |