當前位置:
首頁 > 最新 > 語音及文本類AI晶元的需求分析

語音及文本類AI晶元的需求分析

目前視頻和圖像類深度學習加速晶元已經呈現紅海狀態,而語音類人工智慧晶元還處於上升期,文本處理等領域目前還處於探索時期。本文的目的就是從應用和演算法的角度分析一下,我們需要一款怎樣的語音/文本處理的深度學習晶元?它需要具有怎樣的功能覆蓋和參數靈活度?這樣的晶元能應用到哪些地方?

目前,語音文本類深度學習應用主要分為幾個大的方面:

1. 語音識別(語音轉文字),包括語音命令,語音聽寫和語音轉錄。語音命令往往比較短,例如「發簡訊給xxx」,「打開電視機」等等。語音聽寫則是對近場清晰語音的人對機聽寫,需要有一定的實時性。可以識別完整的一句話或一段內容。語音轉錄做的是人人對話(例如會議)時的速錄員的工作,可以是非實時的錄音,可以採用更複雜的處理技術。目前語音識別大類,尤其是後兩者主要還是依靠調用雲端API實現。在終端化上還處於嘗試期。另外,對學習者的口語進行評分,也屬於語音識別的範疇。

2. 語音生成(文字轉語音(TTS)

文字轉語音比較明確,主要用於讀出給定的文本,也可以進行風格化,即模仿某個人的聲音。目前採用終端和雲端都可以實現這個功能,甚至手機本身就可以處理。其難點是需要妥善處理分詞、多音字和語氣。

3. 人機對話(Chatbot)

這是文本處理的最典型的應用,主要用於聊天/客服機器人。有時候也會結合前兩者用於人機語音對話,例如智能音箱。目前人機對話整體還處於一問一答階段,基於上下文的對話機制仍處研究階段,但對於特定場景,例如客服機器人,可以進行一定程度的多輪對話。人機對話往往和搜索引擎結合起來使用,當無法作出準確回答時,往往會提供搜索結果。

4. 自然語言處理(NLP)

當前的自然語言處理技術可以對一段文字進行詞法分析(中文分詞、詞性標註、命名實體識別等),從而提供出用詞統計信息,提取關鍵詞,分析詞與詞的相似度等。句法分析可以得到句子的結構和詞的依賴關係。找到句子的成分,分析語干,將非結構化的語言轉換成一個結構化的語義框架,從而可以通過分析、資料庫查找等技術進一步實現語義理解和知識挖掘。採用上述技術可以構建出知識圖譜,將大量背景知識與當前的輸入連接起來,可用於搜索的聯想和商品推薦等應用。另外,也可以實現評論觀點抽取、情感分析、閱讀理解等。

另一個大類是翻譯,往往指任意語言對的篇章級別翻譯。

5. 視頻和語言結合的應用

主要的應用是視頻理解,即將一段視頻轉換為描述文字或結構化信息。

上述應用都屬於自然信息的處理,另外一類是創作,例如音樂生成,寫詩、創作文章等最近幾年也取得了突破性進展。

???

這些領域在深度學習到來之前都有各自的發展,但都在深度學習中獲得了發展提高。例如語音識別從原先GMM-HMM的基礎框架向DNN-HMM框架轉型,再到DNN-CTC轉型。又例如在NLP中,規則和統計模型構建的詞性-句法-語義多步方法被引入了CNN,LSTM的直接的跨步驟特徵提取方法所革新。下面介紹一下使得這些領域取得革命性突破的深度學習框架。

1. 時序分析系列神經網路

由於語音和文本具有很強的時序特性。而由於卷積網的平移不變性使得對時序序列分析能力有一定程度的欠缺,因此需要帶有時間能力的神經網路補充它的不足。循環神經網路(RNN)及其衍化形式長短時記憶網路(LSTM)和門控循環單元(GRU)是典型代表,廣泛應用於大量語音文本分析領域。由於這些網路只闡明了當前狀態和歷史的關係,而有時,當前狀態會同時依賴於歷史和未來,因此雙向時序網路,例如BRNN,BLSTM得到了較多的應用,這種類型的網路可以認為是正向時間的時序網路和一個反向時間的時序網路合在了一起。值得注意的是,這些網路結構可以鋪多層,即一層的輸出是另一層的輸入,組成更強大的時序網路。值得注意的是,由於RNN具有梯度彌散問題,因此實際應用時,幾乎還是使用的其衍化形式,例如LSTM和GRU。GRU和LSTM相比性能上難分伯仲,可根據具體應用選擇,而在資源開銷上,GRU較LSTM更具優勢,RNN佔用資源最少,但實用性較低。

2. 深度學習技術

本用於視頻領域的卷積神經網路(CNN)在語音/文本處理上獲得了廣泛應用。例如對音頻識別起到了一定程度的改善作用。此時輸入變為二維的語譜圖(時間-頻率圖)。對於句子理解,有時會直接把一句話按照每單詞作為一行(單詞的高維向量表示),組成「圖像」,通過CNN進行降維和特徵提取。分析結果可以用於分類和對話。多層感知機網路(MLP)在這些網路中發揮著強大的膠水連接作用,以及Word embedding的作用等。對於閱讀理解和多輪對話等應用,關注(Attention)機制可以從上下文或者歷史知識中提取出對當前任務有用的因素,簡單的關注可以認為是一種動態權重下的加權求和操作。

3. 非神經網路的分析技術

值得注意的是,文本/語音處理區別於視頻處理的一大特色是,這些神經網路技術目前大部分情況還沒法構成端到端的應用,因此這些先進的神經網路往往需要和傳統的非神經網路技術混搭使用。例如,對於語音識別技術,往往可以分為語音模型、文本模型、搜索三部分。語音模型中的前期處理已經逐漸被CNN、LSTM等神經網路技術所替代,而後部為了解決語音的速率問題,還需要採用基於狀態切換的HMM模型,或者基於搜索的音素合併演算法CTC(BeamSearch)。這些演算法可以有效彌補當前神經網路沒有變長的時序(t)表達能力的問題。另外,對於文本模型而言,N-gram仍然具有很高的應用性,雖然也有基於RNN替代方法,但未必會產生完全替代。

???

綜合以上情況,對於語音文本類應用而言,需求度分析可以整理如下表。

在神經網路實現細節變化方面,我們需要進一步考察。在文本和語音領域,激活函數往往不是ReLU,而是一些非線性函數。因此對數據精度的要求比較高,目前成熟的仍然是浮點。近幾年有關於8b的LSTM結構研究,甚至部分量化為更低精度的研究,但並不能保證通用性。因此建議採用浮點數據類型。另外,殘差連接對於語音識別仍具有意義。

在預處理方面,語音和文字都有各自較為成熟的預處理方案。對於語音,主要需要構建語譜圖。有些時候也可以直接用音頻作為輸入。而對於文本,主要需要先將詞分開並表示為向量。主要演算法如表所示。

語音在經過神經網路進行處理後,後期處理的主要技術包括HMM或CTC,以及N-gram。

根據四元拆分方法,一個數字IP核分為控制,計算,存儲,互聯四個大的部分,下表對每一部分的需求進行簡述。

在介面方面,主要考慮是嵌入式平台還是雲平台,其中嵌入式平台往往直接通過麥克風獲取語音,而對於遠場而言,陣列麥克風模塊是最好的選擇。對於雲而言,數據主要通過PCI-E或者網口傳輸。由於這些神經網路結構需要更大的內存開銷,因此DDR/HBM需求較高。

對系統的整體理解有助於我們設計它的支撐平台,因此我們以上文的磚塊為基礎,重點介紹目前處於領先地位的若干神經網路體系結構。例中以知名公司推出的語音/文本處理神經網路演算法為主要關注點。大多具有公開論文作為參考。可以得出的結論是,商業級別的LSTM(GRU)的單層尺寸一般為1000-2000左右,會放置3~7層。卷積網及其各類變種都有應用。CTC是目前較為流行的語音識別後端處理模式。Attention機制會有長遠發展,值得關注。詳細情況如表所示。

註:BLSTM, BGRU在有些文獻中也寫作biLSTM,biGRU。

???

今音頻/文本處理正在深度學習的軌道上快速發展。例如谷歌的LAS演算法在本文寫作幾天前公布,大大簡化了語音識別框架,百度Deep Voice 3在大半個月前公布,訓練速度提升了10倍。各大公司相繼推出了基於深度學習演算法的語音識別網路[8]。在NLP方面[7],深度學習也正在進行著前所未有的變革。值得注意的是這些變革是剛性的,因為它確實刷新了各項性能指標,把相關領域研究推向了新的高度。另外,很多任務會加入很多個性化演算法元素,而不是單純的神經網路結構。飛速的演算法進展以及個性化傳統演算法的引入給晶元設計的靈活度帶來了考驗。

綜上,本文分析了當前語音文本深度學習演算法的主要應用場景,闡述了支持這些應用場景的晶元應支持何種深度學習演算法,最後分析了若干知名技術方案中這些網路的使用情況。結論為(1)大量深度學習演算法和神經網路結構是這些領域的最優性能的必需演算法,因此這些應用具有很強的神經網路加速需求。(2)仿存量遠大於CNN,可以理解為存儲訪問帶寬主導的設計。其特點可能會導致片上內存的增大和近內存計算架構得到長足發展。(3)語音/文本類網路結構複雜,傳統處理演算法和神經網路變種需要高效支持。我們期待未來會有更多的晶元公司關注語音/文本類深度學習應用的加速,開發出令人激動的新品,讓這些應用能夠走進每個人的日常生活。

由於此文涉及面較廣,有可能不夠準確,在此僅供拋磚引玉之用,各位如見到有錯誤和不足之處請務必留言指出。

Reference

[1]. Google LAS (https://arxiv.org/pdf/1712.01769.pdf)

[2]. Deep Speech 2 (https://arxiv.org/abs/1512.02595, http://blog.csdn.net/xmdxcsj/article/details/54848838)

[3]. DFCNN (http://blog.csdn.net/real_myth/article/details/52274005)

[4]. SLING (https://arxiv.org/abs/1710.07032)

[5]. WaveNet (https://deepmind.com/blog/wavenet-generative-model-raw-audio/, https://arxiv.org/pdf/1609.03499.pdf)

[6]. Deep Voice 3 (https://arxiv.org/abs/1710.07654, Deep Voice 2 https://arxiv.org/abs/1705.08947, http://news.zol.com.cn/631/6315926.html) Deep Voice 1 https://arxiv.org/abs/1702.07825

[7]. NLP進展 (http://www.sohu.com/a/210427622_465975)

[8]. 語音識別網路對比 (http://www.360doc.com/content/17/0729/00/41022878_675010230.shtml)

- END -

作者簡介:

題圖來自網路,版權歸原作者所有


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 StarryHeavensAbove 的精彩文章:

淺析圖像視頻類AI晶元的靈活度

TAG:StarryHeavensAbove |