當前位置:
首頁 > 知識 > LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

【版權聲明】轉載請註明出處和作者署名。否則作者和雲棲社區有權追究責任。



系列文章

一入侯門「深」似海,深度學習深幾許(入門系列之一)

人工「碳」索意猶盡,智能「硅」來未可知(深度學習入門系列之二)

神經網路不勝語, M-P模型似可尋(深度學習入門系列之三)

「機器學習」三重門,「中庸之道」趨若人(深度學習入門系列之四)

Hello World感知機,懂你我心才安息(深度學習入門系列之五)

損失函數減肥用,神經網路調權重(深度學習入門系列之六)

山重水複疑無路,最快下降問梯度(深度學習入門系列之七)

BP演算法雙向傳,鏈式求導最纏綿(深度學習入門系列之八)

全面連接困何處,卷積網路見解深(深度學習入門系列之九)

卷地風來忽吹散,積得飄零美如畫(深度學習入門系列之十)

局部連接來減參,權值共享肩並肩(深度學習入門系列之十一)

激活引入非線性,池化預防過擬合(深度學習入門系列之十二)

循環遞歸RNN,序列建模套路深(深度學習入門系列之十三)

14.1 遺忘是件好事還是壞事?

如果我問你,遺忘,是件好事,還是壞事?

或許你會說,當然是件壞事啊,我可羨慕記憶力好的人了。

可我要告訴你,如果你到現在還記得,兩歲時,隔壁家的小女孩「橫刀都愛」,搶了你的棒棒糖,估計你現在還可能單身。如此記仇的人,不孤獨也難啊?

的確,有時候,遺忘是好事,它會讓大腦清理無用「內存」,然後讓你得以重新起航。此外,記憶其實是一種生物運算,需要消耗能量的。從進化論的角度來看,如果大腦一直運算著長時間都用不著的「子程序」,是極不經濟的。在物資並不豐裕的遠古時代,這樣的生物,會被「物競天擇」掉的!因此,遺忘,在某種程度上,是生物的一種自我保護機制。

那遺忘,是件好事咯?或許你會問。

如果是好事,為什麼當年背幾個英文單詞,都要絞盡腦汁,家人還不得不都無辜地「光榮」一大半:Bus(爸死)、Yes(爺死)、Nice(奶死),都Cheese(氣死)。

嗯,是的。過猶都不及。我們既需要記憶,也需要遺忘。我們既需要短期記憶(short-term memory),必要時,還要將這些短記憶拉長(long short-term memory),留存下來,以備後用。

聰慧如你,一定猜到了。我要引入本章的主題:長短期記憶(Long Short-Term Memory,簡稱LSTM)。這個名字有點怪,難道是又長又短的記憶?當然不是,請注意「Short-term」中間有一個短橫線「-」連接。這表明,在本質上,LSTM還是短期記憶(short-term memory),只是它歷經的時序較長而已。

14.2 施密德胡伯是何人?

「LSTM」,名稱很拗口啊,為了記憶,我把它記做「老(L)師(S)太(T)忙(M)」。如果于爾根?施密德胡伯(Jürgen Schmidhuber)知道我這麼玩笑地稱呼他的「寶貝」,會不會懟我啊?

施密德胡伯(名字太長,以下簡稱「胡伯」)又是何許人也?他可來頭不小。我們常說深度學習有三大巨頭,約書亞?本吉奧(Yoshua Bengio)、揚?勒丘恩(Yann LeCun,又譯作「嚴樂春」)和傑弗里?辛頓(Geoffrey Hinton)。如果把「三大巨頭」擴展為「四大天王」的話,這位胡伯應可入圍。論開創性貢獻,他也算得上深度學習的先驅人物之一。其中他最傑出的貢獻,莫過於他於1997年和Hochreiter合作提出的LSTM[1]。因此,胡伯也被尊稱為「LSTM之父」。

在前面,之所以我會問胡伯會不會懟我?並不是說他真的會懟一個無名小輩。而是想說,這位老伯本領大,脾氣也大啊。

有例為證。2015年,前面提及的深度學習三巨頭在著名學術期刊《Nature》上發表了一篇《Deep Learning》綜述[2],隨後胡伯就站出來指責,你們沒有充分肯定自己工作的價值。而綜述第一作者嚴樂春亦不甘示弱,隨後霸氣發文反駁,你丫就值這麼多。

有道是,有人的地方,就有江湖。有江湖的地方,就有紛爭。

還有一例,值得說道一下。近幾年,由伊恩?古德費勒(Ian Goodfellow)等人提出「生成對抗網路」(Generative Adversarial Networks,GANs),在人工智慧領域非常火爆,可稱為非監督深度學習的典範之作。這位「好小伙(Goodfellow)」又是誰呢?他就是深度學習三巨頭之一的本吉奧(Bengio)的博士生,現就職於谷歌的人工智慧團隊。嚴樂春對GAN交口稱讚,稱其為「20年來機器學習領域最酷的想法」。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-1 胡伯與好小伙(Goodfellow)真情互懟

可有人不這麼看。2016年12月,在知名的NIPS(Neural Information Processing Systems)大會上,Goodfellow正在做關於GAN的培訓宣講,就發生了尷尬的一幕。不待Goodfellow台上講完,有位聽眾就迫不及待,站起來說,自己在1992年提出了一個叫做Predictability Minimization(可預測性最小化,簡稱 PM)的模型[4],說它如何有效工作,然後話鋒一轉,問台上的Goodfellow:「你覺不覺得,我的這個PM,跟你的GAN有沒有什麼類似之處啊?」

來者不善,善者不來。這個來者就是前面提到的胡伯。1987年出生的好小伙Goodfellow初生牛犢不怕虎,當時就有點火大,和胡伯懟上了(感興趣的讀者,可前往視頻圍觀)。為何Goodfellow會惱火?原因很簡單,因為胡伯的言外之意就是,你丫的創新並不新鮮,不過是拾我20多年之牙慧罷了。

在這裡,我之所以會這麼花點筆墨來說胡伯的故事,原因有二:第一他是本章議題LSTM的提出者。二是想介紹一個「二元學習」的方法論。嚴伯鈞老師曾說,如果你沒有太多精力,但又想快速建立對一個新領域的感覺,那麼最好的辦法就是使用「二元學習法」。具體來說,就是找到兩位這個領域的代表性人物,最好是針鋒相對的代表人物,高手對決,精彩就會紛呈。比如說,在古典音樂領域,聽到莫扎特的音樂,就該去找貝多芬的經典欣賞一下;在經濟學領域,看到凱恩斯的著作,就該去找哈耶克的書看看。再比如,如果你想了解Goodfellow的GAN,也該找找胡伯的PM模型了解一番。

14.3 為什麼需要LSTM?

言歸正傳,讓我們回到LSTM的討論上。近年來,循環神經網路(RNN)在很多自然語言處理項目中取得突破。如果光靠第一代的RNN功力,自然是辦不到的。我們知道,傳統RNN多採用反向傳播時間(BPTT)演算法。這種演算法的弊端在於,隨著時間的流逝,網路層數的增多,會產生梯度消失或梯度爆炸等問題。

「梯度消失」說的是,如果梯度較小的話(<1),多層迭代以後,指數相乘,梯度很快就會下降到對調參幾乎就沒有影響了。想一想,(0.99)^100是不是趨近於0?

「梯度爆炸」說的是,反過來,如果梯度較大的話(>1),多層迭代以後,又導致了梯度大的不得了。想一想,(1.01)^100是不是也很大?

權重爆炸可能引起權重振蕩。梯度消失又導致網路調參失去方向感。這些場景都會讓BPTT望「參」興嘆。於是,它在呼喚一個新的策略讓RNN復活。

這個策略就是胡伯在1997年提出的(Long Short-Term Memory,LSTM)。由於獨特的設計結構,LSTM特別適合於處理時序間隔和延遲非常長的任務,而且性能奇佳。比如說,2009年,用改進版LSTM,贏過ICDAR手寫識別比賽冠軍。再後來,2014年,Bengio團隊提出了一種更加好用的LSTM變體GRU (Gated Recurrent Unit,門控環單元) [6],從而使得RNN的應用,如洪水泛濫,一發不可收拾。2016年,谷歌公司利用LSTM來做語音識別和文字翻譯[7]。同年,蘋果公司使用LSTM來優化Siri應用[8]。作為非線性模型,LSTM非常適合於構造更大型深度神經網路。

下面,我們就來剖析一下LSTM結構。

14.4 拆解LSTM

14.4.1 傳統RNN的問題所在

只有定位好問題所在,才能找到機會解決問題。因此,在講解LSTM原理之間,讓我們首先重溫一下第一代RNN的問題所在。

讓我們考察一下,在原始RNN隱層中的神經元,它只有一個狀態,記為h,它對短期輸入非常敏感。在第13章中,我們已說明,RNN可利用歷史信息(或說上下文信息),把過去的輸出,再次循環作為輸入,從而可達到更好的預測效果。比如說,「天空中飛來一隻__」,這個句子比較短,對於RNN來說,構建的網路層數比較淺,因此我們可以充分利用歷史信息,能以較大概率來預測空白區可能是「鳥」或「蜻蜓」之類的飛行動物。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-2 上下文較長,無法利用歷史信息

但是,如果我們再接著預測如下句子的空白處,句子為「我在中國北京長大,我兄弟5人,我哥叫牛A,我還有三個弟弟分別叫牛C、牛D和牛F,我排名老二,因此大家都叫我牛B,我們都能說一口流利的__」。距離空白處最近的信息提示我們,該處可能要預測一個語言名稱。

但世界上的語言上百種,如果我們想縮小語言名稱的範圍,自然需要利用這個詞的上下文信息,但我們很快就會發現,關鍵詞「中國北京」距離「說一口流利的__」這個辭彙之間,距離太過遙遠。的確,我們也可把RNN的結構做深一點,但限於前文提到的缺點,如梯度彌散等問題,前面網路層的信息如 x0 、x1,..., 等,「流淌」到當前層,有用的信息已所剩無幾。或者說,過去的信息已經被拋棄(「遺忘」)了。有時,這樣有用但又為拋棄的神經單元,也稱為泄漏單元(leaky unit)。

14.4.2 改造的神經元

從上面的分析可知,第一代RNN的問題,出在神經元的功能不健全上,它把該記住的遺忘了,又把該遺忘的記住了。那如何來改造它呢?這個時候,就要體現胡伯提出的LSTM的工作了。LSTM的核心本質在於,通過引入巧妙的可控自循環,以產生讓梯度能夠得以長時間可持續流動的路徑 。

假如我們在原有神經元的基礎上再增加一個狀態,即c,讓它「合理地」保存長期的狀態,不就解決問題了嗎?其結構如圖14-3所示.

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-3 調整神經的功能

假設新增加的狀態c,稱為記憶單元態(cell state),亦稱為「記憶塊(memory block)」,用以取代傳統的隱含神經元節點。它負責把記憶信息從序列的初始位置,傳遞到序列的末端。下面我們把圖14-3按照時間步展開,得到如圖14-4所示的示意圖。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-4 按時間步展開的RNN網路

從示意圖14-4可看出,在LSTM結構中,在t時刻,當前神經元(粗紅線標識)的輸入有三個:當前時刻輸入值 xt、前一時刻輸出值 st?1 和前一時刻的記憶單元狀態 ct?1。輸出有兩個:當前時刻LSTM輸出值 st 和當前時刻的記憶單元狀態ct。需要注意的是,這裡的x,s和c都是向量,裡面都包含多個參數值。

現在LSTM關鍵之處來了,那就是如何有效控制這個長期狀態c而為我所用呢?這裡,LSTM的設計思路是設計3把控制門開關(gate),從而打造一個可控記憶神經元,如圖14-5所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-5 長期狀態c的控制門的三把開關

這第一把門開關,就是負責決定把前一個長期記憶 ct?1 在多大程度上保留到ct中,它可選擇性地遺忘部分之前積累的信息;第二把門開關,就是負責控制以多大程度把當前即時狀態存入到長期記憶狀態ct中;第三把開關,負責控制是否把長期狀態c,作為當前LSTM的輸出。有了這三把好用的開關,記憶就如是酒保手中的酒,是「勾兌」可調的。

接下來,讓我們要聊聊,在記憶單元中,內部狀態c和輸出s是如何計算的。

14.5 LSTM的前向計算

前文描述的門開關,實際上是一個比喻。在真正的演算法中,哪有什麼所謂的「開關」?這裡的「門開關」,實際上就是一個全連接網路層,它的輸入是一個複雜的矩陣向量,而輸出是一個0到1之間的實數向量。請注意,由於「門」和「層」的關係是,一個是比喻,一個是實現,所以後文中我們可能混搭表述。

LSTM實際上通過調控某些全連接層網路參數,來達到調控輸出的目的。如果輸出可控,那麼「門」的開和關,就可以模擬出來了。

假設W是門的權重向量,b為偏置向量,這個「門」可表示為公式(14-1)。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

這裡,激活函數σ可用擠壓函數sigmoid函數的輸出來控制門的開與關。由於sigmoid函數的值域被控制在0和1之間。那麼,激活函數輸出為0時,任何向量與之相乘,結果為0,這就相當於「門」關上了;那如果輸出為1時,任何向量與之相乘都不會改變,這就相當於「門」完全開啟。當輸出值在0至1之間呢,這相當於門是半掩半開的,就可以調控「記憶」的留存程度。

還記得嗎?在第13章中,我們說過,人們通常都不具備「馬爾科夫鏈思維」,言外之意,就是說,我們當前的內心感受,都是歷史的投射和當下的輸入,疊加在一起的結果。這就好比一個場景,「一巴掌挨在臉上(當前輸入),新仇舊恨湧上心頭(歷史記憶)」。

類似地,LSTM也設計兩個門控制記憶單元狀態c的信息量:一個是遺忘門(forget gate)。所謂的「遺忘」,也就是「記憶的殘缺」。它決定了上一時刻的單元狀態有多少「記憶」可以保留到當前時刻;另一個是輸入門(input gate),它決定了當前時刻的輸入有多少保存到單元狀態。

在圖14-5中,我們說過,LSTM是由三個門來實現的。實際上,為了表述方便,很多文獻還添加了一個門,叫候選門(Candidate gate),它控制著以多大比例融合「歷史」信息和「當下」刺激。

最後,LSTM還設計了一個輸出門(output gate),來來控制單元狀態有多少信息輸出。下面對這4個門分別進行詳細介紹。

14.5.1 遺忘門

如前所述,遺忘門的目的在於,控制從前面的記憶中,丟棄多少信息,或者說要繼承過往多大程度的記憶。以音樂個性化推薦為例[9],用戶對某位歌手或某個流派的歌曲感興趣,那麼諸如「點贊」、「轉發」和「收藏」等這樣的正向操作,作為「記憶」,就需要得到加強(換句話說,就需要遺忘得少點)。反之,如果發生了刪除、取消點贊或收藏等這類負向操作,對於推薦功能來說,它的信息就應該被「遺忘」得多一些。

遺忘門可通過公式(14-2)所示的激活函數來實現。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

在公式(14-2)中,σ表示激活函數,這裡通常為sigmoid。 WTf表示遺忘門權重矩陣, UTf是遺忘門輸入層與隱層之間的權重矩陣,bf表示遺忘門的偏置,這裡的下標f是「遺忘(forget)」的首字母,為了增強可讀性而已,下同。

從公式(14-2)可看出,遺忘門是通過將前一隱層的輸出 st?1 與當前的輸入xt進行了線性組合,然後利用激活函數,將其輸出值壓縮到0到1的區間之內。當輸出值越靠近1,表明記憶體(cell block)保留的信息就越多。反之,越靠近0,表明保留的就越少。記憶門的工作過程可用圖14-6表示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-6 遺忘門邏輯設計

輸入門的作用在於,它決定了當前時刻的輸入信息xt,以多大程度添加至記憶信息流中,它的計算公式幾乎和遺忘門完全一致(除了下標和標識不同外),激活函數σ也使用sigmoid,如公式(14-3)所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

由於和遺忘門功能類似,因此它們的示意圖也是類似的,結合遺忘門在一起,如圖14-7所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-7 輸入門邏輯設計

14.5.3 候選門

候選門它可視為一個「勾兌門」,它主要負責「勾兌」當前輸入信息和過去記憶信息,也就是候選門負責計算當前輸入的單元狀態 ,如公式(14-4)所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

在這裡激活函數換成了tanh,它可以把輸出值規整到-1和1之間。示意圖如圖14-8所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-8 計算LSTM的內部的候選門

接下來,我們需要把記憶體中的狀態從Ct?1更新到Ct。記憶的更新可由兩部分組成:(1) 通過遺忘門過濾掉不想保留得部分記憶,大小可記為:ft×Ct?1;(2)添加當前新增的信息,添加的比例由輸入門控制,大小可記為:it×C′t。然後將這兩個部分線性組合,得到更新後的記憶信息Ct,如公式(14-5)所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-9為輸入門與候選門的組合示意圖。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖14-9 輸入門與候選門的組合示意圖

現在,我們來小結一下遺忘門和輸入門的作用。由於遺忘門的存在,它可以控制保存多久之前的信息。由於輸入門的存在,它又可以避免當前無關緊要的內容進入到記憶當中。這樣一來,該忘記的把它遺忘,該記住的把它記牢,二者相得益彰。

14.5.4 輸出門

內部的記憶狀態更新完畢之後,下面就要決定是不是輸出了。輸出門的作用在於,它控制著有多少記憶可以用於下一層網路的更新中。輸出門的計算可用公式(14-6)表示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

這裡激活函數依然是用sigmoid。通過前面的介紹可知,sigmoid會把 Ot規則化為一個0到1之間權重值。

有道是,「話不能說得太滿,滿了,難以圓通;調不能定得太高,高了,難以合聲」。這裡的輸出,也需要「悠著點」,不能太「任性」的輸出,因此還要用激活函數tanh把記憶值變換一下,將其變換為-1至+1之間的數。負值區間表示不但不能輸出,還得壓制一點,正數區間表示合理的輸出。這樣有張有弛,方得始終。最終輸出門的公式如(14-7)所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

最後,結合前面的門路設計,完整的記憶神經元如圖14-10所示。

LSTM長短記,長序依賴可追憶(深度學習入門系列之十四)

圖 14-10 LSTM隱層單元的完整邏輯設計

到此為止,我們剖析了LSTM網路的標準設計流程。但請注意,這並不是唯一的設計方式。事實上,很多文獻都會對標準的設計流程有所變更。比如說,Chung等人提出的門控循環單元(Gated Recurrent Unit, GRU)[10]就是其中的佼佼者。GRU在LSTM的基礎上進行了簡化,它主要做了連個方面的改造:(1)提出了更新門的概念,也就是把輸入門和遺忘門合併。(2)把記憶單元Ct和隱層單元st實施了統一。模型的簡化,就意味運算上的簡化,調參上的便捷。特別是在訓練數據很大的情況下,GRU能節省更多時間,從而更能為用戶所接受。

14.6 LSTM訓練

前面我們花了大量的篇幅討論了LSTM的結構,實際上只是討論了它的前向傳播工作原理,事實上,我們還缺一個LSTM訓練演算法框架,來調整網路參數。LSTM的參數訓練演算法,依然是我們熟悉的反向傳播演算法。對於這類反向傳播演算法,它們遵循的流程都是類似,簡單說來,主要有如下三個步驟:

(1)前向計算每個神經元的輸出值。對於LSTM而言,依據前面介紹的流程,按部就班地分別計算出ft,it,ct,ot和st。

(2)確定優化目標函數。在訓練早期,輸出值和預期值會不一致,於是可計算每個神經元的誤差項值,藉此構造出損失函數。

(3)根據損失函數的梯度指引,更新網路權值參數。與傳統RNN類似,LSTM誤差項的反向傳播包括兩個層面:一個是空間上層面的,將誤差項向網路的上一層傳播。另一個是時間層面上的,沿時間反向傳播,即從當前t時刻開始,計算每個時刻的誤差。

然後跳轉第(1)步,重新做(1)、(2)和(3)步,直至網路誤差小於給定值。

這裡,限於篇幅,我們沒有給出詳細的求導過程,感興趣的讀者,推薦閱讀胡伯的開創新性論文[1]和兩篇非常優秀的英文博客 [11](國內大部分介紹LSTM的網路文章,都或多或少第借鑒了這篇經典博客)和[12](裡面有詳細的LSTM的前向和後向傳播的詳細推導過程)。

14.7 小結與思考

現在,我們小結一下本章主要內容。由於傳統的RNN存在梯度彌散問題或梯度爆炸問題,導致第一代RNN基本上很難把層數提上去,因此其表徵能力也非常有限,應用上性能也有所欠缺。於是,胡伯提出了LSTM,通過改造神經元,添加了遺忘門、輸入門和輸出門等結構,讓梯度能夠長時間的在路徑上流動,從而有效提升深度RNN的性能。

通過本章的學習,請你思考如下問題:

(1)LSTM是如何避免梯度彌散的?它都使用了那些手段?

(2)根據「無免費午餐原理(No free lunch theorem)」,在任何一個方面的性能提升,都是以犧牲另一個方面性能為代價的,請問LSTM付出的代價(或者說缺點)又是什麼?

14.8 致謝

由於工作較為繁忙,加之每篇博客都耗時不菲,從構思、查閱資料、撰寫和繪圖,每一篇文章都得花上好幾天。因此,關於深度學習的入門系列,到本章為止,暫時不再更新(或者說第一季結束)。感謝讀者朋友這幾個月的捧場閱讀。

博客能寫到14章,首先要感謝雲棲社區的支持,特別是阿里雲張勇老師的關照(花名:身行;網名:我是主題曲哥哥),感謝他「容忍」我天馬行空的寫作風格。自然,也得感謝很多論文和網路資源的提供者,沒有你們的先行探路,這個系列博客我也是寫不出來的。

這個系列博客文章會集結成書,原因是博客文章有如下三個不足,暫時沒有辦法彌補。

(1)博客內淺嘗輒止。為了迎合讀者的碎片化閱讀習慣,每篇博客都儘可能精簡。讀者看到每篇博客,基本上都是原文的閹割版。比如說,很多公式就難以給出詳細推導過程。

(2)博客範圍覆蓋不全。雖然更新到第14篇,但深度學習博大精深,很多內容還沒有涉及。比如說,Dropout、深度信念網路、生成對抗網路等有價值的內容都沒有講。

(3)博客沒有實戰環節。目前博客文章僅涉及理論入門,實戰環節(如Theano、Caffe及TensorFlow等)一概沒有提及。

其實,還有第4個原因,有點私心吧。那就是,出書多少能掙點稿費,以補貼我付出的時間和精力。如果讀者認可我的工作並手頭寬裕的話,希望你到時能賞光買一本。

書名暫定:《品味深度學習》。如果你有更好的題目,不妨給個建議。

出版社:暫時未定。

出版時間:爭取2017年內。

參考文獻

[1] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735.

[2] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436-444.

[3] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014:2672-2680.

[4] Schmidhuber J. Learning Factorial Codes by Predictability Minimization[J]. Neural Computation, 1992, 4(6):863-879.

[5] Liwicki, Fernandez, Bertolami, et al. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition[J]. Physics Letters B, 2008, 450(4):332-338.

[6] Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

[7] Wu Y, Schuster M, Chen Z, et al. Google"s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. 2016.

[8] Smith, Chris (2016-06-13). "iOS 10: Siri now works in third-party apps, comes with extra AI features". BGR. Retrieved 2017-06-27.

[9] 黃安埠. 深入淺出深度學習.中國工信出版社.2017.6

[10] Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

[11] Colah. Understanding LSTM Networks,2015

[12] Arun. LSTM Forward and Backward Pass

文章作者:張玉宏(著有《品味大數據》一書),審校:我是主題曲哥哥。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲棲社區 的精彩文章:

阿里雲首席安全科學家吳翰清的思考:彈性安全網路,構建下一代安
阿里Q1財報:雲計算付費用戶首超100萬
阿里科學家王剛、吳翰清同時入選MIT2017年度TR35
阿里雲新一代關係型資料庫 PolarDB 剖析
人工智慧助力阿里雲售後服務

TAG:雲棲社區 |

您可能感興趣

六一 追憶VOVA VIKA
theMSLAN,左眼追憶過去,右眼凝望未來
《無主之地》追憶:世界上最好的FPS與RPG遊戲
清明節,追憶IBM Client Center尋訪
熱血武俠MMORPG遊戲排名 追憶那段情懷歲月
慈學長老尼:追憶凈慧長老
中國最偉大的歌手排名,張學友第二周杰倫第三,第一隻能追憶了!
此情可待成追憶(四)
RAZR系列摺疊屏手機功能曝光:副屏操作追憶當年
RNG戰隊AD小狗合成軍團盾致敬微笑 追憶那些年曾經的世界第一AD
DNF:春節副本獎勵有貓膩,強行追憶天空!
大前鋒,NBA時代變遷的縮影,追憶NBA有哪些偉大的大前鋒!
楊千嬅「My Beautiful Live」成年度爆款 北京站要追憶「志明與春嬌」相遇十年
JIMMY CHOO 2018秋冬女士系列 追憶黃金年代
POW公司追憶斯坦李!兩部漫改作品獲奧斯卡認可!
SHINee鍾鉉逝世一周年!IU獻唱好友自創曲《憂鬱時鐘》追憶!
皇馬公布最新全家福!C羅的微笑已成追憶,法國學霸升任第4隊長
《漫威蜘蛛俠》DLC追憶斯坦李 感人字幕充滿淚點
追憶浩南哥的豐田MR2,三代戈然而止
《漫威蜘蛛俠》DLC追憶斯坦李 感人字幕戳淚點