當前位置:
首頁 > 知識 > 使用PyTorch從零開始構建Elman循環神經網路

使用PyTorch從零開始構建Elman循環神經網路

摘要: 循環神經網路是如何工作的?如何構建一個Elman循環神經網路?在這裡,教你手把手創建一個Elman循環神經網路進行簡單的序列預測。

本文以最簡單的RNNs模型為例:Elman循環神經網路,講述循環神經網路的工作原理,即便是你沒有太多循環神經網路(RNNs)的基礎知識,也可以很容易的理解。為了讓你更好的理解RNNs,我們使用Pytorch張量包和autograd庫從頭開始構建Elman循環神經網路。該文中完整代碼在Github上是可實現的。

在這裡,假設你對前饋神經網路略有了解。Pytorch和autograd庫更為詳細的內容請查看我的其他教程。

Elman循環神經網路

Jeff Elman首次提出了Elman循環神經網路,並發表在論文《Finding structure in time》中:它只是一個三層前饋神經網路,輸入層由一個輸入神經元x1和一組上下文神經元單元{c1... cn}組成。隱藏層前一時間步的神經元作為上下文神經元的輸入,在隱藏層中每個神經元都有一個上下文神經元。由於前一時間步的狀態作為輸入的一部分,因此我們可以說,Elman循環神經網路擁有一定的內存——上下文神經元代表一個內存。

預測正弦波

現在,我們來訓練RNNs學習正弦函數。在訓練過程中,一次只為模型提供一個數據,這就是為什麼我們只需要一個輸入神經元x1,並且我們希望在下一時間步預測該值。輸入序列x由20個數據組成,並且目標序列與輸入序列相同。

模型實現

首先導入包。

接下來,設置模型的超參數。設置輸入層的大小為7(6個上下文神經元和1個輸入神經元),seq_length用來定義輸入和目標序列的長度。

生成訓練數據:x是輸入序列,y是目標序列。

創建兩個權重矩陣。大小為(input_size,hidden_size)的矩陣w1用於隱藏連接的輸入,大小為(hidden_size,output_size)的矩陣w2用於隱藏連接的輸出。用零均值的正態分布對權重矩陣進行初始化。

定義forward方法,其參數為input向量、context_state向量和兩個權重矩陣,連接input和context_state創建xh向量。對xh向量和權重矩陣w1執行點積運算,然後用tanh函數作為非線性函數,在RNNs中tanh比sigmoid效果要好。然後對新的context_state和權重矩陣w2再次執行點積運算。我們想要預測連續值,因此這個階段不使用任何非線性。

請注意,context_state向量將在下一時間步填充上下文神經元。這就是為什麼我們要返回context_state向量和out。

訓練

訓練循環的結構如下:

1.外循環遍歷每個epoch。epoch被定義為所有的訓練數據全部通過訓練網路一次。在每個epoch開始時,將context_state向量初始化為。

2.內部循環遍歷序列中的每個元素。執行forward方法進行正向傳遞,該方法返回pred和context_state,將用於下一個時間步。然後計算均方誤差(MSE)用於預測連續值。執行backward()方法計算梯度,然後更新權重w1和w2。每次迭代中調用zero_()方法清除梯度,否則梯度將會累計起來。最後將context_state向量包裝放到新變數中,以將其與歷史值分離開來。

訓練期間產生的輸出顯示了每個epoch的損失是如何減少的,這是一個好的衡量方式。損失的逐漸減少則意味著我們的模型正在學習。

預測

一旦模型訓練完畢,我們就可以進行預測。在序列的每一步我們只為模型提供一個數據,並要求模型在下一個步預測一個值。

預測結果如下圖所示:黃色圓點表示預測值,藍色圓點表示實際值,二者基本吻合,因此模型的預測效果非常好。

結論

在這裡,我們使用了Pytorch從零開始構建一個基本的RNNs模型,並且學習了如何將RNNs應用於簡單的序列預測問題。

原文:https://www.cpuheater.com/deep-learning/introduction-to-recurrent-neural-networks-in-pytorch/?spm=a2c4e.11153959.blogcont573311.12.75d2668ccjJf5x

-馬上學習AI挑戰百萬年薪-


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI講堂 的精彩文章:

「AI養豬」成新寵,多家AI公司研發「豬臉識別系統」!
2018年區塊鏈技術薪資已高達哦00萬年薪!

TAG:AI講堂 |