你真的會正確地調試TensorFlow代碼嗎？

知識 03-14

選自towardsdatascience

作者：Galina Olejnik

機器之心編譯

參與：李詩萌、Chita

到底是選 TensorFlow 還是 PyTorch？蘿蔔青菜各有所愛。雖然很多人吐槽 TensorFlow 框架的複雜以及調試代碼的痛苦，但選擇 TensorFlow 人還是很多。大概，這就是真愛吧！本文作者通過對 TensorFlow 代碼進行百般調戲，哦調試，總結了一套讓你感覺不那麼痛苦的調試方法，趁熱圍觀吧

當談到在 TensorFlow 上寫代碼時，我們總會將它和 PyTorch 進行對比，然後討論 TensorFlow 框架是多麼的複雜以及 tf.contrib 的某些部分為什麼那麼糟糕。此外，我還認識許多數據科學家，他們只用預先寫好的、可以克隆的 GitHub 庫和 TensorFlow 交互，然後成功使用它們。對 TensorFlow 框架持有這種態度的原因各不相同，想要說清楚的話恐怕還得另外寫個長篇，現在我們要關注的是更實際的問題：調試用 TensorFlow 寫的代碼，並理解其主要特性。

核心概念

計算圖。計算圖 tf.Graph 讓框架能夠處理惰性求值範式（不是 eager execution，一種命令式編程環境）。基本上，這種方法允許程序員創建 tf.Tensor(邊) 和 tf.Operation（節點），但它們不會立刻進行運算，只有在執行圖時才會計算。這種構建機器學習模型的方法在許多框架中都很常見（例如，Apache Spark 中就用了類似的想法），這種方法也有不同的優缺點，這些優缺點在編寫和運行代碼時都很明顯。最主要也是最重要的優點是，數據流圖可以在不明確使用 multiprocessing 模塊的情況下，實現並行和分散式執行。實際上，寫得好的 TensorFlow 模型無需任何額外配置，一啟動就可以調用所有核的資源。

但這個工作流程有個非常明顯的缺點：只要你在構建圖時沒提供任何輸入來運行這個圖，你就無法判斷它是否會崩潰。而它很有可能會崩潰。此外，除非你已經執行了這個圖，否則你也無法估計它的運行時間。

計算圖的主要組成部分是圖集合和圖結構。嚴格地說，圖結構是之前討論過的節點和邊的特定集合，而圖集合則是變數的集合，可以根據邏輯對這些變數進行分組。例如，檢索圖的可訓練變數的常用方法是：tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES)。

會話。它與計算圖高度相關，但解釋起來卻要更複雜一些：TensorFlow 會話 tf.Session 是用來連接客戶端程序和 C 運行時的（記住，TensorFlow 是用 C 寫的）。為什麼是 C 呢？因為通過這種語言實現的數學運算很好優化，因此計算圖運算可以得到很好的處理。

如果你用的是低級 TensorFlow API（大多數 Python 開發人員使用的都是），那 TensorFlow 會話將會作為上下文管理器調用：使用 with tf.Session() as sess: 句法。如果傳遞給構造函數的會話沒有參數，那麼就只會使用本地機器的資源和默認的 TensorFlow 圖，但它也可以通過分散式 TensorFlow 運行時使用遠程設備。事實上，沒有會話，圖就不能存在（圖沒有會話就無法執行），而且會話一般都有一個指向全局圖的指針。

更深入地研究運行會話的細節，值得注意的要點是它的句法：tf.Session.run()。它可以將張量、運算或類似張量的對象作為參數（或參數列表）提取。此外，feed_dict（這個可選參數是 tf.placeholder 對象到其值的映射）可以和一組選項一起傳遞。

可能遇到的問題及其解決方案

通過預訓練模型載入會話並進行預測。這是一個瓶頸，我花了好幾周來理解、調試和修改這個問題。我高度關注這個問題，並提出了兩個重新載入和使用預訓練模型（圖和會話）的技巧。

首先，我們談到載入模型時我們真正的意思是什麼？當然，為了實現這一點，我們需要先訓練和保存模型。後者一般是通過 tf.train.Saver.save 功能實現的，因此，我們有三個二進位文件，它們的擴展名分別是 .index，.m*e*ta 和 .data-00000-of-00001，這其中包含了還原會話和圖所需的所有數據。

這種行為看似沒什麼問題（只要這兩個張量是權重，且它們是用框架處理而非手動創建的），但是事實上，在許多情況下都並非如此。該方法的主要問題是當你看圖的集合時，你也會看到一大堆來源不明的變數，實際上你並不知道應該把什麼保存下來，也不知道應該從哪載入它。坦率地講，將隱變數放在圖中正確的位置並恰當地操作是很難的。這比你本身的需求還要難。

在沒有任何警告的情況下創建了兩個名字相同的張量（通過自動添加_index結尾）。我認為這個問題並不像前面那個那麼重要，但它造成的大量圖運算錯誤問題也確實給我帶來了困擾。為了更好地解釋這個問題，我們來看個例子。

例如，你用 tf.get_variable(name=』char_embeddings『, dtype=…) 創建了張量，然後將它保存下來，並在新的會話中載入它。你忘了這個變數是可訓練的，然後通過 tf.get_variable() 又以同樣的方式創建了一次。在圖執行期間，會報這樣的錯：FailedPreconditionError (see above for traceback): Attempting to use uninitialized value char_embeddings_2。發生這個錯誤的原因是，你已經創建了一個空變數但沒有把它放在模型中合適的地方，而只要它在圖中，就可以進行傳輸。

你可能沒見過開發人員因為創建了兩個名字相同的張量（即便是 Windows 也會這麼做）而引發任何錯誤或警告。也許這一點只是對我而言很重要，但這是 TensorFlow 的特點，而且是我很不喜歡的一點。

在寫單元測試還有一些其他問題時要手動重置圖形。由於一些原因，很難測試用 TensorFlow 寫的代碼。第一個——也是最明顯的一點在本段開頭已經提到了，這聽起來可能很傻，但對我來說，它太令人惱火了。舉個例子，由於在運行時訪問的所有模塊的所有張量只有一個默認的 tensorflow 圖，因此無法在不重置圖的情況下用不同的參數測試相同的功能。雖然 tf.reset_default_graph() 寫成代碼只有一行，但是它要寫在大多數方法的頂部，這個解決方法變成了重複性的工作，即明顯的複製代碼。我沒發現任何可以解決這個問題的方法（除了使用範圍的 reuse 參數，這個會在後面討論），只要將所有張量鏈接到默認圖即可，但是沒有方法可以將它們分隔開（當然，每種方法都可以用單獨的 TensorFlow 圖，但在我看來，它們都不是最佳實現）。

關於 TensorFlow 代碼的單元測試問題也讓我困擾已久：當不需要執行構建圖的一部分（因為模型尚未訓練所以其中有未初始化的張量）時，我不知道應該測試些什麼。我的意思是 self.assertEqual() 的參數不清楚（我們是否要測試輸出張量的名字或形狀？如果形狀是 None 呢？如果僅憑張量名稱或形狀無法推斷代碼是否運行良好呢？）。就我個人而言，我只是簡單地測試了張量的名稱、形狀和維度，但我確信，在一些沒有執行圖的情況中，只檢查這部分功能並不合理。

令人困惑的張量名稱。許多人可能認為這樣評價 TensorFlow 的性能不太好，但有時沒人說得出來在執行某些操作後得到的張量名稱是什麼。舉個例子，你知道 bidirectional_rnn/bw/bw/while/Exit_4:0 是什麼意思嗎？對我來說，這簡直莫名其妙。我知道這個張量是對動態雙向 RNN 的後向單元進行某種運算得到的結果，但如果沒有明確地調試代碼，你就無法得知到底是按什麼樣的順序執行了什麼樣的運算。此外，索引的結尾也令人無法理解，如果想知道數字 4 來自哪裡，你得閱讀 TensorFlow 文檔並深入研究計算圖。

對前面討論過的「隱」變數來說，情況也是一樣的：為什麼我們會有 bias 和 kernel 的名稱呢？也許這是我的資歷和技術水平問題，但對我來說這樣的調試情況是很不自然的。

tf.AUTO_REUSU 是可訓練變數，可以重新編譯庫和其他不好的東西。這部分的最後一點是簡要介紹我通過錯誤和嘗試方法學到的一些小細節。首先是範圍的參數 reuse=tf.AUTO_REUSE，它允許自動處理已經創建的變數，如果這些變數已經存在的話就不會進行二次創建。事實上，在許多情況下，它都可以解決本段提出的第二個問題。但在實際情況中，只有當開發人員知道代碼的某些部分需要運行兩次或兩次以上時，才應該謹慎地使用這一參數。

第二點是關於可訓練變數，這裡最重要的點是：默認情況下所有張量都是可訓練的。有時候你可能不需要對其進行訓練，而且很容易會忘記它們都可以訓練。這一點有時令人頭疼。

第三點只是一個優化技巧，我建議每個人都這麼做：幾乎在所有情況下，當你使用通過 pip 安裝的軟體包時，會收到如下警告：Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2。如果看到這類信息，最好卸載 TensorFlow，再根據你需要的選項通過 bazel 重新編譯它。這樣做的主要好處是可以提升計算速度，而且可以更好地提高框架的總體性能。

總結

希望本文能夠幫助那些首次開發 TensorFlow 模型的數據科學家。他們可能正掙扎於框架的某些部分，這些部分很難理解而且調試起來很複雜。我想說的是，不要擔心在使用這個庫時犯很多錯誤（也別擔心其他的），只要提出問題，深入研究官方文檔，調試出錯的代碼就可以了。

這些與跳舞或者游泳一樣，都需要熟能生巧，我希望能夠讓這種練習變得更愉快也更有趣一些。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※超火GitHub項目！一夜獲得5000星，竟是微軟開源的計算器
※不用批歸一化也能訓練萬層ResNet，新型初始化方法Fixup了解一下

TAG:機器之心 |