擁抱深度學習還是數學的優雅？神經網路對圖像處理、數學和人類的影響

新聞 05-10

新智元編譯

擁抱深度學習還是數學的優雅？神經網路對圖像處理、數學和人類的影響

（文／Michael Elad）我真的很迷茫，每天都在改變自己的看法，似乎對這個難題就是拿不出一個堅定的主意。不不不，我不是在說國際政治或現任美國總統，我說的是對全人類更重要的一件事，具體說，是事關我們這些工程師和研究人員生死存亡的事。我說的……是深度學習。

雖然你可能覺得上面的話說得過於誇張，但深度學習確實帶來了一些我們不得不去解決的重要問題。下面我將具體講一下這個跟這個領域相關的一個關鍵問題，與圖像處理領域的研究人員相關。

深度學習：先遭唾棄，再突然殺一個回馬槍

首先，讓我們先簡單對深度學習做個定義。神經網路已經存在了數十年，提出了一種通用的學習機制，原則上可以適用於任何能夠被學習的數據源。在神經網路的前饋架構中，感知機層（也被稱為神經元）首先對輸入進行加權平均，接下來非線性的運算，例如 sigmoid 或整流線性曲線（rectified-linear curves）。你可以訓練這個簡單到令人驚訝的系統，將給定輸入數據集和期望的輸出匹配起來，從而解決各種監督的回歸和分類問題。

所有這一切聽起來都很棒，但不幸的是，神經網路這個概念在 20 世紀 80 年代和 90 年代沒有火起來——在當時，神經網路的性能根本沒有什麼競爭力。另外，用於學習任務的支持向量機（SVM）的出現，伴隨著堅實的理論基礎和凸優化方法，似乎為「神經網路無用」一說蓋棺定論。最終，神經網路進入了很長的冬眠期。只有少數堅持不懈的研究人員——Yann LeCun（紐約大學和 Facebook）、Geoffrey Hinton（多倫多大學）、Yoshua Bengio（蒙特利爾大學）和 Jürgen Schmidhuber（Dalle Molle 人工智慧研究所）——還留在這個舞台上，持續不斷地試圖說服眾人這個看似註定失敗的方法實際上能做得更好。他們的努力產生了一些重要的結果，比如卷積神經網路（CNN）和長短期記憶網路（LSTM）架構。但是，他們還是少數派。然後，神經網路突然殺了個回馬槍，為這些人出了一口大氣。

21 世紀初期的一系列論文表明了神經網路這種架構的成功應用，並在幾乎所有任務中都取得了最好的結果。這些貢獻的關鍵內容包括：使用許多層網路，這也是「深度學習」這個術語的由來；大量的訓練數據；大規模的計算，通常在計算機集群或 GPU 上運行；以及採用有效初始化和隨機梯度下降學習這些明智的優化演算法。但不幸的是，所有這些偉大的實際成就都幾乎沒有理論或基本範式的理解。此外，從理論上看，在學習過程中所採用的優化方法是高度非凸（highly non-convex）和難解的（intractable）。

神經網路的成功應用始於手寫數字的識別（參見圖1），慢慢地但十分謹慎地轉向更具挑戰性的視覺、語音識別和自然語言處理任務，自此以後，幾乎所有可以作為監督學習的任務都見得到神經網路的身影。像谷歌、Facebook 和微軟這樣的公司很快就意識到了這一領域的潛力，投入了大量的人力和財力去掌握這些工具並探索其在產品中的應用潛力。在學術方面，信號處理、圖像處理和計算機視覺相關會議已經成為深度學習的主場，使用這種方法的工作越來越多。

擁抱深度學習還是數學的優雅？神經網路對圖像處理、數學和人類的影響

圖1：神經網路表現出了巨大的潛力，首先是在人物識別領域，隨後還有許多其他任務上也表現優異。圖片來源：Michael Elad。

深度學習在圖像處理領域大放異彩，但我們該感到高興嗎？

好，到了今天。為了簡潔起見，我用經典圖像處理任務 ——圖像去噪（參見圖2）為例。這些年來，關於這個基本任務，研究人員撰寫了數千篇論文。其中，有利用偏微分方程，比如各向異性擴散（anisotropic diffusion）和全變差（total variation）的，有用能量最小化觀點（energy minimization viewpoint）的，有從幾何學出發將圖像看做多維度空間的，還有使用 Beltrami 流等，開發出了各種美麗而深刻的數學思想。諧波分析和近似理論也被用於去噪任務，帶來了小波理論（wavelet theory）和稀疏表徵（sparse representation）的重大突破。其他絕妙的想法還包括低階近似、非局部均值（non-local means）、貝葉斯估計和穩健統計（robust statistics）。也正是由此，我們在過去 30 年中獲得了豐富的圖像處理知識，影響了許多其他圖像處理任務，並且在有切實數學依據的前提下有效推進了這一領域的發展。

擁抱深度學習還是數學的優雅？神經網路對圖像處理、數學和人類的影響

圖2.圖像去噪示例。左邊是原始圖像。中間是圖像增加了 STD=100 的高斯雜訊污染。右邊由最領先的一種演算法——BM3D [1] 實現的去噪結果。來源：Michael Elad

2012 年， Harold Burger、Christian Schuler 和Stefan Harmeling 決定用深度學習處理這個問題。這個想法在概念上非常簡單：拿一個大規模乾淨的圖像數據集，添加合成雜訊，然後將它們饋送到學習過程中，目的是將有噪音的圖像轉換為無噪的版本。雖然過程乏味，無奈又冗長——調參讓性能提高可能花去了很長的時間——最終的結果卻是一個在當時比任何已知的圖像去噪演算法性能都好的網路。

這樣的例子不止一個。今天，深度學習可以處理許多其他圖像處理任務，而且都能實現無與倫比的效果，包括單一圖像超解析度、去馬賽克、去模糊、分割、生成圖說和人臉識別等等。

我們應該對這個趨勢感到高興嗎？如果我們是做商業應用的，要解決諸如圖像去噪等實際問題，答案當然是肯定的。對吧？因此，尋求這樣一個解決方案的公司應該滿意了。但是，科學家呢？我們投身於解決圖像去噪問題的巨大努力背後的真正目標是什麼？是的，我們是要找到有效的去噪演算法，但這是我們動機的一小部分，因為我們有更多更深入的事情要做。圖像領域的研究人員旨在了解我們處理的數據的本質。這是通過對信息建模實現的，而建模是為了破解圖像數據真正的維度和其呈現的現象（true dimensionality and manifested phenomena）。這樣的模型可以用於圖像降噪，也可以用於其他的圖像處理任務。但最重要的是，這樣的模型能夠讓我們發現從數據中提取知識的新方法，並拓展我們的視野。

To 深度學習 or Not to 深度學習，這是一個問題

那麼，回到本文的主題：我們應該對基於深度學習的新興解決方案感到高興嗎？我們應不應該感到沮喪或無奈？深度學習在成像科學的作用是什麼？圖像領域的研究人員在會議中遇到這些問題時，答案多種多樣，令人困惑。

事實勝於雄辯：大多數情況下，基於深度學習的解決方案缺乏數學的優雅，對找到解決方案或對理解基礎現象基本沒有提供什麼信息。然而，好的一面是獲得的成果確實是非常棒的。這顯然不是我們在學校學的那套研究方法，也不是我們想做的那種科學。我們該不該堅守更嚴謹的方式，即使在最終的結果上落後於人？或者我們該不該反擊，尋求將深度學習融入我們更堅實基礎的方法？

使問題進一步複雜化的是，不得不說，一些基於深度學習的成功方法確實帶有一些優雅。風格遷移就是這樣一個例子，比如谷歌的 Deep Dream 項目，其結果令人驚艷，技術思路也十分巧妙。幾年前，我們完全沒有想到如何處理這樣複雜的任務；現在這個問題很好地被解決了，而且還是被為了完全無關的視覺分類任務而訓練的深度神經網路順便解決的。

從我個人的角度來看，圖像處理研究人員對最近這種趨勢——深度學習不斷侵蝕自己的研究領域——感到既厭惡又羨慕。我們中的一些人現在已經選擇暫時成為旁觀者，而另外一些人則會相互協調和轉移他們的研究議程。我屬於後者，但有一些限制。在我看來，深度學習這股巨浪不可能不對圖像領域產生影響。因此，我願意讓深度學習影響我的研究團隊的想法和行動。但是，我們繼續堅守尋求數學上的優雅，清楚地了解我們想法的原理。至於這個選擇是否正確，就由時間去判斷吧。

再稍微呼應一下前文，深度學習將對人類產生巨大的影響，人類生活在未來幾十年可能會有很大的不同。人型機器人和智能系統可能隨處可見並影響到我們日常生活中的許多活動，招聘和就業也可能成為過去，人與人之間的關係可能會急劇變化。坦白說，你的孫子很可能有一個機器人配偶。而最重要的是：這一奇怪的未來背後的大部分技術很可能來自於深度學習及其衍生領域。

雖然深度學習這項技術進步很快，但我們並沒有停止思考，這是不是我們想要的未來。工程師和研究人員的好奇心和巨大的才能正推動著我們走向未來，正如企業以盈利為主要目的。為什麼我們很少參與到有關規範或控制這一進展的討論，並引導它走向一個我們所期望的未來？那這就是另一篇文章要討論的話題了。

（感謝 Alex Bronstein 和 Ron Kimmel 對本文的寶貴意見。）

原文地址：https://sinews.siam.org/Details-Page/deep-deep-trouble-4

新智元招聘

職位：客戶經理

職位年薪：12 - 25萬（工資+獎金）

工作地點：北京-海淀區

所屬部門：客戶部

彙報對象：客戶總監

工作年限：3 年

語言：英語 + 普通話

學歷要求：全日制統招本科