面嚮應用的深度神經網路圖說

最新 03-03

應用驅動：人工智慧與城市/建築

吳志強討論了人工智慧影響下的城市規劃學科的未來。尼爾?里奇指出未來城市變革的最大推動因素是那些已經使其他行業出現巨大變革的信息系統；目前需要被設計的是一套為建築學而設的，基於信息的全新工作方法。袁烽從建築「可視化」與「物質化」的角度探討建築學走向虛擬與現實的共生狀態——「數字孿生」的可能性。麥克 · 巴迪討論了城市規劃與設計領域的人工智慧。格哈德 · 施密特討論了人工智慧為建築與城市設計帶來的第二次變革的機會。何宛余從對新設計途徑的探索中思考關聯式設計、演算法設計的可行性與局限性。張硯和肯特 · 藍森分析了MIT媒體實驗室的CityScope，指出這是一個為了讓專家和非專家都能參與到易用的、協作的、循訊的城市決策過程中來的動態的、證據輔佐的城市決策輔助系統。孫澄宇、周沫凡、胡葦從建築實踐與研究中經常遇到的數據類型與問題類型出發，討論其輸入與輸出的數據描述，以及基本的網路模型架構選擇原理。李麟學、葉心成、王軼群認為環境智能建築作為一種環境媒介，通過數據、控制論與人工智慧的介入，實現性能和形式的協同。甘欣悅、佘天唯、龍瀛基於街景圖片數據，通過將人工打分與機器學習結合，試圖建立城市非正規性這一非物質環境要素在街道中的空間表徵識別與評價方法體系。

本期主題文章

[1] 吳志強. 人工智慧輔助城市規劃 [J]. 時代建築，2018（1）：6-11.

[2] [英] 尼爾·里奇. 信息城市 [J]. 吳彥，譯. 孫澄宇，校. 時代建築，2018（1）：6-11.

[3] 袁烽，柴華 . 數字孿生：關於2017年上海「數字未來」活動「可視化」與「物質化」主題的討論 [J]. 時代建築，2018（1）：17-23.

[4] [英] 麥克·巴迪. 城市規劃與設計中的人工智慧 [J]. 沈堯，譯. 時代建築，2018（1）：24-31.

[5] [德] 格哈德·施密特. 人工智慧在建築與城市設計中的第二次機會 [J]. 徐蜀辰，苗彧凡，譯. 孫澄宇，校. 時代建築，2018（1）：6-11.

[6] 何宛余，楊小荻 . 人工智慧設計，從研究到實踐 [J]. 時代建築，2018（1）：38-43.

[7] 張硯，[美] 肯特·藍森.CityScope——可觸交互界面、增強現實以及人工智慧於城市決策平台之運用 [J]. 時代建築，2018（1）：44-49.

[8] 孫澄宇，周沫凡，胡葦. 面嚮應用的深度神經網路圖說 [J]. 時代建築，2018（1）：50-55.

[9] 李麟學，葉心成，王軼群. 環境智能建築 [J]. 時代建築，2018（1）：56-61.

[10] 甘欣悅，佘天唯，龍瀛. 街道建成環境中的城市非正規性：基於北京老城街景圖片的人工打分與機器學習相結合的識別探索 [J]. 時代建築，2018（1）：62-68.

面嚮應用的深度神經網路圖說

Diagrams of Deep Neural Networks for Architectural Application

孫澄宇周沫凡胡葦

SUN Chengyu, ZHOU Mofan, HU Wei

Abstract

隨著計算機硬體能力與軟體演算法的發展，帶有大量隱藏層的深度神經網路技術取得了突破性的進展，它對非線性問題的處理能力，使得其在各行各業都有極為廣闊的應用前景。它作為計算機科學的一個前沿領域，爆炸式地發展出了大量具有不同應用指向的分支，對於廣大建築師而言顯然是陌生的。文章立足國際主流深度神經網路的研究成果，以建築師的應用視角，即以建築實踐與研究中經常遇到的數據類型與問題類型出發，介紹了其輸入與輸出的數據描述，以及基本的網路模型架構選擇原理。

在線閱讀

1 從「警覺」到「應用」

2016年3月，谷歌的「深度思考」（Deep Mind）團隊發布了首個基於深度神經網路的圍棋程序「阿爾法圍棋」（AlphaGo），它內部兼有棋譜知識的學習網路與實戰過程的學習網路，在短短的一年多時間內橫掃了人類的頂尖棋手。而2017年10月18日谷歌又公布了它的繼任者「AlphaGoZero」，一個完全不需要任何棋譜，僅靠基本遊戲規則，自學成才的單網路圍棋程序，並以100：0的戰績擊敗了它的前任。

在見證了以深度神經網路為代表的人工智慧技術的爆炸式發展後，幾乎所有的行業都在討論自身是否會被未來的人工智慧所替代，可謂人人自危。《紐約客》雜誌更是在全球範圍內分析了365個行業在未來被人工智慧所替代的風險排名，建築師以極低的風險1.8%位於第361位。在長舒一口氣之餘，總是對新事物充滿好奇的建築師們不免要問，「深度神經網路技術到底是什麼？如果它真這麼『神』，我們在設計實踐或研究中是否也可以運用它？」

本文從建築師應用的視角，對深度神經網路的眾多分支與基本原理進行簡明扼要的介紹。這裡並不奢望在如此短的篇幅里把其中的數學機理闡述全面，而是僅從應用所需了解的基本知識入手，與建築師的常見需求對接，期望深度神經網路技術能夠在建築設計行業中為人所知、所用。

2 建築師需要關注的深度神經網路兩要素

看似神秘的深度神經網路（Deep Neural Network，DNN）是從早期的神經網路（Neural Network， NN）發展而來，是人工智慧領域的眾多機器學習（Machine Learning）技術中的一種。它的理論原型由神經生物學家沃倫·麥卡洛克（Warren S.Mcculloch）和數學家沃爾特·皮茨（Walth H.Pitt）於1943年合作提出[1]。簡單來講，一個神經網路（圖1左）由稱為神經元（圖中標有數字的圓圈）以及其間各種有向連接（圖中圓圈之間的連接箭頭）組成，類似於人類神經元的連接形式[2]。該網路結構從左到右除了兩端的輸入（X）層與輸出（Y）層外，中間一般只有1至2層的隱藏層。

當數據沿連接箭頭在兩層神經元中傳遞時，前層中任一個的值會乘以與本神經元之間的連接權重W，所有前層與本神經元之間的這些乘積之和再追加上本神經元的偏移b後，經歷一個激活函數，方才完成一次基本數值傳遞計算——所有的W與b共同構成了該網路的參數矩陣，而所謂的神經網路模型架構就包括：神經元的層數、各層神經元的數目、相互連接的關係、每層神經元所使用的激活函數類型。

近年來，隨著計算機圖形處理器GPU並行矩陣計算的大幅提速與降價，以及反向傳播演算法解決了大量參數矩陣的估算問題，隱藏層的層數有了大幅度增加或稱為「加深」（圖1右），故稱之為「深度神經網路」。

與早期神經網路一樣，深度神經網路也包含兩種運算狀態：訓練狀態（圖2左）與估值狀態（圖2右）。前者用一堆樣本數據來估算出網路內的參數矩陣，後者運用已經估算出的參數矩陣來處理新輸入的自變數X，以估算出符合樣本內在邏輯的因變數Y值。正是由於神經網路的這種獨特的兩階段「黑箱」工作方式，它與傳統「白箱」模型的使用者需要熟悉其計算公式不同，它的使用者根本不需要知道其內部的計算機制，而只需要了解其輸入與輸出的數據描述，以及其網路模型架構所適用的問題類型，這是建築師應用深度神經網路時需要關注的兩要素。

1. 早期的神經網路（左）與當前的深度神經網路（右）

2. 神經網路的訓練（左）與估值（右）

3 要素一：建築數據的DNN輸入與輸出描述

這裡主要介紹目前的深度神經網路技術，需要如何輸入或怎樣輸出建築實踐與研究中常見的類型信息、數量信息、圖像信息。

3.1類型信息與DNN中的標籤數據

在建築實踐或研究中存在大量的類型信息數據，例如描述建築形式的風格、建築構件的名稱等（圖3）。它們對於深度神經網路來說就屬於「標籤數據」，常用一種「單熱點一維矩陣」（one-hot vector）來描述，即矩陣內元素個數等於類型數目的一維數組，每一個元素對應一個類型。所指向類型的對應元素設為1，其餘設為0（圖4）。有時在輸出時，網路會為每個元素賦予0至1之間的某個值，其中最大的元素即指向所代表的類型（可以通過尋找最大元素來確定標籤的指代類型）。

3. 建築行業常見的類型信息

4. 類型信息在DNN中的one-hot vector標籤數據表達

3.2 數量信息與DNN中的標準化浮點數據

數量信息也是建築行業中普遍存在的一種數據形式，如：建築面積，環境性能的溫度、濕度、照度、人流量等（圖5）。它可能是離散的，或是連續的，取值範圍十分廣泛。它們對於深度神經網路來說，都是帶有小數點的「浮點數據」。

值得注意的是，由於神經網路內部的加權求和計算，對於不同輸入來源的自變數一般將其標準化（normalization）變換到[-1，1]或[0，1]區間，以利於網路訓練的收斂。同時，由於網路的訓練需要提供大量的樣本數據，如果提供的是連續數據源（如某個物理探測器採集的數據），那麼就需要對其進行某一密度的離散採樣，即最終輸入輸出的數量都是離散的標準化浮點數據。以圖5右圖為例，其連續數據將被離散採樣並標準化（圖6）後提供給神經網路。

5. 建築行業常見的數量信息

6. 上圖5右圖中數據的DNN標準化浮點數據表達

3.3 圖像信息與DNN中的矩陣數據

建築行業存在最為廣泛的恐怕要數圖像信息了，如：反映城市公共空間圖底關係的圖紙、建築性能分析的多色普圖、三維點雲，它們對於DNN來講就是多個維度的矩陣數據（圖7）。深度神經網路技術中，一般採取像素化採樣與還原的方法，把它們轉換成由大量標準化浮點數構成的多維矩陣數據（圖8）。與數量信息一樣，圖像中常見的RGB整數信息，其值域在0至255，一般也會被標準化為0至1的浮點數存入矩陣。

7. 建築行業常見的圖像信息（左上：城市機理分析圖；右上：實景照片圖；左下：點雲採集圖；右下：計算機生成圖）

8. 圖像信息的DNN矩陣表達

4 要素二：面向問題類型的DNN架構遴選

建築師在運用深度神經網路時，除了需要將手邊的信息描述成網路能夠接受的數據形式，還需要針對自己的具體問題類型，來遴選合適的網路架構。而遴選的第一步就是要對手邊可用的樣本數據規模進行一個判斷——當擁有大量樣本數據對X與Y（帶標籤數據「labeled data」）時，建議使用依靠數據的深度神經網路架構；而當樣本數量不足，且針對問題的行動策略有限時，建議使用依靠策略的深度神經網路架構。

4.1 依靠大量數據的DNN架構

當手邊有大量與問題相關的樣本數據對時，深度神經網路領域已經發展出了一批效果理想、工具成熟的應用解決方案。這裡，嘗試分別從常見的數據分類問題、回歸預測問題、特徵提取問題、綜合生成問題入手，介紹解決各類問題最為常用的DNN網路架構（雖然實際應用中存在一種網路架構應對多類問題的情況，但這裡針對問題類型介紹最為常用的網路架構）。它們都有自己獨特的演算法名稱，在常用的數學工具Matlab或神經網路工具Tensorflow中，都可以按這些名稱找到對應的工具包。用戶只需要將手頭的數據按前文中的描述提供給這些工具包，就可以充分享受到深度神經網路帶給我們的力量。

4.1.1 數據分類問題

給大量數據自動分類的問題（根據各種輸入值來產生輸出的標籤數據），在建築行業中普遍存在，比如通過現場採集，搜集了多組溫度、濕度、使用者體感舒適與否的數據，來嘗試判斷在今後某個特定濕度與溫度下，使用者是否會覺得舒適；又比如手頭收集了一大批建築案例照片，需要按照立面風格對它們進行整理歸檔。

（1）全連接神經網路

正如圖1右所示，「全連接神經網路」（Fully Connected Neural Network）是深度神經網路眾多分支中最為基本的架構形式，即對於第n-1層的任意一個節點，都和第n層所有節點有連接。以上述溫濕度組合是否舒適的分類問題為例（圖9），這一網路首先要對大量經標準化的樣本數據對——[Xt溫度，Xt濕度，Yt舒適度判斷]進行訓練，使得內部的參數矩陣能夠反映這一非線性的分類規則。然後在估值階段，就可以通過輸入自變數[Xt溫度，Xt濕度]來預測因變數[Yt舒適度判斷]了。當然分類結果需要根據「one-hot vector」形式解讀。

雖然全連接神經網路是一種簡單且有效的模式，但隨著網路規模的增加，訓練計算速度會急劇變慢。因此，在處理複雜的問題時，一般會按某種配置調整層與層之間神經元的連接方式，來提高訓練速度。後面介紹的其他神經網路架構分支，都在不同程度上具有這種非全連接的性質。

（2）卷積神經網路

對圖像信息進行分類是建築行業中更為常見的問題，一種名叫「卷積神經絡」（Convolutional Neural Network，CNN）的架構則是以圖像分類問題見長（它可以輕易地將對特定類別的識別率提高到99%，目前已在城市安全領域的人臉識別中廣泛應用[3]）。

9. 根據溫度、濕度進行舒適度與否判斷分類的DNN訓練方法

10. 根據圖像矩陣判斷建築風格類型的DNN訓練方法

以上文中的建築照片分類為例，如果手邊有一批已經區分好類別的建築照片，比如圖10中一組巴洛克風格、一組哥特風格，就可以把它們以[Xt圖像矩陣，Yt風格標籤]的形式提供給CNN網路進行訓練。隨後該網路就可以對任一圖片[Xt圖像矩陣]是屬於巴洛克風格還是哥特風格[Yt風格標籤]進行自動分類。

CNN架構採取了一種特殊的網路架構（圖11），它將原始圖片按不同顆粒度進行抽象理解，而通過訓練，它會自動找到最能反映圖像類別特徵的顆粒度級別[3]~[7]，而達到很好的識別效果。比如對於常見的人臉識別，它會自動找到畫面中一系列的短小陰影邊界，以它們的不同組合來作為判別的重要線索。這種機制與人類學習繪畫時，會嘗試在不同距離上觀察，或者眯起眼睛從不同的清晰度上審視自己的畫作，以確保畫面中的關鍵信息表達準確、可識別的現象十分類似。

當然，這種架構識別的準確率完全依賴樣本的質量，計算機科學家已經發現，可以通過對有限樣本圖像採取隨機旋轉、縮放、平移，來獲取更多的樣本，而這樣訓練出來的網路的識別率會更高。

4.1.2 回歸預測問題

根據大量過往信息對未來進行數值預測的問題（根據各種輸入值來產生輸出的數值或矩陣數據），在建築行業中也普遍存在，比如根據某地的工作日或非工作日採集到的各時段地鐵站廳人流量，來預測未來某個時間的人流量。顯然，之前的分類問題如果被表述為不同類別的樣本對應一個特定的預測數值，那也就可以當作回歸問題來處理了。

（1）全連接神經網路

上述問題完全可以由之前介紹過的全連接神經網路來解決（圖12），即把過往採集的樣本數據，經過標準化，以[Xt時間，Xt類型，Yt流量]的形式提供給網路，訓練後給出任一組[Xt時間，Xt類型]就可以得到一個預測的流量數值[Yt流量]。

11. 典型卷積神經網路的內部架構與高度抽象的圖像特徵認知

12. 根據現場採集數據預測任意時刻地鐵人流量的DNN訓練方法

13. 典型循環神經網路的內部架構與基於時序概念的認知過程

（2）循環神經網路

雖然全連接網路可以解決上面這個相對簡單的回歸問題，但如果數據中的時序因素佔到更加主導的位置，它就難以勝任了。此時就需要採用「循環神經網路」（Recurrent Neural Network，RNN）。

它採取了一種「時間步驟」（time step）的結構（圖13）。具有時序關係的樣本按先後逐個進入訓練，這種先後關係本身成為了一種特徵被用於學習。所以，這一架構已經主導了語音識別與自動翻譯領域的各種應用[8]。

這裡，為了更加貼近人類對時序信息的認知過程，還引入了「長期與短期記憶」（Long & Short Term Memory，LSTM）模型，使得網路可以對早期的樣本依然保持敏感[9][10]。

4.1.3 特徵提取問題

當建築師面對同一個主題的大量數據，比如可供當前設計參考的同類建築案例圖片，往往需要通過人力來反覆翻閱對比，逐漸認清它們所共有的關鍵特徵，以此作為當前設計的重要參考點——這從數學上來講就是給大量數據樣本「降維」（dimension reduction），即剔除每個樣本中偶然出現的個體差異，找到描述它們相互差異的最主要的那幾個維度，並僅以此對它們進行重新描述。統計學工具中的「主成分分析」（PrincipleComponent Analysis，PCA）用於線性樣本數據有類似的效果，但深度神經網路則可以同時處理線性與非線性的情況，而後者在建築實踐與研究中更加廣泛存在。

（1）自動編碼網路

對於上述這類問題，深度神經網路中的一個分支「自動編碼」（autoencoder）是非常有效的解決方案。特別是在處理建築領域最為常見的圖片信息時（圖14），它內部包含的兩個獨立深度神經網路之一，會先對樣本圖像進行壓縮編碼，即將整個圖像矩陣壓縮成有限數量的幾個中間表述量，然後再由後一個深度神經網路根據這幾個量解壓縮，重構出一個圖像，通過比對輸入樣本與重構圖像的誤差，來反向傳遞給兩個深度神經網路以完成訓練。如果訓練成功，中間表述就成了大量樣本的某種關鍵特徵表達。通過設置不同的中間表述容量開展訓練，就可以提取到一種最為合適的樣本群特徵描述。由於壓縮的中間表述的容量遠大小於輸入矩陣的容量（圖15），且能夠順利通過訓練的前者容量具有多種可能性，所以並不是每次成功訓練出的中間表述都對人類具有圖像認知上的意義（對網路一定具有某種意義）——這就為建築師以某個從未想到過的視角來重新審視數據提供了可能（就像AlphaGo的內部對弈邏輯在其獲勝後，成為了很多棋手學習的新寶典）。

14. 對一組圖片提取特徵的DNN訓練方法

15. 典型自編碼網路中樣本容量遠大於中間表述容量（t遠大於m）

16. 根據樣本圖片生成新的同類圖片的DNN訓練方法

4.1.4 綜合生成問題

顯然，相比以上三類問題，建築設計實踐中更多、更核心的是各種設計草案的生成問題。這裡的生成結果並不是指完整全面的設計成果，而是指在各個設計階段，能夠對各種設計局部問題提供繼續進行設計推敲的思維「起點」。比如，在城市設計過程中，當調研了適宜當地的某類城市肌理後，手邊就有了大量這種肌理的案例圖片，如何根據這些圖片中的肌理特徵，在當前設計的給定街坊邊界中生成類似的肌理，就屬於這一類問題。在這類問題上雖然前文的「自動編碼網路」中的解碼DNN也有不錯的生成能力，如變分自編碼器（Variational AutoEncoder，VAE）[11]，但更具吸引力還屬「生成對抗網路」。

（1）生成對抗網路

生成對抗網路（Generative Adversarial Networks，GAN）是目前解決上述問題的理想工具。它也包含兩個獨立的深度神經網路，一個叫生成網路，一個叫判別網路[12]。在訓練中（圖16），生成網路會在其X端輸入一幅隨機噪點圖像，並努力通過訓練將其轉換成一幅類似樣本的圖像，同時把一個「假圖」標籤量發送給判別網路的Y端；而判別器會反覆隨機接收真實樣本與「真圖」標籤，或者生成樣本與「假圖」標籤，它努力通過訓練使自己能夠儘可能準確地分辨兩者。在訓練過程中判別網路得到的這種判別誤差除了用於改善自身的判別能力外，還被反向傳遞迴生成網路，也使其得以改善。於是，兩者一個在努力成為以假亂真的「制假者」，另一個在努力成為火眼金睛分辨真偽的「鑒定師」。當後者再也無法分辨（判斷正確率到達50%）時，前者就訓練成功了——它可以憑空生成出一幅類似樣本的新圖像。

由於訓練好的GAN網路內包含了大量的樣本抽象知識，對於如何進一步利用它進行更加具有創造性的知識計算就成了當下深度神經網路領域的一大熱點[13]~[16]。比如，對於「條件生成對抗網路（Conditional GAN）[17]」就可以輸入初始條件來誘導生成的結果（圖17上）；又比如，對於更加有趣的特徵運算，可以把多個GAN的訓練成果以代數運算符串聯起來（圖17下）。

17. 基於生成對抗網路的知識計算

4.2依靠有限策略的DNN架構

有時所面對的問題缺乏相關樣本數據，或者以人力來準備這種數據對的代價太大而無法施行。同時，對問題可能採取的措施數量倒是只有有限的幾個。那麼就可以嘗試使用深度神經網路的另一類編程工具。它們中常見的是基於python語言的Tensorflow、Theano等工具平台。雖然這裡確實需要一定的編程能力，但由於python語言的高度易學性、平台功能的高度模塊化，再加之使用互聯網上大量存在的視頻教程，初學者完全可以在3天內構建起自己的依靠有限策略的DNN程序。

4.2.1 非線性對象的優化問題

實際生活中面對的困難問題大多都體現出非線性的特徵，即無法通過累加對簡單問題的處理方式來解決——這在建築實踐與研究中更是普遍存在。比如，目前城市設計領域一般都會遇到的大面積區域高層高密度建築群強排問題，除了那些簡單的線性退界與高距比間距排列，所有高層對周邊的居民日照都形成了非線性的日照疊加影響——該問題的實質就是針對所有居民日照條件的非線性排布優化問題。在實踐中這種問題一般只能依靠一批具有一定專業能力的設計助手，來以人工嘗試調整的方式完成，即類似問題還在以勞動密集型的方式人力解決。而深度神經網路加持下的強化學習框架讓我們看到了全自動解決上述優化問題的曙光——當把非線性對象的優化問題看作是一個複雜對象經過N步非線性決策後達到的一種狀態。

4.2.2 非線性決策的強化學習

強化學習（Reinforcement Learning，RL）是機器學習（Machine Learning）中的一種方法，自身也有不少分支。目前其受到主要關注的一類（model-free）分支中，其架構一般包含一個數字環境與一個數字智能個體（圖18）。前者具有一維時間刻度、任意時刻都具有一個可認知與評估的狀態、任意時刻對於在其中活動的數字智能個體的行為會有所反饋，即下一時刻環境狀態會相應改變；後者可以認知並評估環境的狀態以判斷上一次行動嘗試的效果，回顧之前的所有行動經驗並在既定的行動集內，選取最為有利的一個加以執行。

早期的這類架構中，智能個體採用一張數據表（俗稱Q表）來記錄環境在任意狀態下，若採取各種行動所會獲得的效果評價值（圖18左），如Q Learning[18]、Sarsa、SarsaLambda等架構，它們可以解決諸如「黑白棋」之類的初級非線性決策問題；隨後，有學者用深度神經網路替代Q表，即對該DNN輸入狀態而直接輸出所有動作的價值預測，這大大拓展了Q表的容量與處理能力（圖18中），如Deep Q Network（DQN）[19]、DuelingDQN[20]、Double DQN[21]、Prioritized replay DQN[22]、Normalized Advantage Functions[23]等架構，可以解決諸如「吃豆子」這種更加複雜（帶有在敵我互動下動態路徑規劃能力）的非線性決策問題。

而目前最為強大的架構是在智能個體內部採用兩個獨立深度神經網路的「表演者—評論家」（Actor-Critic，AC）架構（圖18右）。它的兩個DNN分別負責行動策略的生成與行動效果的評價，類似於之前的生成對抗網路的雙網路競爭，通過與環境的不斷互動，即「觀察狀態—嘗試行動—評估效果」來修正各自的內部參數，最終實現非線性問題的有效決策——環境反饋最大化。

比如，上述的非線性強排問題，就可以被轉化為反覆對每個居住建築單體進行1次移動的非線性決策問題（圖19）。在每一次決策中，智能個體觀察數字環境的狀態（了解周邊建築的位置）、計入之前所有決策所包含的狀態、行動、日照效果，從而計算出能夠獲取最大效益的本次移動矢量。就像孩子打遊戲一樣，通過不斷的嘗試，積累成功的經驗與失敗的教訓，最終將所有居住建築排列到全局日照最優的狀態，即完成了該非線性對象的優化。

以這種AC架構為基礎，已經發展出了一系列衍生架構，包括大名鼎鼎的AlphaGo[24][25]、最新的Deterministic Policy Gradient[26]、DeepDeterministic Policy Gradient[27]、Proximal Policy Optimization[28]、Distributed Proximal Policy Optimization[29]、A3C[30]、Mixed Cooperative Competitive[31]等分支。值得一提的是，後者專門在多人對戰電子遊戲中探索機器團隊中個體如何相互配合來擊敗對手[32]，其結果顯示多個體合作的人工智慧已經可以在沒有監督和沒有標籤數據的情況下自主學會有經驗的人類玩家才會採用的高級戰術（圖20），顯然其意義遠超AlphaGo對人類社會的影響。

18. 深度強化學習的發展（左：基本強化學習架構；中：早期DNN加持的深度強化學習；右：當前雙DNN加持的深度強化學習）

19. 強排計算中由RL智能個體所控制的居住單體建築

20. 星際爭霸中人機團隊的對戰

5 結語

在國際範圍內，深度神經網路技術在近5年內取得了突飛猛進的發展，且勢頭愈演愈烈。在各種應用領域也已經湧現出了一批有效處理特定類型問題的分支演算法。同時，中國國務院在2017年7月8日印發了《新一代人工智慧發展規劃》，11月23日又確定了依託百度、阿里雲、騰訊、科大訊飛公司，建設自動駕駛、城市大腦、醫療影像、智能語音等４個國家創新平台——其所依靠的也大都是深度神經網路技術。

在這樣的時代趨勢之下，本文通過介紹深度神經網路這一典型「黑箱」技術，試圖向建築師群體表明，作為應用者只需要了解其兩個關鍵要素——輸入與輸出的數據定義，以及網路模型架構所適用的問題類型，就可以登上這一快車實現為我所用。

當然，目前的深度神經網路技術在面對開放的解答域、不明確的優化目標、理解人類並讓人理解這三大問題還沒有找到突破點。這裡試想，它作為一個人工智慧的分支（不斷從各種人類思維活動形式中汲取靈感），而建築設計行為就是人類的一種獨特思維活動，且素以處理此類問題見長。也許正會是建築師的加入，促發其出現新的突破！

參考文獻:

[1] MCCULLOCH W S,PITTS W．A logical calculus of the ideas immanent in nervous activity [J]．Bulletin of Mathematical Biophysics,1943,10 (5):115-133．

[2] ROSENBLATTT F．The perception:A probabilistic model for information storage and organization in the brain [J]．Psychological Review,1958,65:386-408．

[3] LéCun Y,Bottou L,Bengio Y,et al．Gradient-based learning applied to document recognition[J]．Proceedings of the IEEE,1998,86(11):2278-2324．

[4] Simonyan K,Zisserman A．Very Deep Convolutional Networks for Large-Scale Image Recognition[J]．Computer Science,2014:arXiv:1409-1556.

[5] GIRSHICK,R．,DONAHUE,J．,DARRELL,T．& MALIK,J．Rich feature hierarchies for accurate object detection and semantic segmentation[C]．Proceedings of the IEEE conference on computer vision and pattern recognition,2014:580-587．

[6] GIRSHICK,R．Fast R-CNN[C]．Proceedings of the IEEE International Conference on Computer Vision,2015:1440-1448．

[7] Ren S,He K,Girshick R,et al．Faster R-CNN:towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems．MIT Press,2015:91-99．

[8] Chen S H"Hwang S H, Wang Y R．An RNN-based prosodic information synthesizer for Mandarin text-to-speech[J] ．IEEE Transactions on Speech & Audio Processing,1998,6(3):226-239．

[9] Hochreiter S,Schmidhuber J．Long Short-Term Memory[J]．Neural Computation,1997,9(8):1735．

[10] Cho K,Merrienboer B V,Gulcehre C,et al．Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J]．Computer Science,2014:1406.

[11] Kingma D P,Welling M．Stochastic Gradient VB and the Variational Auto-Encoder[J]．Journal of Beijing Administrative College,2013．

[12] Goodfellow I J,Pougetabadie J,Mirza M,et al．Generative Adversarial Networks[J]．Advances in Neural Information Processing Systems,2014,3:2672-2680．

[13] Radford A,Metz L,Chintala S．Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[J]．Computer Science,2015:arXiv:1511-06434.

[14] Sung F,Zhang L,Xiang T,et al．Learning to Learn:Meta-Critic Networks for Sample Efficient Learning[J]．2017:arXiv:1706-09529.

[15] Merel J,Tassa Y,Dhruva T B,et al．Learning human behaviors from motion capture by adversarial imitation[J]．2017:arXiv:1707-02201.

[16] HO,J．& ERMON,S．Generative adversarial imitation learning[J]．Advances in Neural Information Processing Systems,2016:4565-4573．

[17] Mirza M,Osindero S．Conditional Generative Adversarial Nets[J]．Computer Science,2014:2672-2680．

[18] Sutton R S．Barto Reinforcement Learning:An Introduction[C]// MIT Press,1998:216-224．

[19] Mnih V,Kavukcuoglu K,Silver D,et al．Human-level control through deep reinforcement learning．[J]．Nature,2015,518(7540):529．

[20] WANG,Z．,SCHAUL,T．,HESSEL,M．,VAN HASSELT,H．,LANCTOT,M．& DE FREITAS,N．Dueling Network Architectures for Deep Reinforcement Learning[J]．ICML,2016．1995-2003．

[21] VAN HASSELT,H．,GUEZ,A．& SILVER,D．Deep Reinforcement Learning with Double Q-Learning[J]．AAAI,2016:2094-2100．

[22] Schaul T,Quan J,Antonoglou I,et al．Prioritized Experience Replay[J]．Computer Science,2015:arXiv:1511-05952.

[23] Gu S,Lillicrap T,Sutskever I,et al．Continuous Deep Q-Learning with Model-based Acceleration[J]．ARXIV．2016:2829-2838．

[24] Silver D,Huang A,Maddison C J,et al．Mastering the game of Go with deep neural networks and tree search[J]．Nature,2016,529(7587):484．

[25] Silver D,Schrittwieser J,Simonyan K,et al．Mastering the game of Go without human knowledge[J]．Nature,2017,550(7676):354．

[26] Silver D,Lever G,Heess N,et al．Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning．JMLR．org,2014:387-395．

[27] Lillicrap T P,Hunt J J,Pritzel A,et al．Continuous control with deep reinforcement learning[J]．Computer Science,2015,8(6):A187．

[28] Schulman J,Wolski F,Dhariwal P,et al．Proximal Policy Optimization Algorithms[J]．2017:arXiv:1707-06347．

[29] Heess N,Tb D,Sriram S,et al．Emergence of Locomotion Behaviours in Rich Environments[J]． ARXIV．2017:arXiv:1707-02286.

[30] Mnih V,Badia A P,Mirza M,et al．Asynchronous Methods for Deep Reinforcement Learning[J]．2016:arXiv:1602-01783.

[31] Lowe R,Wu Y,Tamar A,et al．Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[J]．2017:arXiv:1706-02275.

[32] Peng P,Wen Y,Yang Y,et al．Multiagent Bidirectionally-Coordinated Nets:Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games[J]．2017:arXiv:1703-10069.

===================================

本期雜誌責任編輯：戴春，高靜

如有任何有關人工智慧的建議、問題或討論等，

標題請寫明前綴【人工智慧】，謝謝！

===================================

《時代建築》Time+Architecture

中國命題 · 世界眼光

學術性 · 專業性

時代性 · 前瞻性 · 批判性

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！