DGX-1 助力清華海峽研究院加速圖像識別
項目背景
清華海峽研究院於2015年成立,依託兩岸清華大學和廈門三方人才、技術優勢,連接和整合海峽兩岸科技、教育和文化資源,以兩岸經濟社會發展需求為導向,在信息技術、先進位造業、新能源與新材料、金融等若干學科領域開展研究與交流。
圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。圖像識別是人工智慧的一個重要領域。圖像識別技術是立體視覺、運動分析、數據融合等實用技術的基礎,在導航、地圖與地形配准、自然資源分析、天氣預報、環境監測、生理病變研究等許多領域重要的應用價值。
核心需求
圖像識別的過程包括圖像預處理、圖像分割、特徵提取和判斷匹配。圖像識別的難點,具體表現在圖像視點的變化很多,對著同樣一個物體拍照的時候,因視點不同,得到的圖像外觀是不一樣的。難點還表現在尺度問題,物體在圖像中近大遠小,這給圖像識別帶來一定的難度。光影的變化一向是計算機視覺特別關心的一個問題,這也是圖像識別的第三個難點。第四個難點是背景複雜。第五個難點是遮擋,遮擋是計算機視覺特別關心的一個難點,第六個難點是變形,物體在運動中會產生變形,在不同情形下,同一物體的圖像表現會非常不一樣。上述難點導致圖像識別時數據量龐大,計算複雜。資料庫大,大規模訓練多,識別的準確度才可能高,如何加速計算,提升訓練效果就成為圖像識別研究人員的關注焦點。
解決方案
隨著2012年Alex發布CUDA-Convnet框架,使得依託採用了CUDA技術的高性能GPU平台來研究大型深度神經網路獲得廣泛認同。針對人形圖像分割問題,研究中心利用該框架設計了一種多通道深層次的分割網路,在人形分割精度上達到了88%準確率,速度上也達到令人滿意的效果。該分割網路在NVIDIA平台實現,該平台採用了2塊GPU卡。相對於傳統CPU解決方案,利用GPU的人形分割網路解決方案優勢明顯。
GPU方案可以利用單台伺服器實現數十台CPU伺服器集群的並行計算性能,而訓練單個人形分割網路消耗時間則從數周降至6天,大大加快了科研進度;
利用GPU卡組建一個運算平台僅需要單台CPU伺服器成本的五分之一,有效地節省了經費開支;
實現的分割網路支持兩塊及以上GPU組建雙通道卷積網路,這為大規模網路的設計提供了良好的擴展性。與此同時,研究中心採用的計算平台最高可支持4塊GPU卡,可視需求隨時添加,方便靈活;
採用NVIDIA Tesla GPU卡部署的伺服器投入使用近年以來,運行穩定,性能可靠,易於維護,已經成為研究中心不可或缺的重要計算資源。
解決方案
研究表明,在圖像識別方面,深度學習有著巨大的優勢。深度學習需要大量的數據,現有的圖像數據不能滿足需求,結合圖像數據的特點,通過平移、水平翻轉、旋轉、縮放等數據擾動方式可以產生更多的有效數據,普遍提高識別模型的推廣能力。
(1)從統計,計算的角度看,深度學習特別適合處理大數據
a、用較為複雜的模型降低模型偏差
b、用大數據提升統計估計的準確度
c、用可擴展的梯度下降演算法求解大規模優化問題
這個大數據是除了數量上的大,還有更重要的是維度的大,很多演算法本身是無法處理高緯度數據的,例如Kernel學習機相關的演算法, 雖然理論上是先將數據向高維空間映射,然後在高維空間進行線性的求解,實際上在處理的時候還是回到原空間處理。傳統的BP演算法針對高維的數據也是效果不佳。
深度學習(CNN)關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的演算法融入到了神經網路中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他演算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握
(2)深度學習不是一個黑箱系統。它像概率模型一樣,提供一套豐富的、基於聯接主義的建模語言。利用這套語言系統,我們可以表達數據內在的豐富關係和結構。比如用卷積處理圖像中的二維空間結構,用遞歸神經網路(Recurrent Neural Network)處理自然語言等數據中的時序結構
(3)深度學習幾乎是唯一的端到端的學習系統,它直接作用於原始數據,自動逐層進行特徵學習,整個過程直接優化目標函數。
為此,AMAX 向清華海峽研究院推薦了專門針對深度學習研究而設計的超級計算機DGX-1,該系統可獲得更快的訓練速度、更大的模型以及更精確的結果。 這是世界上首台專為深度學習和人工智慧加速分析而打造的系統,性能相當於 250 台傳統伺服器。它實現了與硬體、深度學習軟體和開發工具的全面集成,可運行熱門的加速分析應用程序。也就是說,您可以立即縮短數據處理時間、呈現更多數據、加速深度學習框架並設計更加複雜的神經網路。
DGX-1突出特性
總結
客戶表示,DGX-1系統集成支持NVLink的最新版NCCL,可提升多GPU擴展性。使用數據並行SGD時,支持NVLink的NCCL可將ResNet-50訓練性能提升2倍,大幅改進圖像閱讀器管道,允許AlexNet [Krizhevsky etal.2012]以超過12,000張圖片/秒的速度進行訓練,計算速度明顯加快,立即就縮短了數據處理的時間,圖像識別速度和準確度飛速提升。

