當前位置:
首頁 > 最新 > GANs 造假領銜,看 2018 最具落地潛力的 9大AI 技術趨勢

GANs 造假領銜,看 2018 最具落地潛力的 9大AI 技術趨勢

AI 科技評論按:本文是 Alex Honchar 在 Medium 上發布的三篇系列博客之二。這三篇博客分別從 AI 研究者、產業界的應用開發人員、普通人的角度介紹了作者對於 2018 年人工智慧發展趨勢的看法。AI 科技評論對原文進行了編譯。

在第一篇 AI 研究趨勢的文章中我嘗試介紹了 2018 年人工智慧研究領域中可能發生重要發展的方向。儘管做人工智慧的理論研究很酷,但是也存在一些具體的 AI 技術,它們在 2017 年已經成熟並且將有可能在 2018 年得到大規模的商業應用。這也正是本文所要探討的內容——我將向你介紹一些技術,這些技術也許可以應用到你當前的工作中,或者用於構建自己的初創項目。

重要提示:本文給出了一份 AI 領域演算法或技術的盤點,它們已經相當成熟,這意味著可以直接使用。例如,你可以在盤點中看到時間序列分析(Time series analysis),因為深度學習正在信號處理領域迅速替代傳統的優秀方法。但是在這份盤點中,你看不到強化學習(Reinforcement learning),儘管強化學習也許更加好玩,但是在我看來,它當前還不夠成熟,不足以應用到商業開發中去。但是強化學習確實是一個令人驚嘆、日新月異的研究領域。

再次提醒一下,這是三篇系列文章的其中一篇,在這個系列文章中我嘗試從三個不同的角度分享我對人工智慧在未來一年發展趨勢的看法

AI 研究員,負責推進人工智慧領域的研究

AI 開發者,負責將 AI 演算法落實到商業場景中

生活在這個 AI 新時代的普通大眾

希望各位讀者能找到自己喜歡的內容,並且有所收穫!

PS:在本文我不介紹圖像識別和一些簡單的計算視覺問題,畢竟這塊已經發展好幾年了。


雖然生成對抗網路(Generative adversarial networks, GANs)已經被提出來好幾年了,我依然對它非常懷疑。並且儘管生成對抗網路已經在 64x64 解析度的圖像上取得了巨大的進步卻依然無法打消我的疑慮。然後在我閱讀了相關的數學文章之後,我更加懷疑生成對抗網路事實上並沒有學習到數據分布。但是這一點在今年有所改觀,首先是新穎有趣的架構(如CycleGAN)的提出和理論性的提升(Wasserstein GAN)促使我在實踐中嘗試了生成對抗網路,然後它們的效果也還可以。另外在兩次應用過生成對抗網路之後,我開始被它深深折服,並且開始堅信我們必須使用生成對抗網路進行對象生成。

首先,我非常喜歡英偉達的關於生成真實逼真的全高清圖像的研究論文(前一年僅能實現 64x64 的圖像生成):

但是我真正喜歡的(作為一個騷年的完美夢想應用程序),並且讓我留下深刻印象的是生成假的色情電影:

我也看到了生成對抗網路在很多遊戲行業中的應用。比如用 GAN 生成景觀、英雄乃至整個世界。而且我認為生成對抗網路造假的能力將越來越強。


現代發展(不只是 AI 領域)的一個重要問題是,我們往往可以擁有幾十個不同的框架來做同一件事情。現今,每個進行機器學習研究的大公司都必須擁有自己的框架:谷歌、Facebook、亞馬遜、微軟、英特爾,甚至是索尼和優步以及許多的其它開源方案!在單個 AI 應用中我們會希望採用不同的框架,比如計算機視覺問題採用 Caffe2,NLP 採用 PyTorch,推薦系統採用 TensorFlow/Keras。然而接下來將這些模塊合併卻需要花費大量的開發時間,這使得數據科學家和軟體開發人員無法將注意力集中於更重要的任務中。

該解決方案必須是一個統一的神經網路格式,它可以輕易地從任意框架中獲得,然後開發人員可以輕易實現部署,科學家可以輕易上手使用。而這就是ONNX:

事實上,它只是非循環計算圖(Acyclic computational graphs)的簡單格式,但在實踐中它給我們提供了部署複雜 AI 應用方案的機會。而且我個人發現它非常有吸引力的一點是——人們可以在那些沒有強大部署工具和不依賴於 TensorFlow 生態系統的框架中進行開發,比如 PyTorch。


三年前,人工智慧領域最令人興奮的事情是 Caffe 的模型庫(Caffe Zoo)。當時我正在從事與計算機視覺有關的工作,我當時嘗試了所有的模型,並且逐一檢查了它們的工作機制以及運行效果。之後我使用這些模型進行實現遷移學習(Transfer learning)或者用於特徵提取。最近我使用了兩種不同的開源模型,作為一個大型計算機視覺任務的數據流處理管道的一部分。這意味著什麼呢?這意味著實際上我們沒必要去訓練自己的網路模型,例如,對 ImageNet 對象識別或者地點識別,這些基礎的東西能夠直接下載並添加到你的系統中去。除了 Caffe 模型庫,其它的框架也有著類似的模型庫。但是讓我最吃驚的是,你可以直接將計算機視覺、NLP 甚至是加速度計信號處理模型插入到 iPhone 中:

我認為這些模型庫將越來越多,並且會出現像 ONNX 這樣的生態系統,然後這些模型也將更加集中(也會使用 ML 區塊鏈應用來去中心化)。


設計一個神經網路的體系結構是一個痛苦的任務——有時你可以通過簡單地堆疊卷積層得到相當好的結果,但是大多數時候,你需要憑藉經驗和超參數搜索方法(例如,隨機搜索或貝葉斯優化)非常仔細地設計網路的寬度、深度和超參數。特別是當你不在計算機視覺領域開展研究時,你可以微調一些在 ImageNet 上訓練的 DenseNet。但是對於 3D 數據分類或者多變數時間序列應用則不行。

有許多人嘗試過使用一個神經網路從頭開始創建另一個神經網路架構,但是對我而言,最好的也是最便捷的是 Google Research 的AutoML:

他們用 AutoML 來生成的計算機視覺模型,比人類手工設計的網路還要更快和更好。我相信很快就會有很多關於這個話題的論文和開源代碼了。


對於這個概念,我在 Anatoly Levenchuk 的博客上看到了很多。Anatoly Levenchuk 是一名來自俄羅斯的系統分析師、教練和 AI 愛好者。在下面的圖片中,你可以看到一個被稱為「AI 棧」的例子:

它不僅僅包含有機器學習演算法和你最喜歡的框架,而且也深入更底層中,並且每個層面都有自己的發展和研究。

我認為人工智慧開發行業已經擁有了足夠多的不同專家,而且已經足夠成熟。在你的團隊中只有一名數據科學家是遠遠不夠的——你需要不同的人員,分別負責硬體優化、神經網路研究、AI 編譯器、解決方案最優化和生產實施。在他們之上必須有不同的團隊領導、軟體架構師(必須為每個問題單獨設計上面的堆)和管理者。我已經提到了這個概念,希望在 AI 領域的技術專家能夠在未來成長(對於那些想要成為 AI 或者技術領導者的軟體架構師——你需要知道學習路線)的某種願景。

目前來說人工智慧所能解決的精度能達到 95% 以上的問題非常少:我們可以將圖像分成 1000 個類別;我們可以判斷文本中的情緒是正面的還是負面的;其實我們還可以做一些更加複雜的事情。我認為還有一個領域即將迎來商業應用的爆發,那就是語音識別和生成。事實上,在 DeepMind 的 WaveNet 發布之後的一年內,WaveNet 都還算不錯,不過由於最近百度的DeepVoice和Google Tacotron2的提出,我們在這塊走的更遠了:

這個技術很快就會在開源社區中進行公布(或者被一些聰明人所複製),並且每個人都能夠以非常高的精度識別語音並生成它。它能在哪裡派上用場呢?我們將得到更好的私人助理、自動電子書閱讀器、談判記錄器(Negotiation transcripters)以及聲音造假。


我們今天所看到的機器人都有一個很大的問題——其中 99% 根本不是人工智慧,它們只是硬編碼。這就是為什麼 Facebook Messenger 或 Telegram 中的大部分機器人都採用硬編碼的命令,或者最好情況也是採用了一些基於 LSTM 和 word2vec 技術的神經網路句子分類器。但是現代最先進的 NLP 技術可不止這樣。來看看 Salesforce 做了哪些有趣的研究工作:

他們正在構建 NLP 與資料庫的介面,克服現代編碼器-解碼器自動回歸模型,不僅能為單詞或句子訓練嵌入向量,而且還能給字元訓練向量。此外,還有一個有趣的研究是關於使用強化學習將 NLP 得分作為 ROUGE 進行最優化

我相信隨著這些技術的發展,我們可以通過更多的智能信息檢索(Intelligent information retrieval)和命名實體(Named entity)來提高機器人。甚至在一些封閉域的垂直應用中可能出現完全由深度學習驅動的機器人。


在 Salesforce 之後的第二個被低估的公共機器學習研究實驗室是 Uber AI Labs。前端時間,他們發表了一篇博客,展示了他們對時間序列預測的方法。說實話這讓我感到受寵若驚,因為我在應用程序中使用了基本相同的方法!這是將統計特徵和深度學習表徵相結合的驚人例子

我最近從事的是基於深度學習的時間序列分析,我已經親自驗證了這個神經網路效果非常好,與「黃金標準(Golden standards)」相比,你可以輕易獲得 5-10 倍的性能增長


我們要如何訓練我們的神經網路?說實話,大多數人只是使用「Adam()」優化函數和標準的學習率。而一些聰明的人會選擇最合適的優化器,並調整合適的學習率。由於訓練優化的時候我們只需要按下「訓練」按鈕,然後等待網路收斂,因此這導致人們往往低估了優化中的學問。但是在擁有同等計算力資源、內存和開源代碼解決方案的時候,能夠在最短時間內優化訓練模型的人將勝出。這有一篇 2017 年優化演算法的改進盤點(http://ruder.io/deep-learning-optimization-2017/index.html)。

我鼓勵大家看看上面的 Sebastian 的 Ruder 博客,該博客介紹了 2017 年最新的一些關於如何確定優化演算法,以及其他一些非常有用的簡單改進。


這張照片能告訴我們什麼呢?特別是在已經閱讀了這篇文章前幾點之後。考慮到目前已經出現了這麼多開源的工具以及演算法,要開發出一些新的有價值的東西並且還要從中賺取很多錢並不容易。我認為 2018 年對於像 Prisma 這樣的創業公司來說不是最好的一年——因為可能會出現很多競爭對手,他們可以把開源項目作為移動應用進行部署,從而開始創業。

今年我們必須專註於基本的事情,而不是掙快錢——即使我們打算使用谷歌的 Ratacon 服務來實現有聲讀物的語音識別,我們也不能單純地將它作為一個簡單的網路伺服器,而是要想清楚業務模式、合作夥伴以獲得一些投資。


最後再總結一下,我們有幾種技術可以用於實際產品落地:時間序列分析、GANs、語音識別。我們不應該再為分類或者回歸設計基本架構了,因為 AutoML 將會為我們實現這個。我希望藉助一些優化上的提高,AutoML 將運行得比以前更快。然後有了 ONNX 和模型庫之後我們將能夠通過兩行代碼就實現將模型插入到應用中去。我認為製作基於 AI 的應用程序在當前來說是非常容易的,這對於整個工業界而言也是福音。而想知道新一年裡人工智慧研究領域會如何發展請看我前一篇文章。

ViaAI in 2018 for developers,AI 科技評論編譯。

————— 新人福利 —————

關注AI 科技評論,回復1獲取

【數百 G 神經網路 / AI / 大數據資源,教程,論文】

————— AI 科技評論招人了 —————

AI 科技評論期待你的加入,和我們一起見證未來!

現誠招學術編輯、學術兼職、學術外翻

————— 給愛學習的你的福利 —————

上海交通大學博士講師團隊

從演算法到實戰應用,涵蓋CV領域主要知識點;

手把手項目演示

全程提供代碼

深度剖析CV研究體系

輕鬆實戰深度學習應用領域!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技評論 的精彩文章:

TAG:AI科技評論 |