盤點8個最具啟發意義的深度學習應用

科技 07-18

本文囊括了 8 個最具啟發意義的深度學習應用，包括為黑白圖像上色，自動手寫體生成，自動生成字幕，還有自動玩遊戲等等

說深度學習已經達到了先進水平顯然是很誇張的，因為我們還有很多問題沒有解決。但是在人工智慧、機器學習和深度學習方面，有很多事情還是非常令人激動的。在這篇文章里你將看到那些在深度學習領域最具有啟發意義的應用。

開始學習深度學習並不意味著花 2-3 年的時間研究方程，而是先讓你的程序運行個 5 分鐘——應用深度學習、構建程序，然後很興奮地去研究代碼和系統。

盤點8個最具啟發意義的深度學習應用

深層學習的啟發性應用，圖片：Nick Kenrick

概述

以下是這篇文字將要提到的應用的概述。

並不是所有的案例都是現在最好的深度學習應用，但是我保證，每一個都會讓你感到興奮。

如果你不太了解深度學習的話，有些案例可能會讓你覺得無聊。但其實它們一點都不無聊……

誠然，對於像我這樣的資深人工智慧愛好者來說，有些案例簡直就是啪啪打臉。因為有些問題是我一直都認為在短時間內沒法解決的。

以下是 8 個應用的具體內容：

1.黑白圖像的自動著色

所謂圖像著色就是為黑白照片上色。傳統的方法是通過人工手動上色，因為圖像太複雜了。深度學習可以使用照片中對象和它的周邊對象的特徵來對照片上色，這種方式很類似於人類的處理方式。深度學習的這種給黑白圖片上色的能力結合了大規模卷積神經網路和監督圖層。

盤點8個最具啟發意義的深度學習應用

深度學習對黑白照片的上色

另外，這種方法還可以被用來給黑白電影上色。

Deep Colorization, 2015

Colorful Image Colorization, 2016

Learning Representations for AutomaticColorization, 2016

Image Colorization with DeepConvolutional Neural Networks, 2016

2. 給無聲電影配音

在這項應用中，系統需要為無聲電影合成配音。這個系統曾被用 1000 種聲音訓練過，一個深度學習模型將電影畫面和預先錄製好的聲音資料庫結合起來以達到電影場景中配有最適合的聲音。這個系統通過圖靈測試，因為人類無法分別電影中的聲音是認為配置的還是機器合成的。這是卷積神經網路和 LSTM 遞歸神經網路的一個很酷的而應用。

論文：

Visually Indicated Sounds, 2015

3.自動機器翻譯

在這個案例里，系統需要將給定的詞語、短語和句子自動翻譯成另外一種語言。自動機器翻譯已經出現很久了，但深度學習在以下兩個方面達到了很好水平：

自動翻譯文字

自動翻譯圖片中的文字

文字翻譯不需要任何對文本順序的預加工，它能讓演算法學習詞語被翻譯之後的改變規則。多層大型 LSTM 遞歸神經網路被應用到這種類型的翻譯中。你可能已經猜到了，卷積神經網路被用來確定圖像中的字母及其位置。一旦確定了這兩點，系統就會進行翻譯，讓圖片中包含的文章被翻譯成另外一種語言。這通常被叫做即時視覺翻譯。

盤點8個最具啟發意義的深度學習應用

即時視覺翻譯，來自Google Blog

論文：

Sequence to Sequence Learning with NeuralNetworks, 2014

Learning Phrase Representations using RNNEncoder-Decoder for Statistical Machine Translation, 2014

Deep Neural Networks in MachineTranslation: An Overview, 2015

4.照片中對象/物體的分類和檢測

這項任務要求，在一張照片中的對象分類作為一組先前已知的對象之一。

使用非常大的卷積神經網路已經實現了這一問題的基準例子的最好結果。Alex krizhevsky等人在這一問題上做出了突破，在 ImageNet 分類問題上有了成果，叫 AleNnet。

盤點8個最具啟發意義的深度學習應用

對象分類的例子，來源於 ImageNet Classification with Deep Convolutional Neural Networks

這個任務的一個更複雜的變體被稱為稱為對象檢測，包括專門確定照片場景內的一個或多個對象，並在他們周圍畫一個框。

照片對象檢測的例子，圖片來自 Google Blog

論文：

ImageNet Classification with DeepConvolutional Neural Networks, 2012

Some Improvements on Deep ConvolutionalNeural Network Based Image Classification, 2013

Scalable Object Detection using DeepNeural Networks, 2013

Deep Neural Networks for Object Detection，2013

5. 自動手寫體生成

這個任務給出了一個語料庫的手寫例子，為一個給定的單詞或短語生成新的手寫體。

在創建手寫樣本時，會提供樣本手寫體作為供筆使用的坐標序列。從這個語料庫中學習筆的運動和字母之間的關係，生成一個特別指定的新例子

有趣的是學習到的是不同類型的例子，而且還能模仿這些例子。我希望看到這項工作結合一些法醫手寫分析專業知識。

盤點8個最具啟發意義的深度學習應用

自動手寫生成的樣本

論文：

Generating Sequences With RecurrentNeural Networks, 2013

6.自動生成文本

這個有趣的任務中，要學習一個文本語料庫，並從這個模型中一字一字或一詞一詞地生成新文本，

該模型能夠學習如何拼寫、標點，形成句子甚至捕獲在語料庫中文本的風格。

大型遞歸神經網路被用於學習輸入字元串序列中的項之間的關係，然後生成文本。最近的 LSTM 遞歸神經網路使用基於特徵的模型生成一個字元，在該問題上展示了巨大的成功。

Andrej karpathy 在他的博客中提供了許多例子，包括：

Paul Graham essays

Shakespeare

Wikipedia articles (including the markup)

Algebraic Geometry (with LaTeX markup)

Linux Source Code

Baby Names

盤點8個最具啟發意義的深度學習應用

自動生成莎士比亞作品文本的例子，來源於 Andrej Karpathy blog post

論文

Generating Text with Recurrent NeuralNetworks, 2011

Generating Sequences With RecurrentNeural Networks, 2013

7.自動圖像字幕生成

在自動生成圖像字幕任務中，給定一個圖像，系統必須生成一個描述圖像內容的標題。

2014年，深度學習演算法大爆炸，在解決這個問題上有了令人印象非常深刻的結果，就是利用從頂部模型的照片中的對象分類和目標檢測完成了這項工作。

一旦你可以在照片中檢測到的對象，並為這些對象生成標籤，你可以看到下一步是把這些標籤變成一個連貫的句子描述。

這個結果一直震驚我到現在。確實非常令人印象深刻。

一般來說，該系統涉及到使用非常大的卷積神經網路檢測照片中的對象，然後一個像 LSTM 那樣的遞歸神經網路會把標籤變成一個連貫的句子。

盤點8個最具啟發意義的深度學習應用

自動圖像字幕生成，來自於 Andrej Karpathy, 李飛飛

這些技術也被擴展到視頻自動字幕。

論文：

Deep Visual-Semantic Alignments forGenerating Image Descriptions, 2015

Explain Images with Multimodal RecurrentNeural Networks ，2014

Long-term Recurrent ConvolutionalNetworks for Visual Recognition and Description, 2014

Unifying Visual-Semantic Embeddings withMultimodal Neural Language Models, 2014

Sequence to Sequence — Video to Text,2015

8.自動玩遊戲

在這個任務中，一個模型學習如何僅基於屏幕上的像素玩一個電腦遊戲

這是深度強化模型領域中的一個非常難的例子，也是 DeepMind （現在已經屬於谷歌）實現的一個非常有名的突破

這項工作在谷歌 DeepMind 的 AlphaGo 中得到擴展並達到頂端，AlphaGo 在遊戲 Go 中擊敗了世界象棋大師。

論文

Playing Atari with Deep ReinforcementLearning, 2013

Human-level control through deepreinforcement learning, 2015

Mastering the game of Go with deep neuralnetworks and tree search, 2016

補充案例

下面列出的是上面的一些補充例子。

自動語音識別

Deep Neural Networks for Acoustic Modeling in Speech Recognition 2012

自動語音理解

Towards End-to-End Speech Recognition with Recurrent Neural Networks, 2014

自動聚焦圖像中的對象

Recurrent Models of Visual Attention, 2014

自動回答關於照片中的對象的問題

Exploring Models and Data for Image Question Answering, 2015

從粗糙的草圖自動創建程式化的圖像

Neural Doodle

盤點8個最具啟發意義的深度學習應用

從草圖自動創建風格的圖像，來源於神經塗鴉

總結

在本文中，你已經發現了8個旨在激勵你的深度應用。

這裡只是給出了資源而不是告訴你方法，目的是希望打破誇張的說法，給你一個關於當前和未來深度學習技術能力的清晰思路。

請您繼續閱讀更多來自 機器之心 的精彩文章:

當人工智慧出錯時，我們可能沒有能力理解出錯原因

喬治亞理工研發出模仿人類步態的機器人

FB人工智慧大腦：Big Sur硬體系統

歐盟要求「解釋權」，或引發與人工智慧公司巨大衝突

TAG:機器之心 |

您可能感興趣

※米國的給出的玩具啟蒙6個步驟
※被玩具啟發，斯坦福做出了不到兩塊錢的離心機
※被開除的喬布斯重回蘋果時的內部講話，極具啟發性
※被開除的喬布斯重回蘋果時的內部講話，極具啟發性（內含完整版視頻）
※極具啟發性的演講：被開除的喬布斯回到蘋果後首談營銷
※三國最具啟示的兩句遺言，一句揭露董卓愚蠢，一句印證劉備狡詐！
※12歲女孩愛書法，在全國成人書法賽中獲三等獎，其楷書具啟功書風
※12歲女孩愛書法，在全國成人書法賽中獲三等獎，楷書具啟功書風