Jeff Dean撰文：谷歌AI 2018研究成果匯總

科技 01-17

作者 | Jeff Dean 編輯：肖琴

轉載自新智元（ID:AI_era）

谷歌AI團隊負責人Jeff Dean今天發布博客文章，總結了谷歌的研究團隊在2018年的主要研究成果。內容包括：

AI道德原則與以人為本的AI

輔助技術

量子計算

自然語言理解

感知研究

計算攝影

演算法和理論

軟體系統

AutoML

TPU

開源軟體和數據集

機器人技術

人工智慧在其他領域的應用

醫療AI

研究推廣

AI道德原則與以人為本的AI

在過去的幾年裡，我們觀察到人工智慧的重大進步及其對我們的產品和數十億用戶日常生活的積極影響。我們認識到，AI是一種造福世界的力量，它應該被合乎道德地應用，也應該應用於對社會有益的問題。今年我們發布了《谷歌人工智慧原則》(Google AI Principles)，提出一系列負責任的人工智慧實踐，並概述了實施的技術建議。

AI用於解決現實社會問題的潛力是顯而易見的。一個例子是谷歌在洪水預測方面的工作。這項研究旨在提供關於洪水可能的程度和範圍的準確、及時的細粒度信息，使那些在洪水易發地區的人們能夠更好地決定如何最好地保護他們自己和他們的財產。

第二個例子是我們在地震餘震預測方面的工作，我們展示了機器學習模型可以比傳統的基於物理的模型更準確地預測餘震的位置。更重要的是，由於ML模型的設計是可解釋的，科學家們已經能夠對餘震的行為做出新的發現，這不僅可以得到更加準確的預測，而且對餘震的理解理解也達到了新的水平。

我們還看到大量的外部研究者，有時與谷歌的研究人員和工程師合作，使用TensorFlow等開源軟體應對廣泛的科學和社會問題，例如使用卷積神經網路識別座頭鯨，檢測新的系外行星，識別病變的木薯植物等等。

輔助技術

我們的大部分研究集中在使用ML和計算機科學來幫助用戶更快、更有效地完成任務。通常，研究團隊與不同的產品團隊協作，研究成果被應用於不同的產品特性和設置中。一個例子是Google Duplex，這個系統需要研究自然語言和對話理解、語音識別、文本到語音轉換、用戶理解和有效的UI設計等。

其他的例子包括Gmail的Smart Compose工具，使用預測模型給出關於如何撰寫郵件的相關的建議；以及聲音搜索技術Sound Search，能夠讓用戶快速、準確地搜索到正在播放的歌曲；等等。

量子計算

量子計算是一種新興的計算範式，它能夠解決經典計算機無法解決的具有挑戰性的問題。在過去的幾年裡，我們一直在積極地進行這一領域的研究，我們相信該領域正在展示在至少一個問題上的尖端能力(所謂的量子霸權)，這將是該領域的一個分水嶺事件。

在過去的一年裡，我們取得了許多令人興奮的新成果，包括開發了一種新的72量子比特的量子計算設備：Bristlecone，它可以擴大量子計算機可解決的問題的範圍。

研究科學家 Marissa Giustina 在 Santa Barbara 在聖芭芭拉的量子AI實驗室安裝Bristlecone晶元

我們還發布了面向量子計算機的開源編程框架Cirq，並探索了如何將量子計算機用於神經網路。最後，我們分享了我們在理解量子處理器性能波動方面的經驗和技術，並分享了一些關於量子計算機作為神經網路的計算基礎的想法。我們期待2019年在量子計算領域取得激動人心的成果!

自然語言理解

谷歌的自然語言研究在2018年取得了令人興奮的成果，既有基礎研究，也有以產品為重點的合作。我們對2017年提出的Transformer架構進行了改進，開發了一種名為Universal Transformer的新的實時並行版本，該版本在翻譯和語言推理等自然語言任務中顯示出強大的優勢。

我們還開發了BERT，這是第一個深度雙向、無監督的語言表示模型，只使用純文本語料庫進行預訓練，然後可以使用遷移學習對各種自然語言任務進行微調。BERT在11個自然語言任務上比以前的最先進的結果有了顯著的改進。

BERT在非常具有挑戰性的GLUE基準測試中將最優結果提高了7.6%

感知研究

感知研究致力於解決讓計算機理解圖像、聲音、音樂和視頻的難題，並為圖像捕獲、壓縮、處理、創造性表達和增強現實提供更強大的工具。

2018年，我們的技術提高了Google Photos中組織用戶最關心的內容的能力，比如人和寵物。Google Lens和Google Assistant 讓用戶了解自然世界，實時回答問題，並能在谷歌圖像中使用Google Lens做更多事情。

Google Lens可以幫助你了解你周圍的世界

在音頻領域，我們提出了一種用於語義音頻表示的無監督學習方法，以及對富有表達性的語音合成的顯著改進。多模態感知成為一個越來越重要的研究課題。Looking to Listen將輸入視頻中的視覺和聽覺線索結合起來，以隔離和加強視頻中所需的說話者的聲音。這項技術可以支持許多應用，從視頻中的語音增強和識別、視頻會議，到改進的助聽器，尤其是可以應用於多人講話的場景。

在計算資源有限的平台上實現感知變得越來越重要。MobileNetV2是谷歌的下一代移動計算機視覺模型，被廣泛應用於學術界和工業界。MorphNet提出了一種學習深度網路結構的有效方法，在計算資源限制的條件下，可以全面提高圖像和音頻模型的性能。最近有關自動生成移動網路架構的研究也表明，繼續提高性能是可能的。

計算攝影

在過去的幾年裡，手機攝像頭的質量和功能都有了顯著的提高。部分原因是手機中實際使用的物理感測器有所改進，但更大的原因是計算攝影這一科學領域的進步。

我們的研究團隊發布了最新研究技術，並與谷歌的Android團隊和消費硬體團隊緊密合作，將最新技術應用在最新的Pixel和Android手機及其他設備中。2014年，我們提出了HDR 技術，通過該技術，攝像機捕捉到一組幀，然後在軟體中對齊這些幀，並將它們與計算軟體合併在一起。HDR 的工作最初是為了使圖片具有比單次曝光更高的動態範圍。然而，通過捕獲大量的幀，然後對這些幀進行計算分析成為了一種通用的方法，這種方法在2018年使相機中的許多進步成為可能。例如，它允許在Pixel 2中開發動態照片功能，在Motion Stills中實現增強現實模式。

Pixel 2 拍攝的運動照片

Motion Stills 的AR模式

今年，我們在計算攝影研究方面的主要工作之一是創造一種稱為「夜視」( Night Sight)的新能力，它使 Pixel 手機相機能夠「在黑暗中觀看」。

左：iPhone XS(全解析度)。右: Pixel 3 的夜視能力(全解析度)

演算法和理論

演算法是谷歌系統的支柱，觸及我們所有的產品，從Google trips背後的routing演算法到Google cloud的consistent hashing 演算法。在過去的一年裡，我們繼續在演算法和理論方面進行研究，涵蓋了從理論基礎到應用演算法，從圖挖掘到隱私保護計算的廣泛領域。

我們在優化方面的工作涉及從機器學習的連續優化到分散式組合優化的各個領域。在前者，我們研究用於訓練神經網路的隨機優化演算法的收斂性(獲得了ICLR 2018年最佳論文)，展示了流行的基於梯度的優化方法(如ADAM的一些變體)存在的問題，為新的基於梯度的優化方法提供了堅實的基礎。

ADAM和AMSGRAD在一個簡單的一維凸問題上的性能比較

軟體系統

我們在軟體系統方面的大部分研究仍然與構建機器學習模型有關，特別是與TensorFlow有關。例如，我們發表了TensorFlow 1.0動態控制流的設計和實現。我們的一些新研究引入了一個稱為Mesh TensorFlow的系統，它使得使用模型並行性來指定大規模分散式計算變得很容易。另一個例子是，我們發布了一個使用TensorFlow的可擴展深度神經排序庫TF-Ranking library。

TF-Ranking庫

我們還發布了JAX，這是一個加速器支持的NumPy變體，支持Python函數按照任意順序自動區分。雖然JAX不是TensorFlow的一部分，但它利用了與TensorFlow相同的底層軟體基礎結構(例如XLA)，它的一些思想和演算法對TensorFlow項目很有幫助。

另一個重要的研究方向是ML在軟體系統中的應用。例如，我們繼續使用分層模型將計算部署到設備上，並有助於學習內存訪問模式。我們還繼續探索如何使用學習的索引來替代資料庫系統和存儲系統中的傳統索引結構。正如我去年所寫的，我們認為在計算機系統中使用機器學習方面，我們只是觸及了皮毛。

在一個NMT模型(4層)中Hierarchical Planner的放置

AutoML

AutoML，也稱為meta-learning，是利用機器學習來自動化機器學習的某些方面的方法。我們已經在這個領域進行了多年的研究，我們的長期目標是開發一種學習系統，這種系統能夠利用從以前已經解決的其他問題中獲得的見解和能力，自動地解決一個新問題。

我們在這個領域的早期工作主要是使用強化學習，但我們也對進化演算法的使用感興趣。去年，我們展示了如何使用進化演算法為各種視覺任務自動發現最先進的神經網路架構。

我們也探討了強化學習如何應用於神經網路架構搜索之外的其他問題，我們的研究證明它可用於1)自動生成圖像變換序列，以提高各種圖像模型的準確性；以及2)尋找新的符號優化表達式，比常用的優化更新規則更有效。我們在AdaNet上的工作展示了如何得到具有學習能力的快速靈活的AutoML演算法。

AdaNet自適應地生成神經網路的集合。在每次迭代中，它都度量每個候選者的集成損失，並選擇最佳的一個進行下一次迭代。

TPU

張量處理器(TPU)是谷歌內部開發的ML硬體加速器，從一開始就設計為支持大規模的訓練和推理。TPU幫助谷歌的研究取得許多突破性進展，例如BERT(前面已經討論過)，同時也使世界各地的研究人員能夠通過開放源碼在谷歌的研究基礎上進行構建，並追求自己的新突破。例如，任何人都可以通過Colab在TPU上免費調優BERT, TensorFlow Research Cloud讓成千上萬的研究人員有機會從更大量的免費雲TPU計算能力中獲益。

單個TPU v3設備(左)和TPU v3 Pod的一部分(右)

開源軟體和數據集

發布開源軟體和創建新的公共數據集是我們為研究和軟體工程社區做出貢獻的兩種主要方式。我們在這個領域最大的努力之一是TensorFlow，這是2015年11月發布的一個非常流行的ML計算系統。我們在2018年慶祝了TensorFlow的三周年，在這段時間裡，TensorFlow的下載量已經超過3000萬次，超過1700個貢獻者增加了4.5萬個提交。在2018年，TensorFlow發布了8個主要版本，並增加了一些主要功能，如eager execution。隨著TensorFlow Lite、TensorFlow.js和TensorFlow Probability的推出，TensorFlow生態系統在2018年有了大幅增長。

除了繼續開發現有的開源生態系統，在2018年，我們還開發了一個用於靈活、可復現的強化學習研究的新框架，一個用於快速理解數據集的特徵的新可視化工具(無需編寫任何代碼)，一個使用TensorFlow.js在瀏覽器中進行實時t-SNE可視化的庫，以及用於處理電子醫療數據的FHIR工具和軟體等。

完整 MNIST 數據集的 tSNE 嵌入的實時演變，該數據集包含60000個手寫數字的圖像

我們發布了Open Images V4，這是一個包含1540萬個邊界框的數據集，包含600個類別的190萬張圖像，以及19794個類別的3010萬個經過人工檢查的圖像級標籤。

我們還探索了一些技術，可以使用Fluid Annotation更快地創建可視化數據集。

COCO數據集圖像上的Fluid Annotation界面

機器人技術

2018年，我們在理解 ML 如何教會機器人在現實世界裡行動方面取得了重大進展，該研究教機器人抓取從來沒見過的物體，相關論文獲得CoRL』18最佳論文。我們還通過結合ML和基於採樣的方法(ICRA"18 最佳論文)，在學習機器人運動方面取得了進展。我們第一次能夠在真實機器人上成功地在線訓練深度強化學習模型，並且正在尋找新的、基於理論的方法，來學習穩定的機器人控制方法。

人工智慧在其他領域的應用

2018年，我們已經將ML應用於物理和生物科學中的各種問題。使用ML，我們可以為科學家提供相當於數百或數千名研究助理的數據挖掘，從而解放科學家，使他們變得更有創造力和生產力。

我們在Nature Methods上發表的一篇關於神經細胞高精度自動重建的論文提出了一種新的模型，與以往的深度學習技術相比，該模型將連接組學數據自動解釋的準確性提高了一個數量級。

我們的演算法在鳴禽大腦中追蹤單個神經突的 3D 過程

將 ML 應用於科學的其他一些例子包括：

通過數據挖掘恆星的光曲線，尋找新的太陽系外行星

認識到短DNA序列的起源或功能

自動檢測失焦顯微鏡圖片

自動將質譜輸出映射到肽鏈

經過預訓練的 TensorFlow 模型可以對Fiji (ImageJ)細胞顯微鏡圖像斑塊的蒙太奇進行聚焦質量評估。

醫療AI

在過去的幾年裡，我們一直致力於將ML應用於醫療領域，這是一個影響我們每個人的領域，也是一個我們相信ML可以通過增強醫療專業人員的直覺和經驗而產生巨大影響的領域。我們在這個領域的一般方法是與醫療機構合作解決基礎研究問題(利用臨床專家的反饋使我們的結果更加可靠)，然後將結果發表在科學和臨床雜誌上。一旦該研究得到臨床和科學驗證，我們將進行用戶和HCI研究，以了解如何將其應用於實際的臨床環境。2018年，我們將工作範圍擴大到計算機輔助診斷和臨床任務預測。

在2016年底，我們發表的一項研究表明，經過訓練的用於評估視網膜眼底圖像以檢測糖尿病視網膜病變跡象的模型，其表現與美國醫學委員會認證的眼科醫生相當，甚至略好於後者。

2018年，我們進一步表明，通過使用由視網膜專家標記的圖像進行訓練，模型的表現已經與視網膜專家相媲美。後來，我們發表了一項評估，顯示了眼科醫生與ML模型協同判斷，如何比單獨做決定更準確。我們與Verily的同事合作，在印度的Aravind眼科醫院和泰國衛生部下屬的Rajavithi醫院等10多個地方部署了這個糖尿病視網膜病變檢測系統。

ML評估糖尿病視網膜病變

我們還發表了一項關於機器學習模型通過視網膜圖像評估心血管風險的研究，這是一項醫學專家和眼科專家都認為相當了不起的研究。這為一種新的、非侵入性的生物標誌物提供了早期有希望的跡象，這種標誌物可以幫助臨床醫生更好地了解患者的健康狀況。

我們今年也繼續病理學，展示了如何使用ML提高前列腺癌分級的準確度、利用深度學習檢測轉移性乳腺癌，並開發了一個原型的增強現實顯微鏡，可以通過來自計算機視覺模型的視覺信息幫助病理學家和其他科學家。

在過去的四年里，我們進行了一項重大的研究，利用電子健康記錄來進行臨床相關的預測。2018年，我們與芝加哥大學、加州大學舊金山分校和斯坦福大學合作，在Nature Digital Medicine上發表了一篇論文，展示了ML模型如何應用於識別電子病歷，能夠對各種臨床相關任務做出比當前臨床最佳實踐準確性更高的預測。作為這項工作的一部分，我們開發了一些工具，使得即使在完全不同的任務和完全不同的基礎EHR數據集上創建這些模型變得非常容易。我們還改進了基於深度學習的變數調用DeepVariant的準確性、速度和實用性。該團隊最近在《自然-生物技術》雜誌上發表了一篇同行評議的論文。

研究推廣

我們以多種不同方式與外部研究社區進行交流，包括教師參與和學生支持。我們很榮幸在本學年招收了數百名本科生、碩士生和博士生作為實習生，並為北美、歐洲和中東的學生提供多年的博士生獎研金(Ph.D. fellowships)。

作為這個獎學金項目補充的是Google AI Residency項目，這個項目允許想要進入深度學習研究的人在谷歌與研究人員一起工作並接受他們的指導。如今，Google AI Residency已進入第三個年頭，學員們被安插在谷歌全球的各個團隊中，從事機器學習、感知、演算法和優化、語言理解、醫療保健等領域的研究。

每年，我們也通過Google Faculty Research Awards program支持一些教師和學生進行研究項目。

我們認為，公開地為更廣泛的研究社區作出貢獻是支持健康和富有成效的研究生態系統的關鍵部分。除了開源和公開數據集之外，我們的許多研究都在頂級會議和期刊上公開發表，並積极參与、組織和贊助各種不同學科的會議。

https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html

（*本文僅代表作者觀點，轉載請聯繫原作者）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※「基因編輯嬰兒」惹爭議，你或許不知道機器學習在脫靶效應中的作用？
※國行版HomePod售價2799元，本周五發售

TAG:AI科技大本營 |