當前位置:
首頁 > 新聞 > 5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

新智元 今天

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元



新智元報道

來源:medium.mybridge.co

編輯:肖琴

【新智元導讀】在6月的1400多篇機器學習相關的文章/項目中,Mybridge甄選了10篇最熱文章(入選率0.7%)。主題包括:Google Duplex,網格單元,神經網路,TensorFlow,Keras,第一名解決方案,CVPR 2018等。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

在 5 月的 1400 多篇機器學習相關的文章 / 項目中,Mybridge 甄選了 10 篇最熱文章(入選率 0.7%)。

此列表中的主題:Google Duplex,網格單元,神經網路,TensorFlow,Keras,第一名解決方案,CVPR 2018 等。

Top 10 文章由 Mybridge AI 選出,綜合考慮文章分享數量、閱讀時間等,並使用機器學習演算法對文章進行排序。相信這些文章分享的機器學習經驗和技巧是有用的。

1. Google Duplex:一個通過電話完成真實世界任務的 AI 系統

5 月份最受關注的是谷歌在 I/O 大會演示的 Google Assistant 的新功能——Duplex 雙工技術

利用 Duplex 雙工技術,谷歌的智能助理能用非常類似人聲的角色完成真實世界的任務。在 demo 中,谷歌 CEO Pichai 告訴聽眾,「你將要聽到的是,谷歌的助理實際地打電話給一家真實的美容院,為你安排一個預約。」 當然,智能助理幾乎毫無破綻地完成了任務。雖然後來這個演示是否真實受到一些質疑,但這一技術引發了業界熱議。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

在這篇文章中,谷歌首席工程師 Yaniv Leviathan 和工程副總裁 Yossi Matias 詳細介紹了 Google Duplex 使用到的技術,包括:

  • Duplex 的核心是一個循環神經網路(RNN),使用 TensorFlow Extended(TFX)構建。
  • 使用谷歌自己的自動語音識別(ASR)技術來處理語音,將語音轉換為文本。
  • 使用連續文本到語音(TTS)引擎和綜合 TTS 引擎(使用 Tacotron 和 WaveNet)的組合,根據情況控制語調。

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

2. 「換臉術」Deep Video Portraits

Deep Video Portraits 是斯坦福大學、慕尼黑技術大學等的研究人員提交給今年 8 月SIGGRAPH 大會的一篇論文,描述了一種經過改進的 「換臉」 技術,可以在視頻中用一個人的臉再現另一人臉部的動作、面部表情和說話口型。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

例如,將普通人的臉換成奧巴馬的臉。Deep Video Portraits 可以通過一段目標人物的視頻(在這裡就是奧巴馬),來學習構成臉部、眉毛、嘴角和背景等的要素以及它們的運動形式。

論文地址:https://arxiv.org/abs/1805.11714

3. 在人工智慧體中使用網格表示進行導航

雖然 AI 在圍棋等許多任務超過了人類,空間導航能力對於人工智慧體來說仍然是一個巨大的挑戰。DeepMind 在 Nature 上發表的一篇論文引起 AI 領域和神經科學領域的極大震撼:AI 展現出與人腦 「網格細胞」 高度一致的空間導航能力。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

通過一系列實驗操作,研究人員發現網格單元對於基於矢量的導航至關重要。例如,當網路中的網格單元被掐斷時,agent 的導航能力就會受損,而且對目標的距離和方向的判斷等關鍵指標的表示變得不那麼準確。這項發現有助於 AI 可解釋性的研究。

地址:https://deepmind.com/blog/grid-cells

4. 如何用 Python 從頭開始構建一個神經網路

這是一個入門教程,初學者可以從這個教程開始,了解深度學習的內部運作。

神經網路是什麼呢?許多介紹性文章會將其與大腦進行類比,但如果拋開神經網路和人腦的類比,將其描述為一個給定的輸入和一個期望的輸出之間的映射的數學函數,會更好理解。

神經網路包含以下元素:

  • 一個輸入層 x
  • 任意數量的隱藏層
  • 一個輸出層?
  • 每一層之間的一組權重 W 和偏差 b
  • 每個隱藏層的激活函數σ。在這個教程中,使用 Sigmoid 激活函數。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

圖:一個 2 層神經網路的架構

地址:https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6

5. 對 Airbnb 上的照片進行分類

Airbnb 為數百萬的民宿提供了一個平台,也因此獲得了一大批民宿的房間細節照片和用戶數據。在這個任務中,Airbnb 的數據團隊利用計算機視覺和深度學習對民宿房屋照片進行分類。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

其目的一方面是將具有相似風格的房源聚集到一起,方便用戶瀏覽。另一方面,分類也可以幫助驗證房間數量和房屋信息的準確性。該團隊表示,利用這些圖片數據,還將發掘出更多潛在的信息。

地址:https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3

6. Loc2Vec:用 triplet-loss 網路學習位置嵌入

這是一個以智能手機的感測器數據作為輸入,例如加速度計、陀螺儀和位置信息,並從中提取行為洞察的平台,用於了解用戶的模式,並能夠預測和解釋事情發生的原因。

這個平台的一個重要組成部分是場地映射演算法(venue mapping algorithm)。venue mapper 的目標是弄清楚你要訪問的地點。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

地址:http://www.sentiance.com/2018/05/03/loc2vec-le

7. 在瀏覽器中使用 TensorFlow.js 進行實時人體姿態估計

這是來自 TensorFlow 博客的教程,與谷歌創意實驗室合作,發布了 TensorFlow.js 版本的 PoseNet。PoseNet 是一個機器學習模型,可以在瀏覽器中實時估計人體姿態。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

PoseNet 可以利用單姿態或多姿態演算法檢測圖像和視頻中的人物,所有這些都可以在瀏覽器中實現。

PoseNet 的姿態估計分兩個階段進行:

  1. 將一個 RGB 圖像作為輸入,輸入給卷積神經網路。
  2. 利用單姿態或多姿態解碼演算法解碼來解碼模型輸出中的姿態、姿態置信度分數、關鍵點位置和關鍵點置信度分數。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

PoseNet 返回檢測到的每個人的置信度值以及檢測到的每個姿勢關鍵點。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

https://medium.com/tensorflow/real-time-human-pose

8. 用 Keras 進行多標籤分類

這是一個關於多標籤分類的 Keras 教程,包括以下 4 個部分:

  • 討論多標籤分類數據集(以及如何快速構建自己的分類數據集)。
  • 簡要討論 SmallerVGGNet,這是將用來實現多標籤分類的 Keras 神經網路架構。
  • 實現 SmallerVGGNet,並使用多標籤分類數據集對其進行訓練。
  • 最後,在示例圖像上測試網路,並討論一些注意事項

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras

9. 谷歌地標檢索挑戰賽:第一名解決方案解讀

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

四個月前,谷歌在 Kaggle 發布了一項地標檢索挑戰賽(Google Landmark Retrieval Challenge),參賽者被要求在所有圖像數據集中檢索到含有給定圖像中地標的圖片。

這篇文章是第一名團隊的解決方案總結,包括兩個主要部分:

  • 首先,創建一個高性能的全局描述符(global descriptor),它可以將數據集中的圖像表示為奇異向量( singular vector);
  • 然後,創建一個高效框架,將這些向量和最可能的圖像匹配,最後提交到積分榜上。

以下是一個流程圖,每一步都標記 LB 分數。

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

https://www.kaggle.com/c/landmark-retrieval-challe

10. 學會 「夜視」

這是伊利諾伊大學香檳分校(UIUC)和 Intel Labs 合作的論文,提出一個基於端到端訓練的用全卷積網路進行低照度圖像處理的模型。這個網路直接處理原始感測器數據,並且基本不使用傳統的圖像處理流程。

視頻介紹:

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

論文地址:https://arxiv.org/abs/1805.01934

兩個大型新數據集

伯克利大學發布大型駕駛視頻數據集 BDD100K

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

伯克利大學發布了 BDD100K,這是目前為止最大規模也是最多樣化的駕駛視頻數據集。這些數據具有四個主要特徵:大規模,多樣化,在真實的街道採集,並帶有時間信息。利用這個數據集,你還可以參加伯克利在 CVPR 2018 舉辦的自動駕駛競賽。

地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/

骨骼 X-ray 數據集

5月機器學習TOP 10熱文:Google Duplex,「換臉術」、網格單元

Andrew Ng 帶領的斯坦福大學 ML 團隊發布了一個目前為止最大規模的醫學影像數據集 MURA(musculoskeletal radiographs),這個數據集包含 4 萬多張多角度射線檢測圖像,來自對 12173 名病人的 14863 項研究,X 光影像包含人體上肢的 7 個部分:肘、指、小臂、手、肱、肩、腕。最近,該團隊推出了基於此數據集的識別挑戰賽:MURA 骨骼 X-ray 深度學習競賽。

https://stanfordmlgroup.github.io/competitions/mura


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

蓋茨、扎克伯格都看好的AI智適應教育,松鼠AI聚攏頂尖技術專家
圖靈獎得主的展望,拿什麼拯救摩爾定律?

TAG:新智元 |