谷歌重磅推出TensorFlow Graphics：為3D圖像任務打造的深度學習利器

新聞 05-11

新智元報道

來源：venturebeat

編輯：肖琴

【新智元導讀】TensorFlow重磅推出一個全新的圖形工具TensorFlow Graphics，結合計算機圖形學和計算機視覺技術，以無監督的方式解決複雜3D視覺任務。

近年來，可插入到神經網路架構中的一種新型可微圖形層(differentiable graphics layers)開始興起。

從空間變換器(spatial transformers)到可微圖形渲染器，這些新型的神經網路層利用計算機視覺、圖形學研究獲得的知識來構建新的、更高效的網路架構。它們將幾何先驗和約束顯式地建模到神經網路中，為能夠以自監督的方式進行穩健、高效訓練的神經網路架構打開了大門。

從高級層面來說，計算機圖形學的pipeline需要3D物體及其在場景中的絕對位置、構成它們的材質的描述、光、以及攝像頭。然後，渲染器對這個場景描述進行解釋，生成一個合成渲染。

相比之下，計算機視覺系統是從圖像開始的，並試圖推斷出場景的相關參數。也就是說，計算機視覺系統可以預測場景中有哪些物體，它們由什麼材料構成，以及它們的3D位置和方向。

訓練一個能夠解決這些複雜的3D視覺任務的機器學習系統通常需要大量的數據。由於給數據打標籤是一個成本高昂而且複雜的過程，因此設計能夠理解三維世界、而且無需太多監督的機器學習模型的機制非常重要。

將計算機視覺和計算機圖形學技術結合起來，我們得以利用大量現成的無標記數據。

如下圖所示，這個過程可以通過合成分析來實現，其中視覺系統提取場景參數，圖形系統根據這些參數返回圖像。如果渲染結果與原始圖像匹配，則說明視覺系統已經準確地提取出場景參數了。

在這種設置中，計算機視覺和計算機圖形學相輔相成，形成了一個類似於自動編碼器的機器學習系統，能夠以一種自監督的方式進行訓練。

可微圖形層

接下來，我們將探討TensorFlow Graphics的一些功能。更多信息可以訪問GitHub：

https://github.com/tensorflow/graphics/

變換(Transformations)

物體變換(Object transformations)功能能夠控制物體在空間中的位置。

如下圖所示，利用軸角度可以將立方體旋轉起來。旋轉軸指向上方，角度為正，則使立方體逆時針旋轉。

在下面的Colab示例中，我們展示了如何在一個神經網路中訓練旋轉形式，該神經網路被訓練來預測物體的旋轉和平移。

https://colab.sandbox.google.com/github/tensorflow/graphics/blob/master/tensorflow_graphics/notebooks/6dof_alignment.ipynb

這項任務是許多應用程序的核心，比如專註於與環境交互的機器人。機器人要用機械臂抓取物體，需要精確地估計物體相對於機械臂的位置。

建模相機(Modelling cameras)

相機模型(Camera models)在計算機視覺中有著至關重要的作用，因為相機會極大地影響投影到圖像平面上的3D物體的外觀。

如下圖所示，立方體看起來是上下縮放的，而實際上發生這種變化只是由於相機焦距發生了變化。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章: