原Movidius CEO Remi El-Ouazzane：深度了解終端視覺處理器VPU

新聞 06-30

機器之心原創

作者：邱陸陸

Movidius Myriad VPU 是一塊小到沒地方寫「Intel Inside」的晶元。而生產它的 Movidius 這家公司，在英特爾的「AI 全家桶」里也一直不是最搶眼的那個。它沒有 Altera 和 Mobileye 的天價收購光環，也不像 Nervana 時常作為母公司的 AI「門面擔當」出現在公眾視野里。但是，這家創立於愛爾蘭的公司擁有出貨量在百萬級別的晶元產品：視覺處理器 VPU，也是靠著這唯一一款產品，Movidius 承擔起了英特爾「從雲到端」的 AI 解決方案之中極為重要的一環：高效、低能耗的終端運算。

五月，Intel 在舊金山舉辦了第一屆 AI 開發者大會 AIDevCon，Movidius 也在現場秀了秀肌肉。在現場對原 Movidius CEO，現英特爾新科技事業部副總裁 Remi El-Ouazzane 進行了專訪、同時英特爾 Movidius 事業組市場負責人 Jack Dashwood 就現場展示的處理異構的 AI 及視覺工作流的 VPU 為我們進行了介紹。以下為採訪與現場展示實錄：

機器之心：VPU 由哪些核心模塊組成？

Remi：VPU 是視覺處理單元（Vision Processing Unit）的縮寫，是我們發明的一種從用於視覺場景中提取語義信息的硬體。VPU 中有三個組成部分，分別是：

可編程的超長指令字數字信號處理器（VLIW DSP）
固定功能的計算機視覺加速器，以及
深度學習加速器。

原Movidius CEO Remi El-Ouazzane：深度了解終端視覺處理器VPU

而 DSP、CV 加速器、DL 加速器這三個部分共享一個通用存儲結構，其具有多埠、高吞吐量的特性。

這樣的設計旨在優化運行在終端的計算機視覺以及機器學習應用的數據流，從而能夠以極低的能耗達到相當高的性能水平。最新版本的 VPU 型號是 Myriad X，它的效率高達每秒鐘 1 萬億次運算（1TOPS）。

機器之心：VPU 主要對何種數據進行處理？能夠完成哪些任務？

Remi：VPU 是為視覺任務高度定製化的晶元。其處理的輸入主要有兩種類型，分別是來自感測器的實時圖像數據，和預先錄製好的視頻或圖像數據。只要是與這兩類數據相關的任務，VPU 都有涉獵。從成像、編碼等信號處理任務，到圖像的形變與形變矯正、深度信息處理（stereo depth）等經典計算機視覺任務，再到提取語義的深度學習任務，均有涉及。因此，VPU 是一個專門用於圖像任務的，處理信號處理、計算機視覺、深度學習交差點的異構複雜結構。

機器之心：VPU 的設計邏輯是什麼？

Remi：VPU 中的幾乎所有架構設計都是為了同一個目標：優化數據流。這是因為在當前的終端計算，尤其是深度學習計算中，用於數據傳輸的能量消耗是用於計算的 10 倍乃至更多。

如今是一個全新的體系架構時代，如今的工作任務如果部署在通用架構上會需要巨量的內存，因此這意味著當市場體量足夠大吼，專用的晶元開始有發展空間。

要使性能最大化並將功耗降至最低，唯一的方法就是最大程度增加數據的本地性，或者說最大限度地減少外部內存訪問次數。任何需要離開晶元進入內存的操作相比於片上操作都要支付成倍的能量成本。

如果你去看 Intel Nervana 設計的永遠訓練的神經網路處理器（NNP），你會發現邏輯完全相同，也是最大化片上數據的利用，只不過它們需要處理的數據集規模更大。

機器之心：具體如何實現這一目標呢？

Remi：舉個例子，我們在設深度學習加速器的時候，詳細地研究了非常多種不同的神經網路，ResNet50、SSD、Inception 的各個版本等等。我們嘗試去理解，當我們部署這些神經網路時，如何以最大化數據本地性為原則對其進行拆分。

我們使用非常多技術來做到這一點：例如是否可以優化網路的位解析度（是 FP32、INT16 還是 INT8），是否可以對網路進行剪枝（pruning）。是否可以利用其稀疏特性，來減少 0 的傳遞。

機器之心：有人說，當下的深度學習的模型結構仍處於劇烈變化時期，很可能現在常用的計算類型、優化方式兩年後就不適用了，因此對於設計特定結構的 ASIC 來說，為時尚早。Movidius 如何避免這一問題呢？

Remi:首先，對於從數據中心到終端設備的各種應用來說，越靠近設備端，對可編程性的需求就越弱。這是因為設備端的操作需要高度優化而數據中心端的任務則有商榷餘地和其他優化方法。

如今，我們的很多部署都緊靠 Xeon（英特爾的伺服器系列 Xeon），一台或多態 VPU 緊靠一台 Xeon 設備。這就是我們的「保險策略」：一旦出現了需要可編程性的任務，就利用 Xeon 實現。

同時，VPU 本身也具有一定的可編碼性：其上的 DSP 部分是完全可編碼的，可以用於完成各類任務。例如，在 Myriad 2（Myriad X 的上一代晶元）上，並沒有一個專門加速神經網路的部分，所有的神經網路計算就是在 dsp 部分加速的。因此這是我們預防模型大規模變動的第二重「保險」。

機器之心：VPU 主要被用於哪些市場？

Remi：安全監控（Security Surveillance）是體量最大，也是增長最快的一個市場，安全監控佔據了公司超過 50% 的業務。VPU 被用於安防相機以及聯網攝像頭中，也被用於終端伺服器中。這部分業務的數量眾多也是因為安全監控市場本身就是一個體量極為龐大的市場，我認為今天的 AI 領域有三個巨大的市場，分別是安全監控、自動駕駛和移動設備，其他市場相比之下都要小得多。

其次是智能零售。智能零售中也用到了大量的終端伺服器：在零售店中，你可以部署多台攝像機，其中一些具有一定的計算能力，另一些只是單純地記錄並傳輸影像，但是所有的攝像機都與部署在店內的伺服器相連，伺服器能夠利用多種數據進行快速的動態分析，比如顧客的年齡分布，客流情況、移動模式等等。終端伺服器不同於部署在數據中心的伺服器，大多是針對特定的事件和任務，例如視頻分類和視頻評分，進行定製的，因此效率更高而能耗更小。

工業也是一個有趣的市場，VPU 越來越多地被用於工業中的機器自動化。它可以在生產線的傳送帶上進行缺陷檢測，也可以測量包裹尺寸以進行卡車裝箱。

以上是 Movidius 的業務中佔比最大的三個市場。

機器之心：除此之外，您還對哪些市場有興趣？哪些方向代表了 VPU 五年後的願景呢？

Remi：從市場的角度來講，我相信 VPU 會增加非常多新的應用場景，例如醫療健康和機器人。

我相信在專業醫療領域會爆發一場革命，而 Movidius 也會參與其中，例如，我們正在於一家攜帶型超聲設備公司合作，降低超聲波儀器的成本。但是同時，由於並不是所有醫生都具有超聲波影像閱讀能力，我們也需要機器學習來幫助醫生使用其檢查結果。除此之外，機器人領域也會有很多變化。很多機器人公司漫長的研發周期都已接近尾聲，在未來五年內，除了之前提到的工業機器人之外，消費機器人也會有更多的表現。

從技術的角度來講，本地訓練是最讓我興奮的一環。強化學習等技術正在逐漸容許設備在本地進行調整，這會對終端算力提出更大的要求。

機器之心：除了晶元和針對學界的神經計算棒（NCS）之外，Movidius 還有_其他產品線嗎？

Remi：我們還有內含 Myriad 2 或 Myriad X 的開發者工具包。它是一塊包含 VPU 在內的開發板，包含攝像頭，各種輸入輸出介面。客戶可以利用開發板進行研發和測試，然後在研發完成後，再接入自己的工具包、感測器等。不過開發板並不直接進行「零售」，我們直接向需要開發 VPU 相關設備的公司銷售這一產品。

機器之心：能否介紹一下近期公開的 OpenVino 框架以及進行了很大改進的 ngraph 框架？

Remi：OpenVino 是一個針對圖像相關應用的部署的軟體框架。它進行兩種操作：一，針對不同的英特爾計算硬體優化模型；二，將模型編譯到目標晶元上。舉個例子，如果我用 TensorFlow 在 PC 上訓練了我的識別模型，然後要分別部署到英特爾的 CPU、FPGA 和 VPU 上。在 OpenVino 的幫助下，我不用手工調整模型以適應每一種硬體，OpenVino 會自動實現這個過程。

但 OpenVino 不參與訓練周期，訓練仍然是 ngraph 的領域。ngraph 主要旨在讓開發人員可以自由地利用任何硬體訓練自己的神經網路並進行推理，從數據中心到終端算力，訓練可以發生在任何地方。

另外，ngraph 是 100% 以深度學習為中心的框架，而 OpenVino 則關注視覺這個垂直領域，它關注很多屬於視覺領域但並非深度學習的過程，例如成像。

在展台區，Movidius 展示了如何將四項不同的 AI 與視覺任務流暢地部署在一塊 Movidius Myriad X VPU 上。據 Jack Dashwood 介紹，四個任務分別是來自普通攝像頭的實時數字成像（ISP），來自兩個最高可達 180Hz 的 720p 攝像頭的深度視覺（stereo depth）加速，基於經典視覺模型的特徵跟蹤（feature tracking）和基於深度學習的目標檢測。

原Movidius CEO Remi El-Ouazzane：深度了解終端視覺處理器VPU

而同時、多任務是 VPU 最重要的一項能力。例如，VPU 在大疆 Spark 中承擔了大部分的成像任務和視覺任務：包括從專業級別的 CMOS 感測器和航拍鏡頭中獲取信號並生成高質量的圖像輸出等圖像處理任務，以及人臉識別、手勢識別、對象跟蹤與檢測、發現障礙時的警告與避障等計算機視覺任務。在大疆與子公司睿熾聯合開發的玩具無人機 Tello 內，VPU 更是唯一的計算晶元。

原Movidius CEO Remi El-Ouazzane：深度了解終端視覺處理器VPU

圖：左為大疆 Spark，右為睿熾 Tello

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※與富士康總裁郭台銘面對面聊聊Industrial AI
※「世界第一超算」易主！英偉達GPU加持，Summit超越神威太湖之光

TAG:機器之心 |