Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

新聞 06-26

更多精彩，敬請關注矽谷洞察官方網站（http://www.svinsight.com）

大家好，一周技術前沿洞察又來啦！不少小夥伴說很喜歡這個欄目，小探們在找的時候也覺得，不僅有趣，而且實實在在地促進科技進步。

這周有啥技術進展呢：從 6G 到海水淡化，從模擬 AI 視頻到打通機器人的視覺和觸覺，一起來看！

大公司

諾基亞，愛立信和韓國SK Telecom合作開展6G研究

5G 剛剛開始落地，有關 6G 的信息就已經曝光。近日，韓媒稱韓國 SK 電信公司已經與兩家歐洲電信設備製造商達成協議，將聯手提升商用 5G 網路性能，並開發 6G 相關技術。

SK 公司在本月 12 日和 13 日分別與芬蘭諾基亞公司和瑞典愛立信公司簽署了諒解備忘錄。根據協議，雙方將共同開發6G核心技術，以便在下一代移動通信技術領域搶佔先機並探索新的商業模式。

除了 6G，這些合作夥伴還將研究改進「超可靠、低延遲」的 5G 網路，以及分散式多輸入多輸出（MIMO），人工智慧（AI），28GHz頻段和5G獨立（SA）組網在商業網路中的應用。

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

打開今日頭條，查看更多圖片

（圖自telecomstechnews）

感興趣的可以點擊原文查看：

https://www.telecomstechnews.com/news/2019/jun/17/nokia-ericsson-sktelecom-6g-research/

Facebook: AI 能看圖識菜譜了！

近日，Facebook AI 開源了一個 AI 系統，可以通過分析食物圖片，判斷需要用到的食材和製作過程，最後生成一份菜譜。

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

（由餅乾圖片生成的菜譜，圖片來源 Facebook AI）

對於 AI 來說，從圖片中推導出菜譜主要需要兩方面的知識：一方面是搞清楚圖片中是什麼食物；另一方面則是推斷出食材和配料的加工過程。傳統方法傾向於將這一過程簡化為匹配，系統首先判斷出圖片中是什麼食物，再去已有資料庫中搜索和匹配相應的菜譜。如果沒有準確的對應菜譜，就會匹配一個最相似的。這樣的方法依賴大量的菜譜數據，而且缺乏靈活性和多樣性。

Facebook 研究人員採用了一種新的思路，把從圖片到菜譜的過程視為一個條件生成系統。給定一張食物圖片，AI 系統會先判斷它包含哪些食材和配料，進而以圖片、食材和配料表為條件，推導出它們的加工方式，最後根據加工方式的可能性從高到低排列，形成很多份菜譜。

不過有意思的是，這個 AI 系統可以接受和分析任何圖片。比如上傳個月亮圖片，被識別成「家常煎餅」，上傳個 iPhone，被當成「家常冰凝膠」，至於皮卡丘，則被當成了「煎蛋」。。。

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

所以問題來了，如何把皮卡丘能煎得好吃呢……

感興趣的可以點擊原文查看：

https://ai.facebook.com/blog/inverse-cooking/

Facebook發布軟體框架，使編程機器人變得更容易

如何讓機器人能夠像人一樣精準的擺動胳膊，是一項難題，這也是不少公司在尋找更好的編程機器人的一個方向。近日，Facebook 與卡耐基梅隆大學合作，推出了一種新的機器人開源框架，稱為 PyRobot。

PyRobot 旨在幫助研究人員和測試人員在幾個小時內就能上手使用機器人。如果說傳統的機器人編程就像是在使用 DOS 操作系統，那麼PyRobot 就像是在使用 macOS 一樣簡單流暢。

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

（通過PyRobot編碼LoCoBot，讓機器人可以準確擺動手臂，動圖來自Wired.com）

PyRobot本身並不是一個底層操作系統，而是機器人操作系統（簡稱ROS）的上層，與亞馬遜的 RoboMaker 類似，可以幫助開發者更好的編程機器人。

更多技術細節可以訪問：

https://ai.facebook.com/blog/open-sourcing-pyrobot-to-accelerate-ai-robotics-research/

美國高校

機器人的視覺和觸覺感官，能夠互通了！

對於人類來說，觸覺幫助我們感受物理世界，而視覺幫助我們看到物理世界的樣子。但是，對於機器人來說，當前視覺和觸覺還是分離的。它們的視覺感知和觸覺感知還不相通。

為了彌合這種差距，來自麻省理工學院計算機科學與人工智慧實驗室（CSAIL）的研究人員研發了一種技術，使機器人可以通過觸覺信號推測出物體的樣子；同樣的，通過視覺信號，推測出物體的觸感。

該團隊使用攝像頭記錄了近 200 件物品，如工具，家用產品，織物等，並讓機器人觸摸這些物體超過 12,000 次。隨後，他們將這 12,000 個視頻片段分解為靜態幀，編製成為包含 300 多萬個視覺/觸覺配對圖像的數據集「VisGel」。

基於這個數據集訓練後，機器人可以基於視覺輸入，推測出逼真的觸覺信息；或者，通過觸覺信息的輸入，推測出是什麼物體被碰觸了，以及是哪個部位被碰觸了。該研究團隊使用的機器人手臂名叫 KUKA，觸覺感測器名為 GelSight，是由麻省理工學院的另一個小組設計。

視覺和觸覺這兩種感官的結合，可以增強機器人的能力，並減少其在涉及操縱和抓取物體的訓練任務時可能需要的數據。

感興趣的可以點擊原文查看：

https://www.csail.mit.edu/news/teaching-artificial-intelligence-connect-senses-vision-and-touch

萊斯大學將太陽能海水淡化系統的產量提高了50％

萊斯大學納米光子學實驗室（LANP）的研究人員表示，他們可以通過添加廉價的塑料鏡片將太陽光濃縮到「hot spots」上，從而將太陽能海水淡化系統的效率提高了 50％以上。

（註：hot spots 是指將一定量的光能能擠壓到一個很小很小的體積的一種狀態）

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

該項研究的主要研究員表示：提高太陽能驅動系統性能的典型方法是增加太陽能聚光器並帶來更多光線。而他們的方法有個最大的優勢是使用相同數量的光，然後可以廉價地重新分配這種能量，從而大大提高凈化水的產量。

感興趣的可以點擊原文查看：

http://news.rice.edu/2019/06/17/hot-spots-increase-efficiency-of-solar-desalination/

「Deep Fakes」的剋星：伯克利、南加大聯手開發識別偽造視頻的方法

目前，越來越多的研究人員在努力尋找準確識別 Deep Fakes 的假視頻的方法。而來自加州大學伯克利分校和南加州大學的研究人員在這場競賽中暫時走在了前面。

他們開發了一種方法，在大規模深度偽造數據集上進行評估，準確度達96％。這種方法適用於各類視頻偽造技術，包括 Deep Fakes，人臉交換和 face2face 等。研究論文中表示，他們的檢測方法的先進程度領先於內容偽造者的技術更迭能力。

研究人員使用了兩個步驟：首先，他們輸入了數百個經過驗證的個人視頻示例，把每個視頻放在一起；然後，他們使用稱為卷積神經網路的深度學習演算法，確定了人臉的特徵和模式，特別注意眼睛如何閉合或嘴巴如何移動。檢測中，他們將新輸入的視頻與之前模型的參數進行比較，以確定一段內容是否超出常規，從而判斷視頻是否是偽造的。

所以，視頻造價能被杜絕了嗎？

更多研究詳情，歡迎訪問兩所大學的官方博客：

https://viterbischool.usc.edu/news/2019/06/deep-fakes-researchers-develop-forensic-techniques-to-identify-tampered-videos/

https://news.berkeley.edu/2019/06/18/researchers-use-facial-quirks-to-unmask-deepfakes/

斯坦福大學跟英特爾合作：利用聲波「看見」牆後物體

試想，當你站在牆前，想看到拐角處視線範圍之外的事物，除了伸長脖子或者走過去，還有別的方法嗎？

傳統的非視距成像技術利用角落或障礙物周圍牆壁反射的光波，重建出圖像。但這種光學方法中用到的硬體非常昂貴，且對距離的要求較高。那麼，如果不使用光波，轉而使用聲波呢？

來自斯坦福大學與英特爾實驗室的研究人員構建了一個硬體原型：一個裝有現成麥克風和小型汽車揚聲器的垂直桿。

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

在實際操作中，揚聲器會發出一串啾啾聲，聲音以一定角度彈到附近的牆壁上，然後撞到另一面牆上的一張字母 H 形狀的海報板，最後聲音以同樣的方式反彈回麥克風。接下來，研究人員使用地震成像的演算法，對字母 H 的外觀進行粗糙重建。

結果顯示，聲學方法能夠重建出兩個字母的圖像，且時間比光學方法高出 2 倍。這項技術距離應用還需要數年的時間，但作者表示，該技術的超聲波版本最終可能會應用於自動駕駛汽車上，用來探測看不見的障礙物。

感興趣的可以點擊原文查看：

https://www.sciencemag.org/news/2019/06/scientists-use-sound-see-around-corners

海外高校

用散射光來重建物體形狀：計算機視覺技術的又一步

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

（圖自：www.cs.cmu.edu）

我們肉眼看到的大部分內容，都來自從物體直接反射到眼睛的光線；鏡頭對物體形狀的捕捉也是如此。利用計算機視覺技術來重建物體的形狀，以往也都是基於直接反射的光線。

微弱的散射光雖然可能會到達眼睛或鏡頭，但會被更直接，更強大的光源沖刷掉。而 NLOS 技術的研究者們則在試圖從散射光中提取信息，並生成場景、物體，特別是物體中不被直接看到的部分。

而卡內基梅隆大學的研究人員近日研發出可以用特殊光源和感測器來通過非直射光重建物體的形狀的技術。

卡內基梅隆大學，多倫多大學和倫敦大學學院的研究人員表示，這種技術使他們能夠非常細緻的重建圖像。作為實驗，他們重建了喬治·華盛頓在一枚硬幣上的輪廓。

卡內基梅隆機器人研究所助理教授 Ioannis Gkioulekas 說，這是研究人員首次能夠通過散射光計算出毫米級和微米級彎曲物體的形狀。雖然到目前為止，科學家們還只能在相對較小的區域內實現這種細緻程度，但這為計算機視覺科學家們正在研究的更大規模的 NLOS 技術提供了重要的新組件。

感興趣的可以點擊原文查看：

https://www.cs.cmu.edu/news/researchers-see-around-corners-detect-object-shapes

倫敦帝國理工&三星：一張圖、一段音頻合成模擬 AI 視頻

最近，來自三星人工智慧研究中心和倫敦帝國理工學院的研究人員提出一種新型端到端系統，僅憑一張照片和一段音頻，就可以生成新的講話或唱歌視頻，而且視頻主角不只是動嘴，整個面部表情都會有比較自然的變化。例如，通過將愛因斯坦演講的真實音頻片段和他的一張照片相結合，研究人員可以快速創建一個前所未有的演講視頻。

Facebook的AI識菜譜，把皮卡丘認成了煎蛋……| 矽谷洞察

這個研究的「前身」是三星莫斯科 AI 中心和 Skolkovo 科學技術研究所的一項研究。在那項研究中，研究人員利用一張圖像就合成了人物頭像的動圖，而且頭像中的人物可以「說話」（只動嘴不發聲），蒙娜麗莎、夢露等名人畫像、照片都可以用來作為原料。

這次的新研究出現在了計算機視覺頂會 CVPR 2019 上。該方法生成的視頻具備兩大特點：1. 視頻中人物嘴唇動作和音頻完全同步；2. 人物面部表情自然，比如眨眼和眉毛的動作。

感興趣的可以點擊原文查看：

https://www.theverge.com/2019/6/20/18692671/deepfake-technology-singing-talking-video-portrait-from-a-single-image-imperial-college-samsung

更多精彩，敬請關注矽谷洞察官方網站（http://www.svinsight.com）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 矽谷密探 的精彩文章:

※技術對於學習是否有利？| 矽谷洞察
※能在22歲的身體中活到130歲？人類離長生不老有多遠 | 矽谷洞察

TAG:矽谷密探 |