AI前線一周新聞盤點：Facebook 意外發布監控型AI工具；emoji為何能夠成為深度學習語言的理想候選方案

最新 02-12

作者｜Jack Clark

譯者｜核子可樂

編輯｜Debra、Emily

AI 前線導讀：

研究人員們試圖捕捉網路上逐漸消亡的 Flash 遊戲以推動強化學習研究：

…FlashRL 代表著另一種嘗試，研究人員希望藉此訪問網路上的各類 Flash 遊戲——但目前這套平台雛形仍然存在缺陷…

挪威阿格德大學的研究人員們已經發布了 FlashRL——這套研究平台旨在幫助人工智慧研究人員熟悉以 Flash 編寫而成的軟體。順帶一提，Flash 是一種已經過時的互動式媒體格式，曾全面定義網路發展早期最受歡迎的各類遊戲。該平台與 OpenAI Universe 擁有類似的理念，試圖為研究人員提供大量新環境以進行演算法測試及開發。

數據集：FlashRL 當中包含提取自網路的「數千套遊戲環境」。

工作原理:FlashRL 利用 XVFB

Linux 庫創建一套虛擬幀緩衝區，可用於進行圖形渲染，而後在 Gnash 等 AI 玩家當中執行 Flash 文件。FlashRL 可通過專門為此設計的、名為 pyVLC 的 VNC 客戶端進行訪問，pyVLC 隨後則將 API 提供給開發者。

測試：研究人員們通過訓練一套神經網路遊玩「Multitask」遊戲對 FlsahRL 進行了測試。不過如果缺少可進行比較的基準或規則，那麼研究人員將很難發現 FlshRL 相較於其它訓練系統所存在的缺陷——最好的辦法可能是選擇一款比較知名的遊戲學習方案，例如 Atari Learning Environment，並以此為基準進行遊戲能力測試。

為何值得關注: 考慮到當前測試系統正呈現出爆炸式增長之勢，FlashRL 的最終命運可能取決於社區到底為其提供多少支持與貢獻。為了吸引貢獻者的參與，研究人員可能需要調整該系統，從而確保其能夠以每秒 30 幀以上的速度實現環境運行（多種其它強化學習框架甚至允許 FPS 達到 1000 以上），這是因為運行環境的速度表現將直接影響到平台之上進行研究的速度。

了解更多: FlashRL: 一套面向 Flash 遊戲的強化學習平台 (Arxiv)。查看其 GitHub 庫：

https://arxiv.org/abs/1801.08841

超酷工作崗位來襲！哈佛 / 麻省理工聯合項目經理：打算在公共利益層面作出貢獻？希望幫助聰明且道德感極強的人們構建實際方案？哈佛大學的伯克曼克萊恩中心（簡稱 BKC）目前正在物色一位項目經理協調員，負責幫助其管理「聯合計劃」。此項計劃由麻省理工學院媒體實驗室同哈佛大學共同主導，旨在將高級開發人員及其他技術人員如今在一起，從而為學習者們面臨的公共利益難題找到解決方法。去年的聯合計劃主要涉及網路安全問題，而今年的討論則涵蓋人工智慧的道德與治理問題。除了聯合計劃之外，這位項目經理還將與 Jonathan Zittrain 教授及其團隊合作開展更多其它項目。若您希望了解與該崗位的職責、資格以及申請要求相關的完整說明，請訪問哈佛大學人力資源職位申請列表。

蒙古研究人員成功解決一個深度學習模因問題：

…在這篇探討互聯網文化的 AI 研究論文中，我們發現了一些奇怪的現象..

蒙古國立大學的研究人員們發表了一篇研究論文，他們運用標準技術（通過微調與遷移學習）來解決現有機器學習面臨的問題。其新穎之處在於，他們的研究基礎在於嘗試說明小狗與鬆餅圖片之間的差異——這是幾年前 Twitter 上廣為流傳的一個有趣模因 / 笑話，隨後發展成為一種深刻的學習模式。

為何值得關注: 此份論文之所以令人感興趣，是因為其表明：1）傳統學術問題與互聯網上出現的半諷刺問題間的界線正逐漸模糊 ; 2）學者們正利用互聯網模因文化指導自己的工作。

了解更多: 用於分辨吉娃娃與鬆餅這一類似對象識別難題的深度學習方法 (Arxiv)：

https://arxiv.org/abs/1801.09573

利用深度學習繪製 emoji 表情符號與情感表達間的映射關係：

…學習理解這一包含大量數據的新型對話領域…

Emoji 表情符號已經成為世界各國人民用於表達情感的一種影子語言。事實上，Emoji 表情符號也是深度學習分析領域的一類絕佳候選素材，因為其由相對較少的不同「辭彙」組成——總量約在 1000 個上下。相比之下，大多數英文文檔中的常用辭彙多達 10 萬個。這意味著與以傳統自然語言組成的數據集相比，將表情符號同語言及圖像數據較少的特定含義加以映射往往更為簡單。

現在，研究人員們正在對互聯網上最理想的 emoji語言圖像源進行探索：即 Twitter 之上無窮無盡的發布內容。研究人員們在論文中寫道，「表情符號在檢索任務方面擁有一些獨特的優勢，其相對有限的數量（一般表意『辭彙』僅在 1000 多個，而不像英語等傳統語言通常包含 10 萬以上辭彙）使其在潛在查詢空間方面提供更高的確定性。此外，表情符號不受任何特定自然語言的約束，大多數表情符號擁有泛文化屬性。」

「Twemoji」數據集: 為了對錶情符號進行分析，研究人員們在 2016 年夏季期間收集了 1500 萬條包含表情符號的推文，而後對這套「Twemoji」數據集以及其它兩套衍生數據集進行了分析：Twemoji-Balanced（一套較小的數據集，其中各表情符號的出現次數皆不超過 10 次，同時剔除了部分使用頻繁較低的表情符號 ; 在原始語料庫中，哭泣與笑臉表情符號出現了大約 150 萬次，而其它 116 種表情符號只出現了一次）以及 Twemoji-Images（同時包含圖像與表情符號的約 100 萬條推文）。此後，他們將深度學習技術應用於這套數據集，希望了解其能夠利用表情符號順利完成預測與檢索任務。結果: 研究人員們利用雙向 LSTM 幫助執行表情符號與語言之間的映射 ; 利用 GoogleLeNet 圖像分類系統幫助其繪製表情符號與圖像之間的關係 ; 並將二者結合起來以分析三者間的關係。這套系統還學習如何根據給定的推文文字或視覺內容提供不同的表情符號建議。大多數結果被視為早期基準，而非標誌性結論 ; 其 5 項最高文本 - 表情符號預測準確率約為 48.3%，5 項最高圖像 - 文本 - 表情符號預測準確率則約為 40.3%。

為何值得關注: 此篇論文是探索深度學習新型發展趨勢的絕佳實例：技術如今已經變得非常簡單，來自核心 AI 研究領域之外的研究人員們開始挑選 LSTM 以及預訓練圖像分類器等基本組件作為技術方案，並利用其重新實現現有研究領域的情境化調整——例如通過表情符號理解語言學及檢索任務。–

了解更多: 新模式：利用表情符號挑戰預測、建議與檢索難題 (Arxiv)。

https://arxiv.org/abs/1801.10253

Facebook 公司的研究人員們訓練模型以對人體作出前所未有的詳盡分析：

…此項研究在軍事以及監控類用途方面擁有重大意義（雖然論文中並未提及此事）…

Facebook 公司的研究人員們已經訓練出一套名為「DensePose」的先進系統，其能夠查看人物的 2D 照片或視頻，並自動為人物目標創建出高清 3D 網格模型 ; 這樣的能力在眾多領域都具有廣泛的用途及影響。研究人員們的動機是希望能夠將這樣的技術引入圖形、增強現實或者人機交互領域，同時也有可能藉此建立起實現基於 3D 對象的識別能力的技術基石。然而，根據現有研究成果以及即將發布的數據集來看，這項技術對於數字化監控同樣極具現實意義——而本文研究人員並未在論文中對此作出討論。

效能: DensePose」技術「能夠為複雜的場景構建起高精度對應場景，且出色的速度使其能夠實時同時追蹤多達數十個人物目標：在使用 GTX 1080 GPU 的前提下，我們的系統以每秒 20 至 26 幀的速度運行。800 x 1100 解析度的圖像則可實現每秒 5 幀。這樣的表現大大超越了以往的先進系統，當然其性能水平仍然無法與人類的識別速度相提並論。」

免費數據集：為了進行這項研究，Facebook 公司創建出一套基於「COCO 數據集」的全新數據集。這裡介紹一下，COCO 數據信當中包含 50000 張擁有不同坐標以及對應注釋的人物圖像，用於生成包含所描繪人物的 3D 地圖。

技術: 研究人員們採用了多段式深度學習方法，即首先為某一對象確定關注區域，而後將各個特定區域交付至自己的深度學習管道，從而進一步執行對象區分與三維點預測及映射。對於任何給定的圖像，其中的每位人物都擁有相對稀疏的標籤——每人約擁有 100 至 150 條注釋。為了增加神經網路的可用數據量，研究人員們利用監督系統在訓練期間自動通過訓練完成的模型添加其它數據點，從而人為強化數據資源。

使用的組件： Mask R-CNN 配合 Feature Pyramid Networks; 二者皆可在 Facebook 公司剛剛發布的「Detectron」系統中使用。

為何值得關註：實現實時監控: 這項研究也帶來了一些令人不安的暗示：這套系統在監控架構當中同樣擁有著廣泛的用途，可能允許操作人員分析大量人群來確定其活動是否存在問題——例如此類系統可用於向其它系統發送信號，從而根據特定活動組合識別出抗議或者騷亂狀況。我希望 Facebook 公司的研究人員們探討這樣一套系統被其他惡意行為者濫用的可能性，但遺憾的是論文當中並沒有提到這些問題。最令人擔憂的是：Facebook 公司考慮到這個問題嗎？他們是否曾在內部討論過類似的用例？他們在發布這樣的系統時，是否會同時提供「信息風險」手冊？這些答案我們無從知曉。作為技術社區的一分子，我們（包括 OpenAI 這類機構）需要更好地公開處理日益升級的信息風險，以免我們在不經意之間給世界帶來我們無法承擔相關責任的嚴重後果。

了解更多: DensePose: 在真實環境下對密集人群進行態勢預估 (Arxiv)。

https://arxiv.org/abs/1802.00434

以時間為核心：關於提升自動駕駛車輛效果的技巧與提示：

…來自中國機器人廠商的自動駕駛車輛論文...Horizon Robotics 公司的研究人員們發表了一篇研究論文，旨在概述設計理想深度學習型自動駕駛車輛方案當中的技巧與提示。順帶一提，這是一家新興中國 AI 企業，主要從事自動駕駛車輛軟體、晶元以及智慧城市大腦的研發工作。在論文當中，他們主要關注的是駕駛的「戰術性決策」任務，即涉及變更車道行為以及應對臨時威脅的反應等工作。（本文同時亦涉及到路徑選擇、規劃以及控制等硬編碼功能。）

行動跳過: 與傳統的強化學習方案不同，研究人員們希望通過避免使用行動重複與重放方式來學習高級策略，而是引入了一種被稱為行動跳過的技術。這是為了避免車輛為了通過行動重放實現學習，而在道路上的不同車道間往來切換並造成危險行動。憑藉著行動跳過機制，車輛能夠獲得更為具體的單一決策報酬（例如由當前車道切換至另一車道），而後建立起包含此項報酬的修改後決策版本。其使用的最新版本將始終包含初始決策之後特定時間段內所獲得報酬函數的平均值。研究人員們在論文中寫道，「行動跳過的一大缺點在於，決策頻率的降低可能延遲或阻礙主體對關鍵事件的反應。為了改善這種情況，行動在推理過程當中可採取不同的跳過因子。例如在變換車道任務當中，保持在當前車道中的跳過因子的持續時間將縮短，而車道切換跳過因子的持續時間則延長，以便代理能夠快速完成車道變更行動。」

戰術報酬: 戰術決策當中的報酬函數涉及多種不同的競爭性報酬。在這裡，研究人員們使用一些與車速相關的持續性報酬函數、車道切換報酬，以及鼓勵汽車學習以相對較少的步驟及相關執行劇本以降低與其它車輛間碰撞風險的情境報酬。除此之外，其還會判斷是否存在交通燈，當前環境是否包含騎行者等特定風險，或者模擬在常規環境中經常出現的逆行超車等狀況帶來的風險。

測試: 研究人員們通過在道路模擬器當中模擬自動駕駛車輛的行進情況來測試其實際效能，而後重複 10 次以運行 25 萬個離散步驟，最終利用 100 項預先生成的測試事件進行測試。其最終評估標準則包括是否能夠在相關速度限制之下成功抵達目的地，且不致因迅速加、減速而影響到乘客的乘坐體驗。

結果: 研究人員們發現，他們提出的跳過機制與多樣化報酬理念能夠顯著改善原本不平等的隨機基準，並帶來更為合理的基於規則的基準系統。

了解更多: 高效深層強化學習中各要素對實現戰術性駕駛決策制定的作用 (Arxiv)。

https://arxiv.org/abs/1802.00332

利用欺騙方式提升代理效能：

…由邪惡人類開發的狡猾遊戲將顛覆傳統 AI 系統…

儘管目前的人工智慧技術正在繁榮發展，但其中的一大問題在於其往往缺乏應有的遠見；更具體地講，大多數人工智慧方案只會無意識地追求目標，而哪怕只是引入一點點所謂人類常識，都能夠為其帶來更理想的結果。這個問題亦是人工智慧安全研究工作中的主要基礎之一，即弄清楚如何幫助代理追求更為抽象的目標，或者在其完成任務的具體方法當中引入更多與人類類似的推理能力，從而真正獲得解決安全問題的能力。

測試: 探索這類問題的方法之一，在於通過對現有演算法進行測試以體現出其目前所使用的無意義推理方法。DeepMind 已經通過其 AI 安全網格世界（AI Safety GridWolrd，詳見走向 AI 第 71 節）支持這種方法，即為開發人員提供一套特殊的環境進行代理測試，從而利用現有 AI 代理開發方式優化特定報酬函數。如今，斯特拉斯克萊德大學、澳大利亞國立大學以及紐約大學的研究人員們發布了自己的一套複雜環境，他們將其稱為「欺騙遊戲」。此遊戲以標準視頻遊戲描述語言（簡稱 VGDL）實現，用於測試已經能夠通過常規視頻遊戲人工智慧競賽的 AI 系統。

欺騙遊戲: 研究人員們設計出以下幾跑步同類型的欺騙遊戲：

貪婪陷阱: 利用代理能夠通過執行特定操作獲取報酬這一事實設下陷阱，從而阻止其進一步獲得報酬。

中庸陷阱: 大多數 AI 演算法以降低難度並增加任務數量的方式進行優化，在這裡其需要更努力地作出嘗試，從而探索風險更高但回報也更可觀的解決思路。

普遍性陷阱: 讓 AI 學習環境中各物體的普遍性規則——例如吃掉糖果對象能夠獲得報酬，而後再對這種規則加以顛覆。舉例來說，若與上述對象交互的次數過多，則反而會遭遇負面報酬。

結果：由於 VGAI 競賽當中採用的 AI 系統往往使用多種不同技術，因此最終結果表明，某些排名很高的代理在這類新環境中反而表現很差，而某些排名較低的代理卻擁有更出色的發揮。大多數代理無法解決大部分環境中設下的難題。本篇論文的目標在於提供充足的環境，而 AI 研究人員則藉此測試並評估自己 AI 演算法的效能，甚至創建其它「AI 安全基準」進行 AI 測試。這可能將進一步推動 VGAI 競賽的未來延伸，並使其暴露出 AI 代理中存在的顯著缺陷：「限制進入遊戲時的狀態，甚至要求 AI 認真學習遊戲機制以發現其中可能存在的欺騙性陷阱。我們也允許將這種方法擴展至其它遊戲，包括不再為 AI 提供正演模型，或者要求其處理環境當中不完整或者存在干擾因素的感測器信息。」

了解更多: 欺騙遊戲 (Arxiv)。

https://arxiv.org/abs/1802.00048

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI漫遊 的精彩文章:

※人工智慧的價值一定在於進攻，而非防禦
※OpenAI發布研究需求2.0：七大人工智慧難題等你來破解

TAG:AI漫遊 |