邀請函or挑戰書？OpenAI喊你來研究7個AI未解問題啦

熱身問題

對於不知道如何開始的參與者，OpenAI 先給了幾個已經得到解決的入門級問題。

預備問題 1，難度 ★

訓練一個 LSTM 網路解決異或問題；也就是說，給定一串二進位數以後，判定它們的奇偶性。LSTM 需要能夠處理這一段序列，一次處理一位，然後在序列輸入結束後輸出正確的結果。可以嘗試這兩種方法。

生成一個數據集，包含 10 萬個長度為 50 的隨機二進位字元串。用它訓練 LSTM，看看結果如何。

生成一個數據集，包含 10 萬個隨機二進位字元串，每個字元串的長度是在 1 到 50 之間獨立、隨機選擇的。這樣做成功了嗎？為什麼結果會有區別？

預備問題 2，難度 ★

在 Gym 環境中實現一個經典的貪食蛇遊戲，然後根據自己的喜好選擇一個強化學習演算法解決它。你能訓練出一個能玩贏遊戲的策略嗎？

問題 1，難度 ★★

在 Gym 環境中實現經典貪食蛇遊戲的多人版本並嘗試解決它。可以參考https://slither.io/

環境：有足夠大的場地，裡面有多條蛇；蛇吃到隨機出現的食物之後會變長；如果一條蛇吃到了自己、撞到了牆、或者碰到了其它的蛇就會死掉；當所有蛇都死掉以後，遊戲結束。可以從兩條蛇的狀況開始，然後逐步增加數量。

智能體：基於自己選擇的強化學習演算法，通過自我對弈學習的方式解決問題。自我對弈有不穩定的問題（和大家在 GANs 上遇到的不穩定性很類似），你需要實驗多種不同的方法來克服。比如，用一組快速策略作為你的當前策略的對手來訓練。那種方式效果最好？

檢查學習到的行為：智能體確實學會了追逐實物並且躲避其它蛇了嗎？這個智能體是否還學會了攻擊、圍困別的蛇，或者和別的蛇協同行動呢？

問題 2，難度 ★★★

在分散式強化學習中平均參數。在樣本複雜度和溝通數量兩個指標上試試看參數平均化的做法的效果。最簡單的做法是在每次更新中都把每個分散式計算節點的梯度做平均，不過也可以通過獨立地更新每個節點、不頻繁地更新參數的做法節省通訊帶寬（https://arxiv.org/abs/1511.06051）。在強化學習中這樣做還有個額外的好處：在任意一個時刻，環境內的多個智能體都各自有不同的參數，這有可能帶來更好的探索行為。另外還可以使用 EASGD 這樣的演算法，在每次更新中只合併一部分參數（https://arxiv.org/abs/1412.6651）。

問題 3，難度 ★★★

在遊戲和生成式模型之間做遷移學習。過程是這樣的：

給 11 個不同的 Atari 遊戲訓練 11 個好的策略。讓每個遊戲的策略各自生成 10k 組操作過程，每組過程里有 1k 步。

用其中的 10 個遊戲的操作過程訓練一個生成式模型（比如 Transformer ，https://arxiv.org/abs/1706.03762）

然後在第 11 個遊戲上精細調節這個模型。

要完成的目標就是量化評估用前 10 個遊戲做預訓練的收益有多大。模型需要有多大才能體現出預訓練的作用？第 11 個遊戲的數據量縮小到十分之一、百分之一的時候，模型的表現會有多大變化？

問題 4，難度 ★★★

帶有線性注意力的 Transformers。Transformer 模型中配合 softmax 使用了軟注意力（soft attention）。如果把其中的軟注意力替換為線性注意力（它可以轉換成一個使用快速權重的 RNN，https://arxiv.org/abs/1610.06258），就可以把得到的模型用在強化學習中。具體來說，在較大的背景場地下把轉換器模型作為強化學習模型來使用有點不現實，但是運行一個帶有快速權重的 RNN 就非常可行了。

你的目標是任選一個語言建模任務，訓練一個轉換器模型，然後想辦法用不同超參數的線性注意力轉換器，對所有的單詞/字母都得到同樣長度的轉換後數值，同時還不能過多地增加總參數數目。這裡只有一個警告，就是這件事最後有可能做不出來。但是 OpenAI 也給了一個有可能會有幫助的提示：和使用 softmax 的注意力相比，帶有線性注意力的轉換器模型需要維度明顯更高的值向量，而這一點不需要增加多少參數數目就可以做到。

問題 5，難度 ★★★

學習到的數據增強。你可以用基於數據學到的 VAE（變分自動編碼器），做「學到的數據增強」任務。在這裡，可以先根據輸入數據訓練 VAE，每個訓練數據點都會被編碼為潛空間中的一個點；接著在潛空間施加一個簡單的擾動（比如高斯擾動）然後把它解碼回觀測空間。有沒有可能用這樣的方法獲得更好的泛化結果呢？這種數據增強有一個潛在的好處，就是它可以包括許多的非線性變換，比如視角變換以及場景光照變換。以及能否估計出哪些變換是具有標籤不變性的呢？OpenAI 自己已經在這方面做過一些研究，感興趣的話可以了解一下、在此基礎上繼續改進。

https://arxiv.org/abs/1611.01331

https://arxiv.org/abs/1702.05538

https://arxiv.org/abs/1709.01643

https://arxiv.org/abs/1711.04340

https://arxiv.org/abs/1711.00648

http://cs231n.stanford.edu/reports/2017/pdfs/300.pdf

https://arxiv.org/abs/1710.10564

https://papers.nips.cc/paper/7278-learning-to-model-the-tail

問題 6，難度 ★★★

強化學習的正則化。用實驗的方法調查（以及定性地解釋）你選擇的強化學習演算法上施加不同正則化方法的效果。在有監督深度學習中，想要提高優化效果以及預防過擬合的話，正則化都是非常重要的，dropout、batch normalization、L2 正則化等方法都是效果非常出色的方法。然而在強化學習這邊，人們並沒能從策略梯度、Q-learning 這樣的方法中得到多少移除。很巧的是，大家一般用在強化學習里的模型都要比有監督學習的模型小得多，因為越大的模型表現會越糟糕——這可能就是因為大模型會對近期的經驗過擬合。這方面也有人做過相關的理論研究可供參考http://sologen.net/papers/RegularizationInReinforcementLearning(PhD-Dissertation-Farahmand).pdf。

問題 7，難度 ★★★

自動求解奧林匹克不等式問題。奧林匹克不等式問題表述起來很簡單，但是求解它們通常需要精巧的操作方法。建立一個奧林匹克不等式問題的數據集，然後寫出一個能解出其中大部分的程序。機器學習在這裡能不能派上用場還不太清楚，但是有可能可以用學到的策略減少分叉因子。

對於以上 7 個問題，OpenAI 非常希望有人可以和他們共同研究、嘗試解決這些問題。而且也歡迎有志於把解決這些問題作為工作的人加入 OpenAI。不知道各位讀者是否覺得有意思、是否願意動手試一試呢？

viaOpenAI Blog，AI 科技評論編譯。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技評論 的精彩文章:

※李開復、李飛飛等大佬集聚達沃斯，「吐槽」真實的AI居然長這樣
※NetSciX 2018講座學校回顧：四位青年科學家全方位解析網路科學研究前沿

TAG:AI科技評論 |

邀請函or挑戰書？OpenAI喊你來研究7個AI未解問題啦

熱身問題

待研究的問題