機器學習人工學weekly-201834

最新 03-07

注意下面很多鏈接需要科學上網，無奈國情如此

1. RL相關

1.1 inverse RL教程，第一部分就是講Andrew Ng 20年前的奠基論文（我沒讀原論文，但是驚訝的發現居然全部是用的LP解的）。這個系列值得跟一下，我記得當時看Chelsea Finn的那篇GAN和IRL的論文完全懵逼，希望看完這個系列以後能懂

Inverse Reinforcement Learning pt. I

鏈接：https://thinkingwires.com/posts/2018-02-13-irl-tutorial-1.html

An Outsider』s Tour of Reinforcement Learning

鏈接：http://www.argmin.net/2018/01/29/taxonomy/

1.3 OpenAI發布新的模擬機器人的環境以及開源的Hindsight Experience Replay演算法實現。HER主要是想解決reward shaping以及sparse reward/sample complexity這幾個難題，比不成功的trajectory通過變換goal的方式也拿來學習，非常好的idea

Ingredients for Robotics Research

鏈接：https://blog.openai.com/ingredients-for-robotics-research/

1.4 DeepMind ToMnet (Thoery of Mind)，用POMDP去建模其他agent的行為，這個方向好像工作很少，我覺得以後可能會被用到multi-agent的場景

Machine Theory of Mind

鏈接：https://arxiv.org/pdf/1802.07740.pdf

1.5 滴滴的一篇用multi-agent RL做車輛調度論文，通過reformulation降低state space維度，並把地理位置，車輛協同等等contextual信息納入演算法，很有意思。我覺得遊戲agent也可以參考

Efficient Large-Scale Fleet Management via Multi-Agent Deep Reinforcement Learning

鏈接：https://arxiv.org/pdf/1802.06444.pdf

1.6 DeepMind UNICORN演算法，嘗試解決lifelong learning多任務問題

Unicorn: Continual Learning with a Universal, Off-policy Agent

鏈接：https://arxiv.org/pdf/1802.08294.pdf

1.7 幾個RL相關的視頻

1.7.1 Joelle Pineau在NIPS上將reproducibility，這個絕對是個大問題，換幾個seed結果完全變了，github上相同演算法不同實施代碼結果也差別巨大，囧

Reproducibility in Deep Reinforcement Learning - Prof. Pineau - NIPS2017

鏈接：https://www.youtube.com/watch?v=TAMer41J038

1.7.2 Vlad Mnih（DeepMind RL大神，DQN/A3C都是他帶頭搞出來的）在Toronto講多任務RL學習，最新的V-Trace off-policy並行演算法

Volodymyr Mnih - Efficient Multi-Task Deep Reinforcement Learning

鏈接：https://www.youtube.com/watch?v=TfhV51cndPY

1.7.3 Ilya Sutskever (大神不用介紹了吧）講meta-learning

Meta Learning and Self Play

鏈接：https://www.youtube.com/watch?v=BCzFs9Xb9_o

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※谷歌李飛飛：AI民主化服務AutoML Vision面世，不會機器學習也能玩AI
※機器學習基礎之樸素貝葉斯（2）

TAG:機器學習 |