當前位置:
首頁 > 最新 > 機器學習人工學weekly-201834

機器學習人工學weekly-201834

注意下面很多鏈接需要科學上網,無奈國情如此

1. RL相關

1.1 inverse RL教程,第一部分就是講Andrew Ng 20年前的奠基論文(我沒讀原論文,但是驚訝的發現居然全部是用的LP解的)。這個系列值得跟一下,我記得當時看Chelsea Finn的那篇GAN和IRL的論文完全懵逼,希望看完這個系列以後能懂

Inverse Reinforcement Learning pt. I

鏈接:https://thinkingwires.com/posts/2018-02-13-irl-tutorial-1.html

An Outsider』s Tour of Reinforcement Learning

鏈接:http://www.argmin.net/2018/01/29/taxonomy/

1.3 OpenAI發布新的模擬機器人的環境以及開源的Hindsight Experience Replay演算法實現。HER主要是想解決reward shaping以及sparse reward/sample complexity這幾個難題,比不成功的trajectory通過變換goal的方式也拿來學習,非常好的idea

Ingredients for Robotics Research

鏈接:https://blog.openai.com/ingredients-for-robotics-research/

1.4 DeepMind ToMnet (Thoery of Mind),用POMDP去建模其他agent的行為,這個方向好像工作很少,我覺得以後可能會被用到multi-agent的場景

Machine Theory of Mind

鏈接:https://arxiv.org/pdf/1802.07740.pdf

1.5 滴滴的一篇用multi-agent RL做車輛調度論文,通過reformulation降低state space維度,並把地理位置,車輛協同等等contextual信息納入演算法,很有意思。我覺得遊戲agent也可以參考

Efficient Large-Scale Fleet Management via Multi-Agent Deep Reinforcement Learning

鏈接:https://arxiv.org/pdf/1802.06444.pdf

1.6 DeepMind UNICORN演算法,嘗試解決lifelong learning多任務問題

Unicorn: Continual Learning with a Universal, Off-policy Agent

鏈接:https://arxiv.org/pdf/1802.08294.pdf

1.7 幾個RL相關的視頻

1.7.1 Joelle Pineau在NIPS上將reproducibility,這個絕對是個大問題,換幾個seed結果完全變了,github上相同演算法不同實施代碼結果也差別巨大,囧

Reproducibility in Deep Reinforcement Learning - Prof. Pineau - NIPS2017

鏈接:https://www.youtube.com/watch?v=TAMer41J038

1.7.2 Vlad Mnih(DeepMind RL大神,DQN/A3C都是他帶頭搞出來的)在Toronto講多任務RL學習,最新的V-Trace off-policy並行演算法

Volodymyr Mnih - Efficient Multi-Task Deep Reinforcement Learning

鏈接:https://www.youtube.com/watch?v=TfhV51cndPY

1.7.3 Ilya Sutskever (大神不用介紹了吧)講meta-learning

Meta Learning and Self Play

鏈接:https://www.youtube.com/watch?v=BCzFs9Xb9_o


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

谷歌李飛飛:AI民主化服務AutoML Vision面世,不會機器學習也能玩AI
機器學習基礎之樸素貝葉斯(2)

TAG:機器學習 |