機器學習人工學weekly-201834
注意下面很多鏈接需要科學上網,無奈國情如此
1. RL相關
1.1 inverse RL教程,第一部分就是講Andrew Ng 20年前的奠基論文(我沒讀原論文,但是驚訝的發現居然全部是用的LP解的)。這個系列值得跟一下,我記得當時看Chelsea Finn的那篇GAN和IRL的論文完全懵逼,希望看完這個系列以後能懂
Inverse Reinforcement Learning pt. I
鏈接:https://thinkingwires.com/posts/2018-02-13-irl-tutorial-1.html
An Outsider』s Tour of Reinforcement Learning
鏈接:http://www.argmin.net/2018/01/29/taxonomy/
1.3 OpenAI發布新的模擬機器人的環境以及開源的Hindsight Experience Replay演算法實現。HER主要是想解決reward shaping以及sparse reward/sample complexity這幾個難題,比不成功的trajectory通過變換goal的方式也拿來學習,非常好的idea
Ingredients for Robotics Research
鏈接:https://blog.openai.com/ingredients-for-robotics-research/
1.4 DeepMind ToMnet (Thoery of Mind),用POMDP去建模其他agent的行為,這個方向好像工作很少,我覺得以後可能會被用到multi-agent的場景
Machine Theory of Mind
鏈接:https://arxiv.org/pdf/1802.07740.pdf
1.5 滴滴的一篇用multi-agent RL做車輛調度論文,通過reformulation降低state space維度,並把地理位置,車輛協同等等contextual信息納入演算法,很有意思。我覺得遊戲agent也可以參考
Efficient Large-Scale Fleet Management via Multi-Agent Deep Reinforcement Learning
鏈接:https://arxiv.org/pdf/1802.06444.pdf
1.6 DeepMind UNICORN演算法,嘗試解決lifelong learning多任務問題
Unicorn: Continual Learning with a Universal, Off-policy Agent
鏈接:https://arxiv.org/pdf/1802.08294.pdf
1.7 幾個RL相關的視頻
1.7.1 Joelle Pineau在NIPS上將reproducibility,這個絕對是個大問題,換幾個seed結果完全變了,github上相同演算法不同實施代碼結果也差別巨大,囧
Reproducibility in Deep Reinforcement Learning - Prof. Pineau - NIPS2017
鏈接:https://www.youtube.com/watch?v=TAMer41J038
1.7.2 Vlad Mnih(DeepMind RL大神,DQN/A3C都是他帶頭搞出來的)在Toronto講多任務RL學習,最新的V-Trace off-policy並行演算法
Volodymyr Mnih - Efficient Multi-Task Deep Reinforcement Learning
鏈接:https://www.youtube.com/watch?v=TfhV51cndPY
1.7.3 Ilya Sutskever (大神不用介紹了吧)講meta-learning
Meta Learning and Self Play
鏈接:https://www.youtube.com/watch?v=BCzFs9Xb9_o
※谷歌李飛飛:AI民主化服務AutoML Vision面世,不會機器學習也能玩AI
※機器學習基礎之樸素貝葉斯(2)
TAG:機器學習 |