Seq2seq強化學習實戰

最新 01-18

【導讀】本文是Kirti Bakshi在1月14日寫的關於其強化學習課程的一個介紹，作者首先簡單介紹了機器學習的缺點，以及為什麼使用深度學習。然後講述了其開設的課程的主要內容，包括：強化學習基礎、實用的演算法、實用案例等內容。文末給出了課程的GitHub鏈接、slide鏈接、指南地址，有興趣的小夥伴可以下載仔細研究一下。

Practical_RL: Reinforcement learning for seq2seq (pytorch, tensorflow, theano)

在過去的幾十年里，機器學習方法發展迅速。人們可以教演算法怎麼去理解，找到圖像上的對象，翻譯自然語言以及甚至生成文本和語音，甚至如果給出足夠的標記數據，則可以在網際網路上做信息檢索（超過人類水平或與人類同水平）。前面唯一的缺點是，並不是每個問題都可以被認為是學習X - > y轉換（擬合一些參考標籤）。

▌關於本課程：

例如我們發現，在人們說話、學習、玩新的遊戲、在城市環境中導航、設計登陸頁面、騎自行車、甚至建立強化學習代理時，你不止是簡單地教科書式地記住那些最優方案的例子。這些問題的共同之處在於，他們都可以通過反覆實驗的方法來解決：堅持讓那些不好的方面影響較小。

更常見的是，這些問題可以在不同程度上被自動解決。所以在這裡我們要做的就是在整個課程中訓練機器使其可以進行創造性的解決方案。

MOOC的主要重點是對「機器」等life-size問題進行訓練，稱為強化學習（RL）演算法。

▌菜單包括：

內容包括各種各樣的資料，從機器人和遊戲到chatbots（聊天機器人），再到金融。該課程在HSE（俄語）校園內進行授課，一直保持對學生友好（包括英語和俄語）。

▌為了從這門課程中獲益，需要了解什麼？

本課程假定學習者已經掌握以下內容：

還有一件事要知道，這門課程與深度學習的方法有著緊密的聯繫。沒有嚴格的要求有神經網路的經驗，因為課程將使用Theano和Lasagne進行速成課程，但是知道如何使用神經網路一定會派上用場的。

我們的目標是介紹給學生現代人工智慧研究的一個突出領域：強化學習。強化學習更多的是關於人類如何在現實中學習，與有監督學習和無監督學習有很大不同。

▌聲明：

延伸閱讀：對於沒有被詳細介紹的所有材料，都有更多的信息和相關材料的鏈接。

實用性第一：解決強化學習的一切問題都是值得一提的。本課程涵蓋了技巧和啟發。

Git-course：注意到一個公式中的拼寫錯誤？使代碼更可讀？做了一個替代框架的版本？找到一個有用的鏈接？知道如何讓課程更好？在這裡可解決這些問題。

除了學習本課程之外，您還可以為此做出貢獻：

▌鏈接

有關更多信息：GitHub

https://github.com/yandexdataschool/Practical_RL

鏈接到演講幻燈片：點擊這裡

https://yadi.sk/d/loPpY45J3EAYfU

在線學生生存指南：點擊這裡

https://github.com/yandexdataschool/Practical_RL/wiki/Online-student"s-survival-guide

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自專知的精彩文章:

※追本溯源：5種受生物啟發的人工智慧方法

TAG:專知 |