什麼是深度強化學習：人工智慧和深度學習的下一步

最新 03-02

傳統上，強化學習在人工智慧領域佔據著一個合適的地位。但強化學習在過去幾年已開始在很多人工智慧計劃中發揮更大的作用。其最佳的應用點在於計算艾真體(agent)在環境上情境化的決策場景中要採取的最佳行動。

強化學習非常適合自主決策，因為單靠監督學習或無監督學習技術無法完成任務。

強化學習使用試錯法將演算法獎勵函數最大化，它非常適用於IT運營管理、能源、醫療保健、商業、金融、交通和金融領域的很多自適應控制和艾真體自動化應用。它用來訓練人工智慧，它為傳統的重點領域提供支持——機器人技術、遊戲和模擬——以及邊緣分析、自然語言處理、機器翻譯、計算機視覺和數字助理等新一代人工智慧解決方案。

強化學習也是物聯網中自主邊緣應用程序開發的基礎。很多邊緣應用程序的開發(工業、交通、醫療和消費應用)涉及對注入了人工智慧的機器人技術的構建，這些技術可以在動態環境條件下以不同程度的情境自主性進行操作。

強化學習如何工作

在這樣的應用領域中，邊緣設備的人工智慧大腦必須依賴強化學習，由於在這裡缺少預先存在的「真實值(ground truth)」訓練數據集，他們試圖將累計獎勵函數最大化，例如根據規範中包含的一組標準組裝一個生產組件。這與其它類型的人工智慧的學習方式形成對比，後者要麼是(像監督學習一樣)對相對於真實值數據的演算法上的損失函數進行最小化，要麼(像無監督學習一樣)對數據點之間的距離函數進行最小化。

但是，這些人工智慧學習方法不一定是孤島。最有趣的人工智慧趨勢之一是強化學習與更高級的應用程序中的監督學習和無監督學習的融合。人工智慧開發人員將這些方法融入到僅憑單一的學習方法不足為用的應用程序中。

例如，監督學習本身在沒有標記的訓練數據的情況下是無用的，在自動駕駛這樣的應用中往往缺乏標記的訓練數據，在這裡，每個瞬時的環境情況本質上都是未標記且獨特的。同樣，無監督學習(使用聚類分析來檢測感測器饋源和其它複雜的未標記數據中的模式)並非用來發現智能終端在真實世界的決策場景中應採取的最佳操作。

什麼是深度強化學習

然後是深層強化學習，這是一種領先的技術，在這種技術中，自治的艾真體(autonomous agent)使用強化學習的試錯演算法和累計獎勵函數來加速神經網路設計。這些設計為很多依靠監督和/或無監督學習的人工智慧應用程序提供支持。

深度強化學習是人工智慧開發和培訓管道自動化的核心重點領域。它涉及對強化學習驅動的艾真體的使用，以快速探索與無數體系結構、節點類型、連接、超參數設置相關的性能權衡，以及對深度學習、機器學習和其他人工智慧模型設計人員可用的其它選擇。

例如，研究人員正在使用深度強化學習來快速確定哪一種深度學習卷積神經網路(CNN)架構可能用於解決特徵工程、計算機視覺和圖像分類中的各種難題。人工智慧工具可能會使用從深度強化學習獲得的結果來自動生成最佳CNN，使用TensorFlow、MXNet或PyTorch等深度學習開發工具來完成該任務。

在這方面，看到強化學習發展和培訓的開放框架的出現是鼓舞人心的。你在探索深度強化學習時可能需要探索下面這些強化學習框架，這些框架利用、擴展並與TensorFlow和其它深度學習和機器學習建模工具接合，這些工具已得到廣泛採用：

強化學習

人工智慧開發人員需要的強化學習技能

展望未來，人工智慧開發人員將需要沉浸在這些框架和其它框架中實施的各種強化學習演算法中。你還需要加深對多艾真體強化學習架構的理解，這其中有很多架構大量利用老牌的博弈論研究機構。你還要熟悉深度強化學習，以此來發現計算機視覺應用中與名為「模糊」的攻擊方法相關的安全漏洞。

(來源：企業網D1Net）

企業網D1net已推出企業應用商店（www.enappstore.com），面向企業級軟體，SaaS等提供商，提供陳列，點評功能，不參與交易和交付。現可免費入駐，入駐後，可獲得在企業網D1net 相應公眾號推薦的機會。歡迎入駐。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI人工智慧D1net 的精彩文章:

TAG:AI人工智慧D1net |