<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RSS Feed]]></title><description><![CDATA[RSS Feed]]></description><link>http://direct.ecency.com</link><image><url>http://direct.ecency.com/logo512.png</url><title>RSS Feed</title><link>http://direct.ecency.com</link></image><generator>RSS for Node</generator><lastBuildDate>Mon, 20 Apr 2026 21:20:05 GMT</lastBuildDate><atom:link href="http://direct.ecency.com/created/reinforcement-learning/rss.xml" rel="self" type="application/rss+xml"/><item><title><![CDATA[强化学习——强化学习的算法分类]]></title><description><![CDATA[上一篇文章回顾了强化学习的核心概念，这里继续通过Open AI 的Spinning Up 项目总结强化学习(RL)的算法，通过分类和对比的方法系统介绍强化学习的算法。 1. 算法分类 ---图片来自Open AI Spinning up 项目--- 由于强化学习是一个更新速度非常快的领域，所以准确地全面地分类是相当困难的，Spinning up 项目组给出的这个分类虽然并不全面，但是对初学者来说是非常有用了。]]></description><link>http://direct.ecency.com/ai/@hongtao/7atbof</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/7atbof</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 28 Feb 2019 12:25:27 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iQbqtPQmNBzXGDshte3onHKdrsYpEbe2ByaGMw6xedDKb2JGpjuTCVTao4PBoAYtDYjZerVNKup?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习——重拾强化学习的核心概念]]></title><description><![CDATA[虽然之前的文章零零散散地介绍了强化学习的核心概念，但是从来没有系统性地总结这些概念。Spinning Up 项目的官方文档总结得非常好，通俗易懂。通过学习这篇文章，对强化学习的核心概念又有了深入的理解，这篇文章就分享一下我的理解。 1. 核心概念词汇 强化学习的核心概念和词汇包括——中英文对照，准确的定义我就不赘述了，只是提炼这些概念和词汇中最重要的关键点。 状态和观察(States and]]></description><link>http://direct.ecency.com/ai/@hongtao/2bqdkd</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/2bqdkd</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Mon, 25 Feb 2019 17:36:03 GMT</pubDate><enclosure url="https://images.ecency.com/p/8DAuGnTQCLpuyB3uhsWf9RjT6u1TUrbuoLKBft56ksKV4T5dMEojNNDKBnAeWNhiDjCJaGNnqfvmLfuuxMJCtNCsSwKEppemKfGJH7W5GdQmn8QSyUBwyv9kMcysCR49aT44rdHymEhMuE3zt12agTdySQGDBx5iNjYVvCrxzns?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习实战——OpenAI Spinning Up项目]]></title><description><![CDATA[前面的文章介绍了太多强化学习的理论，今天我们就通过具体项目，理论结合实践深入理解和学习强化学习。 1. Spinning Up 项目简介 Spinning Up 是大名鼎鼎的Open AI推出的免费强化学习教学项目，旨在降低强化学习的门槛，让初学者能在项目实践的过程中一步一步循序渐进地学习。项目不仅提供了详细的理论介绍，同时还有完整的练习代码，真的不不愧是学习深度强化学习的良心之作。]]></description><link>http://direct.ecency.com/ai/@hongtao/openai-spinning-up</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/openai-spinning-up</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 21 Feb 2019 17:32:57 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iQC8rUg9v24RJYF6CY43ry5rdjsvpbQaorx1jTiTE9jkBrGW2Y8s8oZ7Amxz6Sa3FW4W1UGu2bY?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——浅谈强化学习应用于游戏博弈]]></title><description><![CDATA[DeepMind 最近又上了新闻，他们最新的AlphaStar在星际争霸的游戏中与人类顶级星际玩家打成了11比1，几乎完胜人类玩家。这篇文章就结合DeepMind的创始人之一David Silver的最后一节强化学习课程，简单探讨一下AI是如何在游戏领域学习并战胜人类的。 1.完全信息双人零和博弈 首先，将游戏简化为双人零和博弈的游戏，即为 游戏参与者只有两方，你和计算机，或者计算机和计算机。]]></description><link>http://direct.ecency.com/ai/@hongtao/3uwvqg-ai</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/3uwvqg-ai</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Wed, 13 Feb 2019 16:47:06 GMT</pubDate><enclosure url="https://images.ecency.com/p/8DAuGnTQCLpuyB3uhsWf9RjT6u1TUrbuoLKBft56ksKV4T5dMEojNNDKBnAeWNhiDjCJaGNnqfvmLe5HsUkwsnYSVSBMyerJadmALzkxRqf1mH4uawAnXjqW1GVB5d6AfY9nKGAef69tpznmNaamoxH2yPcCTnHBnVJSkYdygTq?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——强化学习之探索-利用(Exploration-Exploitation)困境]]></title><description><![CDATA[在之前的一篇文章中讲到了多臂老虎机问题，这是强化学习中探索-利用困境的经典案例。这篇文章将更多从理论上来探讨如何解决探索-利用困境。 1. 多臂老虎机问题回顾 多个拉杆的赌博机，每一个拉杆的中奖几率是不一样的，问题是：如何在有限次数内，选择拉不同的拉杆，获得最多的收益。 将这个问题用强化学习的数学模型进行描述 每个拉杆相互独立，只有一个Episode，拉一次就结束这个Episode.]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-exploration-exploitation</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-exploration-exploitation</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 17 Jan 2019 17:14:42 GMT</pubDate><enclosure url="https://images.ecency.com/p/8DAuGnTQCLpuyB3uhsWf9RjT6u1TUrbuoLKBft56ksKV4T5dMEojNNDKBnAeWNhiDjCJaGNnqfvmLefCPPwZyEZisLDiKdGu4QKzqQiNYcM2nHkdwTF592rP2pgxXyRg5xzrTUgjCST3hWvDqsD91v3nWTAr6o3x7oCj5a4x1u1?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[comixify - web-based working solution for video comixification]]></title><description><![CDATA[comixify web-based working solution for video comixification Screenshots Hunter's comment ok, this is really fricking cool, i've already got a use case solution for this and i'll be using this at some]]></description><link>http://direct.ecency.com/steemhunt/@teamhumble/comixify-web-based-working-solution-for-video-comixification</link><guid isPermaLink="true">http://direct.ecency.com/steemhunt/@teamhumble/comixify-web-based-working-solution-for-video-comixification</guid><category><![CDATA[steemhunt]]></category><dc:creator><![CDATA[teamhumble]]></dc:creator><pubDate>Thu, 13 Dec 2018 11:51:03 GMT</pubDate><enclosure url="https://images.ecency.com/p/NTy4GV6ooFRq8erYz5HZFcKZa4u7MaDwaofR4zbEPXQJUbw68bHtUvi45oJpmbaagnsZx9WByuVQFZ8BFzKLsvcxc8LkAN2tZQkpjV8XF7AHz6yqRVeL3u7t9c1zZNz35vHCebaKVpBkY6sNbY9E3HbQEZYJ41Wq9rdUanLn?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)]]></title><description><![CDATA[前文介绍了函数近似来预测V函数，但是还没涉及到行动和控制，这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制——递增算法 Incremental Control Algorithms 回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略 同样的，在使用近似函数之后，也可以使用类似的方法 分为两个步骤 第一步，进行策略评估，当然这里是用近似函数，将w带入]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-2</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-2</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 06 Dec 2018 21:57:24 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iNufLngSeiAWtbrUdtKzyNohE3DLHjZ2396RMfukM82NPKUEzaRK1LjayzuyUdsgbqXsdQCdnLN?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——求解最优MDP]]></title><description><![CDATA[上一篇文章介绍了MDP的基本概念，但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中，可以有无数种策略(policy)，找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。 用数学表达式表达出来就是： 其中加星号* 的v和q表示最优的v和q。]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-mdp</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-mdp</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 21 Sep 2018 16:39:09 GMT</pubDate><enclosure url="https://images.ecency.com/p/7ohP4GDMGPrUMp8dW6yuJTR9MKNu8P8DCXDU9qmmhvSkLG7MYpKvTy5FCErjc7pKJZiNBFXqdbg5S167DcDYXB1D9CgsbghLQWMf?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介]]></title><description><![CDATA[前面好几篇文章都在介绍强化学习（RL），以及强化学习的一些具体算法，但是强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来说说MDP。 讲MDP的文章和资料非常多，理论和数学公式也能轻易找到，所以本文并不是要严谨地推导MDP，而是想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richard]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-mdp-markov-decision-processes</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-mdp-markov-decision-processes</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 21 Sep 2018 12:10:06 GMT</pubDate><enclosure url="https://images.ecency.com/p/7ohP4GDMGPrUMp8dW6yuJTR9MKNu8P8DCXDU9qmmkX23LzecTocGW2zLyFpZAqqL56JeF8m9XSUR4cWgV6NKPK4ZQCpV65dpCQBT?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——Sarsa算法]]></title><description><![CDATA[上一篇文章介绍了强化学习中的Q-Learning算法，这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。 1. 回顾Q Learning 还是同样的例子，红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏，将会的到+1的奖励，如果掉进黑色陷阱就回的到-1的奖励(惩罚)。 首先回顾一下Q表如下 Q table (States\Actions)left (A1)right (A2)up]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-sarsa</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-sarsa</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Sun, 12 Aug 2018 22:24:24 GMT</pubDate><enclosure url="https://images.ecency.com/p/7ohP4GDMGPrUMp8dW6yuJTR9MKNu8P8DCXDU9qmmjuRWwKnvAPgCWAxUeAzc1mQ4gEAmpCBoLQWErQjDXYRsj289hwo9JrwGPcR8?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——Q Learning]]></title><description><![CDATA[继续接着上一篇，这篇文章介绍强化学习中的一个经典算法——Q Learning. 在之前的文章中已经介绍过了，强化学习就是让Agent(机器人)在与环境的互动过程中不停学习，从而学到解决问题的最佳路径的过程。 强化学习通常包括这么几个重要概念： 状态(State (S)) 动作(Action(A)) 奖励(Reward(R)) 下面以一个例子来解释这几个概念，并介绍一下Q Learning是什么：]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-q-learning</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-q-learning</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Sat, 11 Aug 2018 22:54:03 GMT</pubDate><enclosure url="https://images.ecency.com/p/7ohP4GDMGPrUMp8dW6yuJTR9MKNu8P8DCXDU9qmmjuRWwKnvAPgCWAxUeAzc1mQ4gEAmpCBoLQWErQjDXYRsj289hwo9JrwGPcR8?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记之——多臂老虎机(Multi-armed bandit)问题]]></title><description><![CDATA[上一篇文章简要介绍了一下强化学习，强化学习是一个非常庞大的体系，与监督学习和非监督学习相比，其广度和深度都大的多，涉及到很多经典的决策算法，对统计学知识尤其依赖。作为强化学习的基础，这篇文章研究一下这个领域的一个经典决策问题——多臂老虎机。 1.探索-利用困境(Explore-Exploit dilemma)]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-multi-armed-bandit</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-multi-armed-bandit</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 27 Jul 2018 11:16:21 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iQSBQcPP5RY7dAbrfptFnuzhH7tXbjNnQ6uwZveABMYvhCpCMnewg9ns4prwmg6rbrhpmyj3cvA?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记之——强化学习(Reinforcement Learning, RL)]]></title><description><![CDATA[诚如在之前文章提到的，机器学习按照从那里学的角度可以分为：监督学习，无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类，而第三类强化学习（RL）确是最接近我们所想象的人工智能。 强化学习简介 强化学习（RL）就是在环境中与环境的互动不停地学习的，非常像人类学习走路，学习骑车，学习游泳等等。]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-reinforcement-learning-rl</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-reinforcement-learning-rl</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Tue, 24 Jul 2018 08:56:45 GMT</pubDate><enclosure url="https://images.ecency.com/p/54TLbcUcnRm3sWQK3HKkuAMedF1JSX7yKgEqYjnyTKPwrcuFbmQ7s5tjY5g6yUF2icHCfQuoXjGHSWz2bq14dJsxB21EAnnTfjrBWa7bxXMEmDZNn9CwXxsQboNaMVe5pEUHcNWaZ?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[Deep Reinforcement Learning Landscape]]></title><link>http://direct.ecency.com/deep/@awesome-uai/deep-reinforcement-learning-landscape</link><guid isPermaLink="true">http://direct.ecency.com/deep/@awesome-uai/deep-reinforcement-learning-landscape</guid><category><![CDATA[deep]]></category><dc:creator><![CDATA[awesome-uai]]></dc:creator><pubDate>Tue, 19 Dec 2017 15:27:42 GMT</pubDate><enclosure url="https://images.ecency.com/p/mXkfdToSwHy1pbjMQLn1BtkRRRvRYoUPBECQEYqS6G8BtZW2DqgcAreyFJ4xEzGAi6w5BGHZJKXyjp16fsimDnFBoStEY5kYwdEMqeA3g?format=match&amp;mode=fit" length="0" type="false"/></item></channel></rss>