<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RSS Feed]]></title><description><![CDATA[RSS Feed]]></description><link>http://direct.ecency.com</link><image><url>http://direct.ecency.com/logo512.png</url><title>RSS Feed</title><link>http://direct.ecency.com</link></image><generator>RSS for Node</generator><lastBuildDate>Mon, 13 Apr 2026 10:15:40 GMT</lastBuildDate><atom:link href="http://direct.ecency.com/created/renforcement-learning/rss.xml" rel="self" type="application/rss+xml"/><item><title><![CDATA[强化学习：自动驾驶——Carla 模拟器简介]]></title><description><![CDATA[自动驾驶是机器学习的一个重要的应用领域，作为普通学习者，我们是否可以运用自己学到的机器学习方法训练自动驾驶模型，完成自动驾驶的任务呢？是否需要一辆真实的汽车和真实的马路环境呢？ 对于普通学习者来说，我们当然没有必要去驾驶真实的汽车。使用模拟器可以大大降低自动驾驶研究的门槛，这篇文章我们就简单地介绍一下 Carla 这个开源的用于自动驾驶研究的开源模拟器。 1. CARLA 简介 Carla]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/carla</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/carla</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Sat, 31 Aug 2019 22:07:15 GMT</pubDate><enclosure url="https://images.ecency.com/p/KWcVEiwEzuiBTGKwzibQKyNw1bWHM8Gvgd7AR9E2WFEpUBzhSVSshi5EwbiifTsJanYAv1VNfRH4SEqqXk?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[深度强化学习——Policy Gradient 玩转 CartPole 游戏]]></title><description><![CDATA[Image from unsplash.com by helloquence 前面的文章我们介绍了 Q-learning, DQN 等方法都是基于价值的强化学习方法，今天我们介绍的 Policy Gradient 方法是基于策略的强化学习方法。该方法的理论部分已经介绍过了，这里就不赘述了，直接上手项目。 本文的全部代码可在我的 github repo 中查看 1. 监督学习回顾 为了更好地理解 Policy]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/policy-gradient-cartpole</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/policy-gradient-cartpole</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Wed, 21 Aug 2019 15:52:36 GMT</pubDate><enclosure url="https://images.ecency.com/p/368La1fSsTuDRLWi9QqFUHTJeaVR4nHUWCbjYaicFg6VTYrVa7b3P89D4zaSdmNXnc7bQY9sSCmj5idi1f9HETUS?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[用 Keras 搭建 Double DQN 模型]]></title><description><![CDATA[上一篇文章介绍了 DQN 以及如何用 Keras 一步一步搭建 DQN 模型，这篇文章我们来介绍一下 DQN 的改进算法：Double DQN。 1. DQN 的缺点 DQN 有两个神经网络: Prediction 网络 和 Target 网络。其中 Prediction 网络是用来训练的网络，参数一直在更新，Target 网络更新会相对滞后。我们在训练的时候使用 Target 网络 q(s')]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/keras-double-dqn</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/keras-double-dqn</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Sun, 11 Aug 2019 19:24:03 GMT</pubDate><enclosure url="https://images.ecency.com/p/368La1fSsTuDRMadYeHh5hFPwkY2yWWKc8DGYKabL4ZYM7moFFk8v37gsEvJs6WWKR54wmYY7DtG86t9cMev13F4?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[用 Keras 轻松搭建模型实现DQN]]></title><description><![CDATA[前面已经有好几篇文章介绍了DQN的理论了，这里就不在赘述了，直接用 Keras 进行项目实战。 源代码请查看我的repo 1. 环境参数设定 gym 的环境参数设定与 Q-learning 类似，我们这里用 MountainCar 环境为例。在DQN中需要设定的是用于记忆回放的 replay_memory，以及其大小 REPLAY_MEMORY_SIZE。MIN_REPLAY_MEMORY_SIZE]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/keras-dqn</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/keras-dqn</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Wed, 24 Jul 2019 21:56:12 GMT</pubDate><enclosure url="https://images.ecency.com/p/368La1fSsTuDRLWi9QqFUHTJeaVR4nHUWCbjYaicFg6TzszgkX1aE7YHAVFcU54fFyfTSQWEvVUaMqZVDCpBjffc?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[Q-Learning—可操控动作大小的小车爬山游戏]]></title><description><![CDATA[image from unsplash.com by Pietro De Grandi 上篇文章我们用强化学习的方法玩了小车爬山，平衡车的游戏。两个游戏有一个共同点，即动作空间(Action Space) 是非连续的。也就是说只能控制动作 (Action) 方向，无法控制动作大小。这篇文章我们就来看看动作空间连续的情况，用Q-learning 该如何处理。 完整代码请见： 1. 环境简介 同样是小车爬山与]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/q-learning</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/q-learning</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 19 Jul 2019 14:03:30 GMT</pubDate><enclosure url="https://images.ecency.com/p/QVdSJhgNm7s1isdYsJFBDW9ZzoDuLBosbeESi96iEy3ZtCTNyeoUbSH9Q9HV6pmtgDovcYAB8LMNP3svzQ2ymtWZs5syrQUYE8Q18K7c2D1eri4PoAKSX7KxZT3q37JgPnKUkYNgjoeHQEMjYVSdX6Dfx4SePa8U1QnP96ZbDcT4uB86rLWEHBu?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习——Q-Learning SARSA 玩CarPole经典游戏]]></title><description><![CDATA[Image from unsplash.com by Ferdinand Stöhr 前文我们讲了如何用Q-learning 和 SARSA 玩推小车上山的游戏，这篇文章我们探讨一下如何完成Carpole平衡杆的游戏。 同样的，为了方便与读者交流，所有的代码都放在了这里： 1. 环境分析 关于cartPole 游戏的介绍参见之前这篇文章，这里就不赘述了。通过阅读官方文档，Open AI 的 CartPole]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/q-learning-sarsa-carpole</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/q-learning-sarsa-carpole</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Mon, 08 Jul 2019 14:52:27 GMT</pubDate><enclosure url="https://images.ecency.com/p/368La1fSsTuDRMadYeHh5hFPwkY2yWWKc8DGYKabL4ZYM7moFFk8v37gmsY4LkArbKjEfGdtkpF7RnuppzBxr4JA?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习—— SARSA 和 SARSA lambda 玩 MountainCar 爬坡上山]]></title><description><![CDATA[Image from unsplash.com by Jonatan Pie 上一篇文章我们介绍了用 Q-learning 的算法完成了小车爬坡上山的游戏，这篇文章我们来讲讲如何用 SARSA 算法完成同样挑战。 1. Q-Learning 和 SARSA 异同 Q - Learning 和 SARSA 有很多相似之处，他们均属于单步Temporal Difference]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/sarsa-sarsa-lambda-mountaincar</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/sarsa-sarsa-lambda-mountaincar</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Mon, 08 Jul 2019 13:52:06 GMT</pubDate><enclosure url="https://images.ecency.com/p/368La1fSsTuDRLWi9QqFUHTJeaVR4nHUWCbjYaicFg6TzszgkX1aE7YH5YzX7FC8YdN8NYNM7Qr1e19qHT72HPsk?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习—— Q-Learning 玩 MountainCar 爬坡上山]]></title><description><![CDATA[Image from unsplash.com by Brandon Wallace 之前的文章结合理论和实践熟悉了 Q-Learning 的经典算法，这篇文章我们基于 Open AI 的经典 MountainCar 环境。用 python 代码实现 Q-Learning 算法，完成小车爬坡上山的挑战。 同样的，为了方便与读者交流，所有的代码都放在了这里： 1. Gym 环境初始化 要熟悉]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/q-learning-mountaincar</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/q-learning-mountaincar</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 05 Jul 2019 16:21:18 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iQSWccB3gzNDq3QRHmM5Mqkat2Wv7Pfobt6f8YJZKWYKgNWPnyUXYQ4igkYx3usUq4Tx3q1aH5Q?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[DQN——深度Q-Learning轻松上手]]></title><description><![CDATA[之前的文章简单介绍了深度Q-learning的理论以及Q-learng的实战，这篇文章我们就来实践一下与深度学习相结合的Q-learning——Deep Q-learning。 同样的，为了方便与读者交流，所有的代码都放在了这里： 1. Q-learning与深度学习回顾]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/dqn-q-learning</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/dqn-q-learning</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 23 May 2019 16:47:33 GMT</pubDate><enclosure url="https://images.ecency.com/p/gPCasciUWmF5N2EK9d5bJBua1tvzK4A3Dp68KkrpmSgMiuVov8Nvy1D3ykfwtEeCVEjSuFDrpygRUGvEopAh6Nx27kvaDyuTsx9gqoJWePqqzmrYZPtioVNrKyhGGQPEVGXGFd9wtXntyHaRad?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习实战——Q-Learing和SASAR悬崖探宝]]></title><description><![CDATA[image source from unsplash.com by Daniel Cheung 之前我们介绍了Q-learning和SASAR算法的理论，这篇文章就理论结合实际用Q-learning 和SASAR算法指导智能体，完成悬崖探宝任务。 同样的，为了方便与读者交流，所有的代码都放在了这里： 1. 环境简介 智能体在下图4]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/q-learing-sasar</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/q-learing-sasar</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Wed, 01 May 2019 12:11:45 GMT</pubDate><enclosure url="https://images.ecency.com/p/ADdPNihJzmPcacBNasFjQjyoMAC3E73pkebHso86x2f581hQ7N42CoWt6AWs7LxnAmb8e5Xbr5x1n2GngdLJfeJsg?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习实战——MC(蒙特卡洛)玩21点扑克游戏]]></title><description><![CDATA[通过理论和实战，我们知道，在已知的MDP环境下，可以用动态规划(DP)的方法来获得最佳策略，指导智能体(Agent)行动。DP方法要求环境是已知的，然而实际上我们会遇到更多未知的环境，这个时候就需要用其他方法了。之前的文章介绍过MC和TD (Temporal-Defference) 的理论，这篇文章就用MC方法来玩21点扑克牌游戏。 同样的，为了方便与读者交流，所有的代码都放在了这里： 1. 关于21点游戏]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/mc-21</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/mc-21</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 26 Apr 2019 12:12:48 GMT</pubDate><enclosure url="https://images.ecency.com/p/7ohP4GDMGPrUMp8dW6yuJTR9MKNu8P8DCXDU9qmmpVDLxRPJ19r7DDz5aTMWduqoPax7zgYeukhcr2ayuBc3s45RAfFVdspHxFg7?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[强化学习实战——动态规划(DP)求最优MDP]]></title><description><![CDATA[image source from unsplash by Stijin te Strake 之前的文章介绍了用动态规划(DP: Dynamic Programming)求解最优MDP的理论。DP求解最优MPD有两个方法，一是策略迭代(Policy Iteration)，另一个就是值迭代(Value Iteration)。本篇文章就用Python编程实践这个理论。]]></description><link>http://direct.ecency.com/cn-stem/@hongtao/dp-mdp</link><guid isPermaLink="true">http://direct.ecency.com/cn-stem/@hongtao/dp-mdp</guid><category><![CDATA[cn-stem]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Sat, 20 Apr 2019 11:01:00 GMT</pubDate><enclosure url="https://images.ecency.com/p/ADdPNihJzmPcacC5s8k339azk2Jje3XyKPD2u8HLwQv3qaXFX2YWabTw2cKoc5XzaxU9JcX2qWxy3YLtZN2CSuA4e?format=match&amp;mode=fit" length="0" type="false"/></item></channel></rss>