<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RSS Feed]]></title><description><![CDATA[RSS Feed]]></description><link>http://direct.ecency.com</link><image><url>http://direct.ecency.com/logo512.png</url><title>RSS Feed</title><link>http://direct.ecency.com</link></image><generator>RSS for Node</generator><lastBuildDate>Tue, 21 Apr 2026 18:51:24 GMT</lastBuildDate><atom:link href="http://direct.ecency.com/created/mote-carlo/rss.xml" rel="self" type="application/rss+xml"/><item><title><![CDATA[AI学习笔记——强化学习之探索-利用(Exploration-Exploitation)困境]]></title><description><![CDATA[在之前的一篇文章中讲到了多臂老虎机问题，这是强化学习中探索-利用困境的经典案例。这篇文章将更多从理论上来探讨如何解决探索-利用困境。 1. 多臂老虎机问题回顾 多个拉杆的赌博机，每一个拉杆的中奖几率是不一样的，问题是：如何在有限次数内，选择拉不同的拉杆，获得最多的收益。 将这个问题用强化学习的数学模型进行描述 每个拉杆相互独立，只有一个Episode，拉一次就结束这个Episode.]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-exploration-exploitation</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-exploration-exploitation</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 17 Jan 2019 17:14:42 GMT</pubDate><enclosure url="https://images.ecency.com/p/8DAuGnTQCLpuyB3uhsWf9RjT6u1TUrbuoLKBft56ksKV4T5dMEojNNDKBnAeWNhiDjCJaGNnqfvmLefCPPwZyEZisLDiKdGu4QKzqQiNYcM2nHkdwTF592rP2pgxXyRg5xzrTUgjCST3hWvDqsD91v3nWTAr6o3x7oCj5a4x1u1?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——基于模型(Model Based)的强化学习]]></title><description><![CDATA[之前发表的关于强化学习的文章，无论是基于策略的还是基于价值的还是两者均兼顾的强化学习方法都没有涉及到具体的模型。 1. 无模型(Model-Free)的强化学习回顾 机器人在真实环境中互动学习，然后寻找到行动策略，然后学习优化策略。 2. 基于模型(Model-Based)的强化学习简介 模型就是对真实世界的模拟，在模型中学习就是在真实世界中建模，所以学习的环境变成了模型中的‘‘卡通’’世界。]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-model-based</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-model-based</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 11 Jan 2019 15:56:00 GMT</pubDate><enclosure url="https://images.ecency.com/p/8DAuGnTQCLpuyB3uhsWf9RjT6u1TUrbuoLKBft56ksKV4T5dMEojNNDKBnAeWNhiDjCJaGNnqfvmMAgf18a3PD81x44JiaEqPge18nCaEqWEYSz2wztVEAnWJamm3SA7Lf1i9FngjycrYYya3WrRFarPZbKyrYyFJh8o3PcjmcK?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——Actor-Critic强化学习]]></title><description><![CDATA[1. 回顾强化学习方法 我们介绍了基于价值(Value-Based)的强化学习和基于策略(Policy-Based)的强化学习，有没有结合两者优势的强化学习方法呢？答案是肯定的，那就是Actor-Critic学习方法。三者的关系如下图：]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-actor-critic</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-actor-critic</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 11 Jan 2019 14:30:33 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iPdTLWHrUcai3pY6jw2EGdqr4RetTZ2Si2eT2qt5LX9FtBRZATwG6eRb5AQLxdoSRMjVbhSExt6?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——基于策略的强化学习]]></title><description><![CDATA[1. 基于价值的强化学习回顾 前几篇文章都是在讲通过训练值函数的近似函数，然后通过比如Ɛ-greedy探索方法获得最佳策略，这种方法叫做基于价值的强化学习。然而基于价值的强化学习有无法收敛，无法获得随机策略，以及可能遇到状态重名的问题。]]></description><link>http://direct.ecency.com/ai/@hongtao/44w57n-ai</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/44w57n-ai</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Fri, 11 Jan 2019 14:00:54 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iP4cTPjWjyy2dVC9J9utVwJeJkYqyffLqnT3C4aCzEY1sQ56mpRrSgQryZAg4SXC3MYA2neETee?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——强化学习之值函数近似(Value Function Approximation)(3)]]></title><description><![CDATA[前面两篇文章介绍了如何使用近似函数，而不是“查表”的方法找到最优策略，但是遇到了一个问题，就是在使用非线性近似函数，比如神经网络的时候，大多数情况是不收敛的。这篇文章就是来解决这个问题的。这里用到的DQN(Deep Q-Learning)方法实际上在之前的文章中也已经介绍过了。 1. 批方法Batch Methods]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-3</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-3</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 06 Dec 2018 23:44:18 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iQN36bz9bhEjWpNgHHCyYebWAuBhUQgVCXbqGdRHkWvLR3voP7FAeULRSFvS1Kv2LUQpK8bqTWn?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)]]></title><description><![CDATA[前文介绍了函数近似来预测V函数，但是还没涉及到行动和控制，这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制——递增算法 Incremental Control Algorithms 回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略 同样的，在使用近似函数之后，也可以使用类似的方法 分为两个步骤 第一步，进行策略评估，当然这里是用近似函数，将w带入]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-2</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-2</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Thu, 06 Dec 2018 21:57:24 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iNufLngSeiAWtbrUdtKzyNohE3DLHjZ2396RMfukM82NPKUEzaRK1LjayzuyUdsgbqXsdQCdnLN?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——强化学习之值函数近似(Value Function Approximation)(1)]]></title><description><![CDATA[在前面的文章介绍了什么是MDP，以及如何求解最优MDP解决MDP问题。接着又介绍了用MD和TD的方法在未知环境下预测MDP。在这些方法中的最优策略π就是为了获得最大值函数(V函数)Vπ(s)或者加入了行动a的Q函数Qπ(s,a)。 然而在实际问题中，比如电子游戏，下象棋棋，状态的个数可以是10的几十到几百个次方，数量可能比宇宙中的微粒都多，不要说遍历一下每一个状态，就是记录下每一个状态都是几乎不可能完成的任务。]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-1</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-value-function-approximation-1</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Wed, 05 Dec 2018 12:25:03 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iPEy4LhDpTPbvitU9cyhD299WEaDxgwWgTn7rb2wohNmemZWH2fqpC6PN44Rb71UYM5x29rAuDg?format=match&amp;mode=fit" length="0" type="false"/></item><item><title><![CDATA[AI学习笔记——强化学习之Model-Free Prediction--解决未知环境下的预测问题]]></title><description><![CDATA[前面关于强化学习的文章中介绍了MDP，动态规划的方法对MDP问题的V函数进行评估和求最优策略。然而现实问题中，往往很多时候环境是未知的。那么这篇文章就介绍一下在未知环境下用Model Free的方法预测MDP。 1. Monte-Carlo （蒙特卡洛）策略估计]]></description><link>http://direct.ecency.com/ai/@hongtao/ai-model-free-prediction</link><guid isPermaLink="true">http://direct.ecency.com/ai/@hongtao/ai-model-free-prediction</guid><category><![CDATA[ai]]></category><dc:creator><![CDATA[hongtao]]></dc:creator><pubDate>Wed, 17 Oct 2018 15:09:30 GMT</pubDate><enclosure url="https://images.ecency.com/p/C3TZR1g81UNaPs7vzNXHueW5ZM76DSHWEY7onmfLxcK2iQN88WCu98yDn8KHvHNJb9pCDgaBnkh3TXAm188PJ6o2KAvD9oCpv8TcM5yS6QYCL3PqcsXeXoU?format=match&amp;mode=fit" length="0" type="false"/></item></channel></rss>