latest #reinforcement-learning created topics on internet

hongtao

2019-02-28 12:25

上一篇文章回顾了强化学习的核心概念，这里继续通过Open AI 的Spinning Up 项目总结强化学习(RL)的算法，通过分类和对比的方法系统介绍强化学习的算法。 1. 算法分类 ---图片来自Open AI Spinning up 项目--- 由于强化学习是一个更新速度非常快的领域，所以准确地全面地分类是相当困难的，Spinning up 项目组给出的这个分类虽然并不全面，但是对初学者来说是非常有用了。

$ 0.064

hongtao

2019-02-25 17:36

强化学习——重拾强化学习的核心概念

虽然之前的文章零零散散地介绍了强化学习的核心概念，但是从来没有系统性地总结这些概念。Spinning Up 项目的官方文档总结得非常好，通俗易懂。通过学习这篇文章，对强化学习的核心概念又有了深入的理解，这篇文章就分享一下我的理解。 1. 核心概念词汇强化学习的核心概念和词汇包括——中英文对照，准确的定义我就不赘述了，只是提炼这些概念和词汇中最重要的关键点。状态和观察(States and

$ 2.379

331

hongtao

2019-02-21 17:32

强化学习实战——OpenAI Spinning Up项目

前面的文章介绍了太多强化学习的理论，今天我们就通过具体项目，理论结合实践深入理解和学习强化学习。 1. Spinning Up 项目简介 Spinning Up 是大名鼎鼎的Open AI推出的免费强化学习教学项目，旨在降低强化学习的门槛，让初学者能在项目实践的过程中一步一步循序渐进地学习。项目不仅提供了详细的理论介绍，同时还有完整的练习代码，真的不不愧是学习深度强化学习的良心之作。

$ 0.000

hongtao

2019-02-13 16:47

AI学习笔记——浅谈强化学习应用于游戏博弈

DeepMind 最近又上了新闻，他们最新的AlphaStar在星际争霸的游戏中与人类顶级星际玩家打成了11比1，几乎完胜人类玩家。这篇文章就结合DeepMind的创始人之一David Silver的最后一节强化学习课程，简单探讨一下AI是如何在游戏领域学习并战胜人类的。 1.完全信息双人零和博弈首先，将游戏简化为双人零和博弈的游戏，即为游戏参与者只有两方，你和计算机，或者计算机和计算机。

$ 0.000

ydaiznfts

Hive Gaming

2026-04-04 16:30

Promoted

Aguasturbias at 10 again, let's go - Teamfight Tactics - [ESP/ENG]

Image created in Canva Source Source Bienvenidos gamers de Hive, jugando esta hermosa partida de Teamfight Tactis nos dimos la aventura de intentar llevar nuevamente el rasgo "aguasturbias" al 10, y con

$ 2.626

141

hongtao

2019-01-17 17:14

AI学习笔记——强化学习之探索-利用(Exploration-Exploitation)困境

在之前的一篇文章中讲到了多臂老虎机问题，这是强化学习中探索-利用困境的经典案例。这篇文章将更多从理论上来探讨如何解决探索-利用困境。 1. 多臂老虎机问题回顾多个拉杆的赌博机，每一个拉杆的中奖几率是不一样的，问题是：如何在有限次数内，选择拉不同的拉杆，获得最多的收益。将这个问题用强化学习的数学模型进行描述每个拉杆相互独立，只有一个Episode，拉一次就结束这个Episode.

$ 0.035

teamhumble

steemhunt

2018-12-13 11:51

comixify - web-based working solution for video comixification

comixify web-based working solution for video comixification Screenshots Hunter's comment ok, this is really fricking cool, i've already got a use case solution for this and i'll be using this at some

$ 7.829

180

hongtao

2018-12-06 21:57

AI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)

前文介绍了函数近似来预测V函数，但是还没涉及到行动和控制，这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制——递增算法 Incremental Control Algorithms 回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略同样的，在使用近似函数之后，也可以使用类似的方法分为两个步骤第一步，进行策略评估，当然这里是用近似函数，将w带入

$ 0.000

hongtao

2018-09-21 16:39

AI学习笔记——求解最优MDP

上一篇文章介绍了MDP的基本概念，但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中，可以有无数种策略(policy)，找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。用数学表达式表达出来就是：其中加星号* 的v和q表示最优的v和q。

$ 0.000

wiseagent

CineTV

2026-04-07 00:52

Promoted

It's getting bigger. It's getting stronger. It's getting wilder.

This publication was also writen in SPANISH and PORTUGUESE. ON Pop Life I'm a big fan of Brazilian cinema. Even with a history full of ups and downs (more downs than ups, to be honest), it is remarkable

$ 3.237

258

hongtao

2018-09-21 12:10

AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介

前面好几篇文章都在介绍强化学习（RL），以及强化学习的一些具体算法，但是强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来说说MDP。讲MDP的文章和资料非常多，理论和数学公式也能轻易找到，所以本文并不是要严谨地推导MDP，而是想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richard

$ 0.000

hongtao

2018-08-12 22:24

AI学习笔记——Sarsa算法

上一篇文章介绍了强化学习中的Q-Learning算法，这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。 1. 回顾Q Learning 还是同样的例子，红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏，将会的到+1的奖励，如果掉进黑色陷阱就回的到-1的奖励(惩罚)。首先回顾一下Q表如下 Q table (States\Actions)left (A1)right (A2)up

$ 0.000

hongtao

2018-08-11 22:54

AI学习笔记——Q Learning

继续接着上一篇，这篇文章介绍强化学习中的一个经典算法——Q Learning. 在之前的文章中已经介绍过了，强化学习就是让Agent(机器人)在与环境的互动过程中不停学习，从而学到解决问题的最佳路径的过程。强化学习通常包括这么几个重要概念：状态(State (S)) 动作(Action(A)) 奖励(Reward(R)) 下面以一个例子来解释这几个概念，并介绍一下Q Learning是什么：

$ 0.000

hongtao

2018-07-27 11:16

AI学习笔记之——多臂老虎机(Multi-armed bandit)问题

上一篇文章简要介绍了一下强化学习，强化学习是一个非常庞大的体系，与监督学习和非监督学习相比，其广度和深度都大的多，涉及到很多经典的决策算法，对统计学知识尤其依赖。作为强化学习的基础，这篇文章研究一下这个领域的一个经典决策问题——多臂老虎机。 1.探索-利用困境(Explore-Exploit dilemma)

$ 0.022

pranavgtd

Worldmappin

2026-04-09 10:45

Promoted

Buddhist Monastery Tshoka.

27.43282, 88.18049

Hello Hive Community. I hope you all are fine. I am also fine here. My post today is different from all my other posts. In today's post, I have introduced a religious place with you that is blessed with

$ 2.906

118

hongtao

2018-07-24 08:56

AI学习笔记之——强化学习(Reinforcement Learning, RL)

诚如在之前文章提到的，机器学习按照从那里学的角度可以分为：监督学习，无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类，而第三类强化学习（RL）确是最接近我们所想象的人工智能。强化学习简介强化学习（RL）就是在环境中与环境的互动不停地学习的，非常像人类学习走路，学习骑车，学习游泳等等。

$ 0.000

awesome-uai

deep

2017-12-19 15:27

Deep Reinforcement Learning Landscape

$ 0.000

Topics