Login
Discover
Waves
Decks
Plus
Login
Signup
Topics
New
Trending
Hot
New
New
Trending
Hot
New
Payouts
Muted
Promoted
Global
Top communities
Create decentralized community
latest #reinforcement-learning created topics on internet
hongtao
ai
2019-02-28 12:25
强化学习——强化学习的算法分类
上一篇文章回顾了强化学习的核心概念,这里继续通过Open AI 的Spinning Up 项目总结强化学习(RL)的算法,通过分类和对比的方法系统介绍强化学习的算法。 1. 算法分类 ---图片来自Open AI Spinning up 项目--- 由于强化学习是一个更新速度非常快的领域,所以准确地全面地分类是相当困难的,Spinning up 项目组给出的这个分类虽然并不全面,但是对初学者来说是非常有用了。
$ 0.064
22
hongtao
ai
2019-02-25 17:36
强化学习——重拾强化学习的核心概念
虽然之前的文章零零散散地介绍了强化学习的核心概念,但是从来没有系统性地总结这些概念。Spinning Up 项目的官方文档总结得非常好,通俗易懂。通过学习这篇文章,对强化学习的核心概念又有了深入的理解,这篇文章就分享一下我的理解。 1. 核心概念词汇 强化学习的核心概念和词汇包括——中英文对照,准确的定义我就不赘述了,只是提炼这些概念和词汇中最重要的关键点。 状态和观察(States and
$ 2.379
331
2
hongtao
ai
2019-02-21 17:32
强化学习实战——OpenAI Spinning Up项目
前面的文章介绍了太多强化学习的理论,今天我们就通过具体项目,理论结合实践深入理解和学习强化学习。 1. Spinning Up 项目简介 Spinning Up 是大名鼎鼎的Open AI推出的免费强化学习教学项目,旨在降低强化学习的门槛,让初学者能在项目实践的过程中一步一步循序渐进地学习。项目不仅提供了详细的理论介绍,同时还有完整的练习代码,真的不不愧是学习深度强化学习的良心之作。
$ 0.000
1
hongtao
ai
2019-02-13 16:47
AI学习笔记——浅谈强化学习应用于游戏博弈
DeepMind 最近又上了新闻,他们最新的AlphaStar在星际争霸的游戏中与人类顶级星际玩家打成了11比1,几乎完胜人类玩家。这篇文章就结合DeepMind的创始人之一David Silver的最后一节强化学习课程,简单探讨一下AI是如何在游戏领域学习并战胜人类的。 1.完全信息双人零和博弈 首先,将游戏简化为双人零和博弈的游戏,即为 游戏参与者只有两方,你和计算机,或者计算机和计算机。
$ 0.000
4
6
ydaiznfts
Hive Gaming
2026-04-04 16:30
Promoted
Aguasturbias at 10 again, let's go - Teamfight Tactics - [ESP/ENG]
Image created in Canva Source Source Bienvenidos gamers de Hive, jugando esta hermosa partida de Teamfight Tactis nos dimos la aventura de intentar llevar nuevamente el rasgo "aguasturbias" al 10, y con
$ 2.626
141
hongtao
ai
2019-01-17 17:14
AI学习笔记——强化学习之探索-利用(Exploration-Exploitation)困境
在之前的一篇文章中讲到了多臂老虎机问题,这是强化学习中探索-利用困境的经典案例。这篇文章将更多从理论上来探讨如何解决探索-利用困境。 1. 多臂老虎机问题回顾 多个拉杆的赌博机,每一个拉杆的中奖几率是不一样的,问题是:如何在有限次数内,选择拉不同的拉杆,获得最多的收益。 将这个问题用强化学习的数学模型进行描述 每个拉杆相互独立,只有一个Episode,拉一次就结束这个Episode.
$ 0.035
3
10
teamhumble
steemhunt
2018-12-13 11:51
comixify - web-based working solution for video comixification
comixify web-based working solution for video comixification Screenshots Hunter's comment ok, this is really fricking cool, i've already got a use case solution for this and i'll be using this at some
$ 7.829
180
17
hongtao
ai
2018-12-06 21:57
AI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)
前文介绍了函数近似来预测V函数,但是还没涉及到行动和控制,这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制——递增算法 Incremental Control Algorithms 回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略 同样的,在使用近似函数之后,也可以使用类似的方法 分为两个步骤 第一步,进行策略评估,当然这里是用近似函数,将w带入
$ 0.000
1
hongtao
ai
2018-09-21 16:39
AI学习笔记——求解最优MDP
上一篇文章介绍了MDP的基本概念,但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中,可以有无数种策略(policy),找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。 用数学表达式表达出来就是: 其中加星号* 的v和q表示最优的v和q。
$ 0.000
2
wiseagent
CineTV
2026-04-07 00:52
Promoted
It's getting bigger. It's getting stronger. It's getting wilder.
This publication was also writen in SPANISH and PORTUGUESE. ON Pop Life I'm a big fan of Brazilian cinema. Even with a history full of ups and downs (more downs than ups, to be honest), it is remarkable
$ 3.237
258
3
hongtao
ai
2018-09-21 12:10
AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介
前面好几篇文章都在介绍强化学习(RL),以及强化学习的一些具体算法,但是强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来说说MDP。 讲MDP的文章和资料非常多,理论和数学公式也能轻易找到,所以本文并不是要严谨地推导MDP,而是想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richard
$ 0.000
4
2
hongtao
ai
2018-08-12 22:24
AI学习笔记——Sarsa算法
上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。 1. 回顾Q Learning 还是同样的例子,红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏,将会的到+1的奖励,如果掉进黑色陷阱就回的到-1的奖励(惩罚)。 首先回顾一下Q表如下 Q table (States\Actions)left (A1)right (A2)up
$ 0.000
2
hongtao
ai
2018-08-11 22:54
AI学习笔记——Q Learning
继续接着上一篇,这篇文章介绍强化学习中的一个经典算法——Q Learning. 在之前的文章中已经介绍过了,强化学习就是让Agent(机器人)在与环境的互动过程中不停学习,从而学到解决问题的最佳路径的过程。 强化学习通常包括这么几个重要概念: 状态(State (S)) 动作(Action(A)) 奖励(Reward(R)) 下面以一个例子来解释这几个概念,并介绍一下Q Learning是什么:
$ 0.000
4
hongtao
ai
2018-07-27 11:16
AI学习笔记之——多臂老虎机(Multi-armed bandit)问题
上一篇文章简要介绍了一下强化学习,强化学习是一个非常庞大的体系,与监督学习和非监督学习相比,其广度和深度都大的多,涉及到很多经典的决策算法,对统计学知识尤其依赖。作为强化学习的基础,这篇文章研究一下这个领域的一个经典决策问题——多臂老虎机。 1.探索-利用困境(Explore-Exploit dilemma)
$ 0.022
5
pranavgtd
Worldmappin
2026-04-09 10:45
Promoted
Buddhist Monastery Tshoka.
27.43282, 88.18049
Hello Hive Community. I hope you all are fine. I am also fine here. My post today is different from all my other posts. In today's post, I have introduced a religious place with you that is blessed with
$ 2.906
118
6
hongtao
ai
2018-07-24 08:56
AI学习笔记之——强化学习(Reinforcement Learning, RL)
诚如在之前文章提到的,机器学习按照从那里学的角度可以分为:监督学习,无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类,而第三类强化学习(RL)确是最接近我们所想象的人工智能。 强化学习简介 强化学习(RL)就是在环境中与环境的互动不停地学习的,非常像人类学习走路,学习骑车,学习游泳等等。
$ 0.000
3
4
awesome-uai
deep
2017-12-19 15:27
Deep Reinforcement Learning Landscape
$ 0.000
2
2