Login
Discover
Waves
Decks
Plus
Login
Signup
Topics
New
Trending
Hot
New
New
Trending
Hot
New
Payouts
Muted
Promoted
Global
Top communities
Create decentralized community
latest #renforcement-learning created topics on internet
hongtao
cn-stem
2019-08-31 22:07
强化学习:自动驾驶——Carla 模拟器简介
自动驾驶是机器学习的一个重要的应用领域,作为普通学习者,我们是否可以运用自己学到的机器学习方法训练自动驾驶模型,完成自动驾驶的任务呢?是否需要一辆真实的汽车和真实的马路环境呢? 对于普通学习者来说,我们当然没有必要去驾驶真实的汽车。使用模拟器可以大大降低自动驾驶研究的门槛,这篇文章我们就简单地介绍一下 Carla 这个开源的用于自动驾驶研究的开源模拟器。 1. CARLA 简介 Carla
$ 2.686
635
1
hongtao
cn-stem
2019-08-21 15:52
深度强化学习——Policy Gradient 玩转 CartPole 游戏
Image from unsplash.com by helloquence 前面的文章我们介绍了 Q-learning, DQN 等方法都是基于价值的强化学习方法,今天我们介绍的 Policy Gradient 方法是基于策略的强化学习方法。该方法的理论部分已经介绍过了,这里就不赘述了,直接上手项目。 本文的全部代码可在我的 github repo 中查看 1. 监督学习回顾 为了更好地理解 Policy
$ 1.083
369
1
hongtao
cn-stem
2019-08-11 19:24
用 Keras 搭建 Double DQN 模型
上一篇文章介绍了 DQN 以及如何用 Keras 一步一步搭建 DQN 模型,这篇文章我们来介绍一下 DQN 的改进算法:Double DQN。 1. DQN 的缺点 DQN 有两个神经网络: Prediction 网络 和 Target 网络。其中 Prediction 网络是用来训练的网络,参数一直在更新,Target 网络更新会相对滞后。我们在训练的时候使用 Target 网络 q(s')
$ 1.486
399
2
hongtao
cn-stem
2019-07-24 21:56
用 Keras 轻松搭建模型实现DQN
前面已经有好几篇文章介绍了DQN的理论了,这里就不在赘述了,直接用 Keras 进行项目实战。 源代码请查看我的repo 1. 环境参数设定 gym 的环境参数设定与 Q-learning 类似,我们这里用 MountainCar 环境为例。在DQN中需要设定的是用于记忆回放的 replay_memory,以及其大小 REPLAY_MEMORY_SIZE。MIN_REPLAY_MEMORY_SIZE
$ 1.688
515
2
ydaiznfts
Rising Star Game
2026-04-02 14:15
Promoted
🃏 In search of the legendary ~ N 71° Opening of 4.000.000 starbits in packs [ESP/ENG] 🌷
Hola Buskerianos🤗 Bienvenidos al capítulo número 71 de "En búsqueda de la legendaria", El día de hoy abrimos 4.000.000 starbits. Increiblemente con los 4 millones de starbits no logramos conseguir
$ 1.659
583
hongtao
cn-stem
2019-07-19 14:03
Q-Learning—可操控动作大小的小车爬山游戏
image from unsplash.com by Pietro De Grandi 上篇文章我们用强化学习的方法玩了小车爬山,平衡车的游戏。两个游戏有一个共同点,即动作空间(Action Space) 是非连续的。也就是说只能控制动作 (Action) 方向,无法控制动作大小。这篇文章我们就来看看动作空间连续的情况,用Q-learning 该如何处理。 完整代码请见: 1. 环境简介 同样是小车爬山与
$ 1.780
557
2
hongtao
cn-stem
2019-07-08 14:52
强化学习——Q-Learning SARSA 玩CarPole经典游戏
Image from unsplash.com by Ferdinand Stöhr 前文我们讲了如何用Q-learning 和 SARSA 玩推小车上山的游戏,这篇文章我们探讨一下如何完成Carpole平衡杆的游戏。 同样的,为了方便与读者交流,所有的代码都放在了这里: 1. 环境分析 关于cartPole 游戏的介绍参见之前这篇文章,这里就不赘述了。通过阅读官方文档,Open AI 的 CartPole
$ 1.946
406
3
hongtao
cn-stem
2019-07-08 13:52
强化学习—— SARSA 和 SARSA lambda 玩 MountainCar 爬坡上山
Image from unsplash.com by Jonatan Pie 上一篇文章我们介绍了用 Q-learning 的算法完成了小车爬坡上山的游戏,这篇文章我们来讲讲如何用 SARSA 算法完成同样挑战。 1. Q-Learning 和 SARSA 异同 Q - Learning 和 SARSA 有很多相似之处,他们均属于单步Temporal Difference
$ 1.994
535
5
hongtao
cn-stem
2019-07-05 16:21
强化学习—— Q-Learning 玩 MountainCar 爬坡上山
Image from unsplash.com by Brandon Wallace 之前的文章结合理论和实践熟悉了 Q-Learning 的经典算法,这篇文章我们基于 Open AI 的经典 MountainCar 环境。用 python 代码实现 Q-Learning 算法,完成小车爬坡上山的挑战。 同样的,为了方便与读者交流,所有的代码都放在了这里: 1. Gym 环境初始化 要熟悉
$ 2.114
531
2
ai-seedfinder
bitcoin
2026-03-23 18:59
Promoted
AI Seed Phrase Finder: Professional Bitcoin Wallet Recovery Software & Guide
Discover how AI Seed Phrase Finder recovers lost Bitcoin wallets and makes people rich. Real results, confirmed balances
$ 0.000
13
hongtao
cn-stem
2019-05-23 16:47
DQN——深度Q-Learning轻松上手
之前的文章简单介绍了深度Q-learning的理论以及Q-learng的实战,这篇文章我们就来实践一下与深度学习相结合的Q-learning——Deep Q-learning。 同样的,为了方便与读者交流,所有的代码都放在了这里: 1. Q-learning与深度学习回顾
$ 2.748
452
3
hongtao
cn-stem
2019-05-01 12:11
强化学习实战——Q-Learing和SASAR悬崖探宝
image source from unsplash.com by Daniel Cheung 之前我们介绍了Q-learning和SASAR算法的理论,这篇文章就理论结合实际用Q-learning 和SASAR算法指导智能体,完成悬崖探宝任务。 同样的,为了方便与读者交流,所有的代码都放在了这里: 1. 环境简介 智能体在下图4
$ 2.131
469
2
hongtao
cn-stem
2019-04-26 12:12
强化学习实战——MC(蒙特卡洛)玩21点扑克游戏
通过理论和实战,我们知道,在已知的MDP环境下,可以用动态规划(DP)的方法来获得最佳策略,指导智能体(Agent)行动。DP方法要求环境是已知的,然而实际上我们会遇到更多未知的环境,这个时候就需要用其他方法了。之前的文章介绍过MC和TD (Temporal-Defference) 的理论,这篇文章就用MC方法来玩21点扑克牌游戏。 同样的,为了方便与读者交流,所有的代码都放在了这里: 1. 关于21点游戏
$ 2.186
421
6
hongtao
cn-stem
2019-04-20 11:01
强化学习实战——动态规划(DP)求最优MDP
image source from unsplash by Stijin te Strake 之前的文章介绍了用动态规划(DP: Dynamic Programming)求解最优MDP的理论。DP求解最优MPD有两个方法,一是策略迭代(Policy Iteration),另一个就是值迭代(Value Iteration)。本篇文章就用Python编程实践这个理论。
$ 2.389
440
3