《强化学习精要核心算法与TensorFlow实现》冯超著共386页;
内容简介《强化学习精要:核心算法与TensorFlow实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。
从基本的马尔可夫决策过程,到各种复杂的强化学习算法,读者都可以从本书中学习到。
本书除了介绍这些算法的原理,还深入分析了算法之间的内在联系,可以帮助读者举一反三,掌握算法精髓。
书中介绍的代码可以帮助读者’快速将算法应用到实践中。
《强化学习精要:核心算法与TensorFlow实现》内容翔实,语言简洁易懂,既适合零基础的人员人门学习,也适合相关科研人员研究参考。
1
强化学习算法的入门资料,有利于大家学习强化学习算法
2023/7/21 8:36:30 5.45MB 强化学习算法
1
使用强化学习算法在网格情景中举行了路途方案
2023/3/30 15:13:14 3KB matlab 强化学习
1
我搜集的电梯调度算法,论文。
包括:强化学习算法,LOOK调度算法,最短寻道算法,遗传算法,滚动优化算法,模糊控制,预定电梯群控算法,基于现场总线的算法。
希望免除大家搜索之苦。
2021/3/26 1:31:03 3.9MB 电梯调度算法 电梯算法 论文 资料
1
模仿学习此仓库包含一些强化学习算法的简单PyTorch实现:优势演员评论家(A2C)的同步变体近端策略优化(PPO)-最受欢迎的RL算法,,,策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法(尚不起作用...)行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。
为什么回购被称为“模仿学习”?当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。
但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。
结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴味,并打算添加一些相关算法。
当前功能目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。
每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。
Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
2016/4/5 15:54:46 11.42MB
1
强化学习算法,完成强化学习对网络资源的分配,目的是频谱利用最大化
2018/10/6 14:56:49 6KB 强化学习算法
1
深度强化学习是深度学习算法和强化学习算法的巧妙结合,它是一种新兴的通用人工智能算法技术,也是机器学习的前沿技术,DRL算法潜力无限,AlphaGo是目前该算法最成功的使用案例。
DRL算法以马尔科夫决策过程为基础,是在深度学习强大的非线性函数的拟合能力下构成的一种增强算法。
深度强化学习算法主要包括基于动态规划(DP)的算法以及基于策略优化的算法,这本书共10章,首先以AlphaGo在围棋大战的伟大事迹开始,引起对人工智能发展和现状的引见,进而引见深度强化学习的基本知识。
然后分别引见了强化学习(重点引见蒙特卡洛算法和时序差分算法)和深度学习的基础知识、功能神经网络层、卷积神经网络(CNN)、循环神经网络(RNN),以及深度强化学习的理论基础和当前主流的算法框架。
最后引见了深度强化学习在不同领域的几个应用实例。
2019/3/8 21:17:23 145.91MB 深度强化学习
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡