模仿学习此仓库包含一些强化学习算法的简单PyTorch实现:优势演员评论家(A2C)的同步变体近端策略优化(PPO)-最受欢迎的RL算法,,,策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法(尚不起作用...)行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。
为什么回购被称为“模仿学习”?当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。
但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。
结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴味,并打算添加一些相关算法。
当前功能目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。
每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。
Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
2016/4/5 15:54:46 11.42MB
1
RL!dePacker(超级脱壳机)1.2版支持72种壳.这次1.3支持92种壳.并且附件中还有一个汉化版本!RL!dePackeristestedwith92packers:aUS[AdvancedUPXScrambler]0.4-0.5ASPack1.x-2.xAHPack1.xAlexProtector1.xARMProtector0.xBam
2020/5/12 20:22:27 166KB 应用软件
1
B/K/...VexRiscv的插件生成器当心,这是针对从2021年1月20日开始的中间草案中的bitmanip扩展(B),因而操作码和子集可能与B的当前版本不匹配。
Z的Ditto,则针对0.8.1版本。
两者都可能需要VexRiscv的功能补丁,请参见下文。
打包的SIMD(P)缺少许多功能,目标是0.92。
这个仓库这是一个快速的'n'dirty插件生成器,用于将扩展的子集添加到内核。
生成的插件仅适用于RV32。
它尚不支持所有的B指令。
缺少的说明是:所有以'W'结尾的指令,因为它们仅适用于RV64BMAT*,因为它们仅适用于RV64CRC32*三操作数指令(CMIX,CMOV,FS[RL]*);
它们可用,但需要VexRiscv修补程序以支持第三个输入(所有VexRiscv修补程序都可在)支持部分指令(rev8,zext.h或orc.b
2020/1/12 5:23:49 270KB C
1
daoLiBai_RL.m为微分倒立摆模型,modelTest.m为测试模型正确性的文件。
之前的资源需求积分是自动设置的,都太高了。
我给改回来。
2020/3/13 9:42:38 1KB matlab 直线一级倒立摆 微分模型
1
强化学习的旧书。
基于Openaigym,Openaigym是一个用于开发和比较RL算法的工具包。
2022/9/5 0:16:58 12.92MB 强化学习
1
包括对原始图像的扇束投影数据的模仿生成,和对投影数据的反投影重建图像两个过程。
使用经典的RL滤波函数重建,main.m为主函数,参数可变。
2022/9/3 11:07:38 4KB CT 扇束投影 重建 matlab
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡