DRL-网球统一项目详情这是Udacity深度强化学习纳米学位的最终项目。
在这种环境下,两名特工控制球拍在球网上弹跳球。
如果探员将球击中网,则得到+0.1的奖励。
如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。
因此,每个特工的目标是保持比赛中的球权。
观察空间由8个变量组成,分别对应于球和球拍的位置和速度。
每个代理都会收到自己的本地观察结果。
有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。
该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在连续两次情节达到最高分后,在两个特工中均取得了最高分)这些是此Unity环境的一些细节:INFO:unityagents:'Academy'startedsuccessfully!UnityAcademyname:AcademyNumb
1