马尔可夫决策过程概述该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。
运行步骤需要Python3.6使用pip从Requirements.txt安装需求使用python3运行以下命令以创建数据和图形文件:pythonrun_experiment.py-全部pythonrun_experiment.py--plot获得的结果有关获得的结果的更多信息,请参考Analysis.pdf。
悬崖行走问题问题结果冻湖网格问题问题结果
2024/1/11 9:14:12
3.63MB
Python