Openai Gym On Ant V4

Average Return

评测结果

各个模型在此基准测试上的表现结果

模型名称	Average Return	Paper Title
PPO	608.97	Proximal Policy Optimization Algorithms
DDPG	1712.12	Continuous control with deep reinforcement learning
TD3	5942.55	Addressing Function Approximation Error in Actor-Critic Methods
MEow	6586.33	Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow
SAC	5208.09	Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

0 of 5 row(s) selected.