交互式:PPO Clipping 可视化

拖动滑块改变参数,观察 clipped objective 如何限制策略更新:

橙色线 = unclipped objective (r·A),红色线 = clipped objective,绿色区域 = 实际使用的 min 值