정책최적화

  • PPO 알고리즘으로 복잡한 게임 마스터하기 – 연속 행동 공간 다루기

    시작하며 지난 편에서는 DQN을 활용해 Atari 게임을 학습하는 방법을 다뤘습니다. DQN은 이산 행동 공간에서 강력하지만, 실제 게임 환경에서는 조이스틱의 미묘한 각도 조절이나 가속도 조절처럼 연속적인 행동 공간을 다뤄야 할 때가 많습니다. 이번 편에서는 이러한 문제를 해결하는 PPO(Proximal Policy Optimization) 알고리즘을 깊이 있게 살펴보겠습니다. PPO가 필요한…

    계속 읽기 →

TODAY 136 | TOTAL 136