정책최적화

PPO 알고리즘으로 복잡한 게임 마스터하기 – 연속 행동 공간 다루기

2026년 01월 30일

강화학습

시작하며 지난 편에서는 DQN을 활용해 Atari 게임을 학습하는 방법을 다뤘습니다. DQN은 이산 행동 공간에서 강력하지만, 실제 게임 환경에서는 조이스틱의 미묘한 각도 조절이나 가속도 조절처럼 연속적인 행동 공간을 다뤄야 할 때가 많습니다. 이번 편에서는 이러한 문제를 해결하는 PPO(Proximal Policy Optimization) 알고리즘을 깊이 있게 살펴보겠습니다. PPO가 필요한…
계속 읽기 →

TODAY 136 | TOTAL 136