[태그:] Offline-RL
-
Offline RL 완전 정복: 기존 데이터셋만으로 강화학습 에이전트 학습하기 (CQL, IQL, Decision Transformer 비교)
Offline RL이란? Offline Reinforcement Learning(오프라인 강화학습)은 환경과의 실시간 상호작용 없이, 이미 수집된 데이터셋만으로 강화학습 에이전트를 학습하는 패러다임입니다. 기존 Online RL이 환경을 직접 탐험하며 데이터를 수집하는 것과 달리, Offline RL은 과거 로그 데이터, 인간 시연, 또는 다른 정책으로부터 수집된 데이터를 활용합니다. 핵심 아이디어: 비용이 많이 들거나…