Offline RL 완전 정복: 기존 데이터셋만으로 강화학습 에이전트 학습하기 (CQL, IQL, Decision Transformer 비교)

Offline RL이란?

Offline Reinforcement Learning(오프라인 강화학습)은 환경과의 실시간 상호작용 없이, 이미 수집된 데이터셋만으로 강화학습 에이전트를 학습하는 패러다임입니다. 기존 Online RL이 환경을 직접 탐험하며 데이터를 수집하는 것과 달리, Offline RL은 과거 로그 데이터, 인간 시연, 또는 다른 정책으로부터 수집된 데이터를 활용합니다.

핵심 아이디어: 비용이 많이 들거나 위험한 환경(의료, 자율주행, 로보틱스)에서 안전하게 학습할 수 있습니다.

Online RL vs Offline RL

구분	Online RL	Offline RL
데이터 수집	환경과 실시간 상호작용	고정된 데이터셋 사용
탐험	에이전트가 직접 탐험	탐험 불가능
안전성	학습 중 위험 가능	안전한 학습 환경
적용 분야	게임, 시뮬레이션	의료, 자율주행, 금융
데이터 효율성	많은 샘플 필요	기존 데이터 재활용

Offline RL의 핵심 과제

Offline RL의 가장 큰 문제는 Extrapolation Error(외삽 오류)입니다. 에이전트가 학습 데이터에 없는 상태-행동 쌍에 대해 Q-value를 과대평가하면, 실제로는 좋지 않은 행동을 선택하게 됩니다.

분포 이탈(Distribution Shift): 학습된 정책이 데이터 수집 정책과 다른 상태를 방문
과대평가 문제: 데이터에 없는 행동의 가치를 부정확하게 높게 추정
부트스트래핑 오류: TD 학습 시 오류가 누적되어 발산

주요 Offline RL 알고리즘 비교

1. Conservative Q-Learning (CQL)

CQL은 2020년 UC Berkeley에서 제안한 방법으로, Q-value를 보수적으로(conservatively) 추정하여 과대평가 문제를 해결합니다.

핵심 메커니즘:
– 데이터에 없는 행동의 Q-value를 낮게 추정
– 데이터에 있는 행동의 Q-value를 높게 추정
– 정규화 항을 Bellman error에 추가

# CQL 손실 함수 개념
q_loss = bellman_error + alpha * (
    log_sum_exp(Q(s, a)) - Q(s, a_data)
)

장점:
– 이론적으로 안정적인 하한(lower bound) 보장
– 다양한 데이터 품질에서 강건함
– 연속/이산 행동 공간 모두 적용 가능

단점:
– 하이퍼파라미터(alpha) 튜닝 필요
– 계산 비용이 상대적으로 높음

2. Implicit Q-Learning (IQL)

IQL은 2021년 제안된 방법으로, 정책 추출을 개선하여 Offline RL의 성능을 높였습니다. Q-learning의 maximization 단계를 expectile regression으로 대체합니다.

핵심 메커니즘:
– Value function과 Q-function을 분리 학습
– Expectile regression으로 안정적인 가치 추정
– 행동 정책 없이도 정책 추출 가능

# IQL의 Expectile Loss
def expectile_loss(diff, expectile=0.7):
    weight = torch.where(diff > 0, expectile, 1 - expectile)
    return weight * (diff ** 2)

장점:
– 구현이 간단하고 안정적
– CQL보다 하이퍼파라미터에 덜 민감
– 높은 품질의 데이터에서 우수한 성능

단점:
– 매우 낮은 품질의 데이터에서는 CQL보다 성능 저하
– Expectile 값 선택이 중요

3. Decision Transformer (DT)

Decision Transformer는 RL 문제를 시퀀스 모델링 문제로 재정의한 혁신적인 접근법입니다. GPT 아키텍처를 사용하여 상태, 행동, 리워드 시퀀스를 학습합니다.

핵심 메커니즘:
– Transformer로 (R, s, a) 시퀀스를 조건부 모델링
– 원하는 리턴(Return-to-Go)을 입력으로 제공
– 가치 함수나 정책 그래디언트 없이 지도학습으로 학습

# Decision Transformer 입력 시퀀스
# [R_t, s_t, a_t, R_{t+1}, s_{t+1}, a_{t+1}, ...]
input_seq = torch.cat([
    returns_to_go,  # 목표 리턴
    states,
    actions
], dim=-1)

장점:
– RL 특유의 불안정성 없음 (순수 지도학습)
– Long-term credit assignment 우수
– 스케일링 잠재력 (더 큰 모델, 더 많은 데이터)

단점:
– 데이터에 높은 리턴이 없으면 성능 제한
– 계산 비용 높음 (Transformer 아키텍처)
– Stitching 능력(부분적 궤적 조합) 제한적

알고리즘 선택 가이드

상황	추천 알고리즘	이유
다양한 품질의 데이터	CQL	보수적 추정으로 안정성 보장
고품질 데이터	IQL	간단하고 효율적
대규모 데이터셋	Decision Transformer	스케일링 이점
연속 제어 문제	IQL 또는 CQL	검증된 성능
Long-horizon 태스크	Decision Transformer	Credit assignment 우수

실무 활용 예시

1. 자율주행 시스템

기존 주행 로그 데이터를 활용하여 새로운 정책 학습:
– 인간 운전자의 과거 주행 데이터 수집
– CQL로 안전한 주행 정책 학습
– 시뮬레이터에서 검증 후 실차 적용

2. 추천 시스템

사용자 클릭 로그를 기반으로 개인화 추천:
– 과거 사용자-아이템 상호작용 데이터 활용
– IQL로 장기 사용자 만족도 최적화
– A/B 테스트로 온라인 성능 검증

3. 로보틱스

인간 시연 데이터로 로봇 조작 학습:
– 텔레오퍼레이션으로 수집한 시연 데이터
– Decision Transformer로 다양한 태스크 학습
– 실제 로봇에서 fine-tuning

구현 시 주요 고려사항

데이터 품질:
– 데이터의 다양성과 커버리지가 성능에 결정적
– 너무 편향된 데이터는 일반화 실패 가능성

정규화:
– 상태와 리워드의 정규화가 필수
– 특히 Decision Transformer는 리턴 스케일에 민감

평가 전략:
– Offline 메트릭과 Online 성능의 차이 확인
– 안전이 중요한 도메인에서는 점진적 배포

실무 팁: 처음에는 IQL로 시작하여 빠르게 프로토타입을 만들고, 성능이 부족하면 CQL로 전환하는 것을 추천합니다.

마무리

Offline RL은 기존 데이터를 활용하여 안전하고 효율적으로 강화학습 에이전트를 학습하는 강력한 패러다임입니다. CQL은 보수적 추정으로 안정성을, IQL은 간결함과 효율성을, Decision Transformer는 스케일링 가능성을 제공합니다.

핵심은 문제 특성에 맞는 알고리즘 선택과 고품질 데이터 확보입니다. 의료, 자율주행, 로보틱스 등 실시간 탐험이 어려운 도메인에서 Offline RL은 필수적인 기술이 되고 있으며, 앞으로 더욱 발전할 것으로 기대됩니다.

실무에서는 작은 데이터셋으로 시작하여 점진적으로 확장하고, 시뮬레이션 환경에서 충분히 검증한 후 실제 환경에 배포하는 신중한 접근이 중요합니다.

이 글이 도움이 되셨나요? ☕

Buy me a coffee