제목의 의미
- Decision Transformer: Decision Transformer는 강화 학습(RL)을 수행하는 모델임. 이 모델은 트랜스포머(Transformer) 아키텍처를 사용하여 행동을 결정하는 방식에 쓰임.
- Reinforcement Learning: 강화 학습은 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동을 학습하는 기계 학습의 한 분야임.
- via Sequence Modeling: 시퀀스 모델링을 통해, Decision Transformer는 RL 문제를 조건부 시퀀스 모델링 문제로 변환함. 이는 과거의 상태와 행동, 그리고 보상을 기반으로 최적의 행동을 예측하는 방식임. 트랜스포머 모델을 사용하여 시퀀스를 예측함으로써 강화 학습을 수행합니다.
Decision Transformer라는 새로운 모델이 시퀀스 모델링을 통해 강화 학습 문제를 해결함. 기존의 가치 함수나 정책 그래디언트를 계산하는 강화 학습 방법 대신, 이 모델은 과거의 데이터와 목표 보상을 기반으로 미래의 행동을 예측 .
Abstract 정리
- 논문은 강화 학습(RL)을 시퀀스 모델링 문제로 추상화하는 프레임워크를 소개함.
- 이를 통해 트랜스포머 아키텍처의 단순성과 확장성을 활용가능함.
- 논문은 Decision Transformer라는 아키텍처를 제안함.
- 이 아키텍처는 RL 문제를 조건부 시퀀스 모델링으로 변환함.
- 기존의 RL 접근 방식과 달리, Decision Transformer는 최적의 행동을 출력하는 데 중점을 둠.
- 과거의 상태와 행동, 원하는 보상에 따라 미래의 행동을 생성함.
- 이 모델은 Atari, OpenAI Gym, Key-to-Door 작업에서 최신 model free offline RL 성능과 비슷하거나 좋은 성능을 냄.
- 제안하는 트랜스포머 모델을 이해하기 위해, 방향 그래프에서 최단 경로를 찾는 작업을 강화 학습 문제로 고려함.
- 최단 경로를 찾는 환경에서 에이전트가 목표 노드에 있을 때 보상은 0이고, 그렇지 않으면 -1입니다.
- 논문은 GPT 모델을 훈련하여 returns-to-go(미래 보상의 합), 상태 및 행동의 시퀀스에서 다음 토큰을 예측합니다.
- returns-to-go : 현재 상태에서 goal state로 갔을때의 return 값을 의미함.
- 전문가 시연 없이 랜덤 워크 데이터로만 훈련합니다.
- 테스트 시 최적 궤적을 생성하기 위해 최고 가능한 반환값을 생성하는 사전을 추가합니다.
- 그런 다음, 조건 설정을 통해 해당 행동 시퀀스를 생성합니다.
- 따라서, 시퀀스 모델링 도구를 사후 반환 정보와 결합하여 동적 프로그래밍 없이 정책 개선을 달성합니다.
의문점 :
1. 최고 가능한 반환값을 생성하는 사전을 추가
2. 조건 설정
ChatGTP 적극활용!