제목의 의미
다중 에이전트 강화 학습(Multi-agent reinforcement learning; MARL)이 일련의 의사결정 문제로 추상화될 수 있으며, 이를 통해 시퀀스 모델링(sequence modeling) 기법을 적용할 수 있다는 의미. 여러 에이전트가 상호작용하는 과정을 시퀀스 데이터로 보고 이를 모델링하는 접근 방식을 강조.
Abstract 요약
1. 대규모 시퀀스 모델(GPT 시리즈와 BERT 등)은 자연어 처리, 비전, 최근에는 강화 학습에서 뛰어난 성능과 일반화 능력을 보여줌.
2. 따라서 다중 에이전트 의사결정도 시퀀스 모델링 문제로 추상화하고, 이를 통해 시퀀스 모델링의 발전을 활용할 수 있는 방법에 대해 아이디어를 얻을 수 있음.
3. 이 논문에서는 다중 에이전트 강화 학습(MARL)을 시퀀스 모델링 문제로 효과적으로 변환하는 새로운 아키텍처인 Multi-Agent Transformer (MAT)를 소개함.
4. MAT의 목표는 에이전트들의 관찰 시퀀스를 최적의 행동 시퀀스로 매핑하는 것입니다.
5. MAT의 핵심은 multi-agent advantage decomposition theorem을 활용하여 공동 정책 탐색 문제를 순차적 의사결정 과정으로 변환하는 인코더-디코더 아키텍처입니다.
6. 이를 통해 다중 에이전트 문제에서 선형 시간 복잡성을 가지며, 단조로운 성능 향상 보장을 제공합니다.
7. 기존의 Decision Transformer와 달리 MAT는 환경에서 온라인으로 시행착오를 겪으며 학습합니다.
8. MAT를 검증하기 위해 StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation, Google Research Football 등에서 실험을 수행하였으며, MAPPO 및 HAPPO와 같은 강력한 기준보다 우수한 성능과 데이터 효율성을 입증했습니다. 또한, MAT는 에이전트 수의 변화와 관계없이 새로운 작업에서 우수한 few-short learner 성능을 보여줍니다.