Agentic RL: 개념부터 실무까지
생성형 AI의 활용은 단순한 질의응답이나 문장 생성 단계를 넘어, AI Agent가 환경을 관찰하고 다양한 도구를 활용하면서 복잡한 작업을 수행하는 단계로 발전하고 있습니다. 검색, 코드 생성, GUI 조작, 사내 문서 조사, 고객 지원 등 AI Agent가 담당하는 작업은 점점 장기적이고 다단계화되고 있으며, 이제는 단순히 “좋은 답변을 생성하는 것”만으로는 충분하지 않게 되었습니다.
이러한 변화와 함께 LLM 학습에도 새로운 접근 방식이 요구되고 있습니다. 기존의 RLHF나 DPO는 주로 최종 응답의 품질을 높이기 위한 방법으로 활용되어 왔습니다. 반면 AI Agent에서는 어떤 정보를 수집할지, 어떤 도구를 호출할지, 언제 탐색을 중단할지, 실패했을 때 어떻게 복구할지 등 작업 완료에 이르기까지의 행동 시퀀스 자체가 품질을 결정짓는 중요한 요소가 됩니다.
이러한 배경에서 주목받고 있는 것이 바로 Agentic RL (Agentic Reinforcement Learning, 에이전틱 강화학습)입니다. Agentic RL은 LLM을 단순한 텍스트 생성 모델이 아니라, 환경 속에서 행동을 선택하는 학습 가능한 정책(policy)으로 바라보는 접근 방식입니다. 계획(planning), 추론(reasoning), 도구 활용(tool use), 기억(memory), 자기 수정(self-correction), 지각(perception)과 같은 Agentic 능력을 강화학습을 통해 개선하는 것을 목표로 합니다.
하지만 Agentic RL을 실제로 구현하고 운영하는 일은 결코 쉽지 않습니다. 보상 설계, rollout 수집, 도구 실행 환경, 평가, 분산 학습, 로그 관리, 실패 분석 등 모델 학습뿐 아니라 시스템 전체의 설계가 필요하기 때문입니다.
본 화이트페이퍼에서는 Agentic RL을 이해하고 실무에 적용하기 위해 필요한 기초 개념들을 정리합니다. 먼저 PPO, DPO, GRPO, DAPO, GSPO와 같은 LLM 개발을 위한 RL 기법들을 개괄적으로 살펴봅니다. 이어서 Agentic RL이 기존 LLM 개발을 위한 RL과 어떻게 다른지를 순차적 의사결정, trajectory 최적화, 도구 활용, 보상 설계의 관점에서 설명합니다.
또한 ABEJA의 실제 적용 사례를 통해 Agentic RL을 도입할 때 마주하게 되는 구체적인 어려움도 소개합니다. 마지막으로 Agentic RL 구현을 위한 기반 인프라로서 OpenPipe ART와 W&B Training을 설명하며, 실무적으로 어떻게 접근해야 하는지에 대한 방향성을 제시합니다.이 화이트페이퍼를 통해 독자 여러분이 다음과 같은 질문에 답할 수 있게 되는 것을 목표로 합니다.
- Agentic RL이란 무엇인가
- 기존의 LLM 강화학습과 Agentic RL은 무엇이 다른가
- Agentic RL을 이해하기 위해 필요한 강화학습 기법은 무엇인가
- ABEJA 핫토리(Hattori) 님의 Agentic RL 실전 사례
- Agentic RL을 지원하는 구현 기반으로서의 W&B Training