크래프톤은 대규모 언어 모델(LLM)을 기반으로 한 AI 에이전트의 게임 수행 능력을 평가하는 벤치마크 '오락'을 16일 공개했다.
'오락'은 게임 환경에서 AI의 상황 인식과 판단, 행동 결정 과정을 정량적으로 분석할 수 있는 평가 체계다. 액션, 어드벤처, RPG, 시뮬레이션, 전략, 퍼즐 등 총 6개 장르의 게임을 기반으로 설계됐다.
이 체계에는 크래프톤과 엔비디아가 공동 개발한 CPC(상호작용 캐릭터)로 축적한 AI 설계 경험이 반영됐다. AI 에이전트가 복잡한 게임 맥락 속에서 상황을 해석하고 결정하는 능력을 평가한다.
핵심 기술은 MCP(모델 컨텍스트 프로토콜)다. 게임 정보를 언어 모델이 이해할 수 있는 텍스트 기반의 정보로 전달하고, 모델의 응답을 게임에 적용 가능한 행동으로 변환한다. 액션 게임에서는 장애물의 위치를 인식한 뒤 이동이나 점프와 같은 판단을 수행하게 된다.
이강욱 크래프톤 딥러닝 본부장은 "'오락'은 크래프톤의 선행 연구와 노하우가 집약된 게임 특화형 LLM 벤치마크로, 이를 기반으로 향후 LLM 에이전트 설계 역량을 겨루는 대회도 기획 중"이라며 "앞으로도 게임 분야에 최적화된 LLM 기술을 지속적으로 고도화해 AI를 통한 게임 플레이 경험의 혁신을 주도해 나가겠다"고 말했다.