Automatic Robot Task Planning by Integrating Large Language Model with Genetic Programming
논문 정보
- 제목: Automatic Robot Task Planning by Integrating Large Language Model with Genetic Programming
- 저자: Azizjon Kobilov (University of Glasgow, James Watt School of Engineering), Jianglin Lan (University of Glasgow, James Watt School of Engineering)
- 학회/저널: 10th IEEE International Conference on Advanced Robotics and Mechatronics (ARM 2025), Portsmouth, UK
- 발행일: 2025-02-11 (arXiv 제출일)
- DOI: arXiv:2502.07772
- 주요 연구 내용: LLM과 유전 프로그래밍(GP)을 통합한 LLM-GP-BT 기법으로 자연어 로봇 작업 명령을 행동 트리(BT) 기반 작업 계획으로 자동 변환
- 주요 결과 및 결론: LLM-GP-BT가 GP-BT 대비 더 빠른 수렴 속도와 우수한 성능을 확률적 환경에서도 유지하며, 절반 크기의 초기 집단으로도 기존 방법보다 우수한 성능 달성
- 기여점: 사전 정의된 BT 예시 없이 환경 이미지와 자연어 명령만으로 BT를 자동 생성하는 사용자 친화적이고 계산 효율적인 프레임워크 제안
요약
초록
자율 시스템(로봇, 드론, 자율주행차 등)의 제어에서 정확한 작업 계획은 매우 중요하다. 행동 트리(BT)는 모듈성, 유연성, 재사용성으로 인해 작업 계획에서 가장 유력한 제어 정책 프레임워크 중 하나로 평가된다. 그러나 신뢰성 있고 정확한 BT 기반 제어 정책을 생성하는 것은 여전히 어렵고 도메인 전문 지식을 필요로 한다. 본 논문은 대규모 언어 모델(LLM)과 유전 프로그래밍(GP)을 활용하여 BT의 생성 및 구성을 자동화하는 LLM-GP-BT 기법을 제안한다. 이 기법은 인간 자연어로 표현된 로봇 작업 명령을 처리하여 정확하고 신뢰성 있는 BT 기반 작업 계획으로 변환하며, 계산 효율적이고 사용자 친화적인 방식으로 동작한다.
서론
로봇 작업 계획에서 행동 트리는 유한 상태 기계(FSM) 등 기존 제어 아키텍처 대비 모듈적 설계와 계층적 구조의 장점을 가진다. 그러나 복잡한 환경에서 적절한 BT를 설계하려면 로봇 공학과 BT 문법에 대한 전문 지식이 필요하다. 최근 LLM이 자연어 이해와 코드 생성에서 뛰어난 능력을 보이고 있으나, LLM만으로 생성된 BT는 구문적 오류나 비최적 구조를 포함할 수 있다. 유전 프로그래밍은 진화적 최적화를 통해 BT 구조를 개선할 수 있지만, 초기 집단의 품질에 크게 의존한다.
모델 아키텍처 / 방법론
LLM-GP-BT 프레임워크는 다음 단계로 구성된다:
-
멀티모달 LLM 입력 단계: 세 가지 입력을 수신
- 시스템 메시지: 로봇의 역할과 사용 가능한 함수 정의
- 환경 이미지: 로봇 카메라로 촬영한 환경 컨텍스트 이미지
- 자연어 작업 지시: 사용자의 작업 명령
-
BT 검증(Validation): 생성된 BT의 구문적, 문맥적 유효성을 검증하고, 무효한 BT는 LLM에 재생성 요청
-
적합도 기반 필터링: 기존 연구와 달리, 허용 가능한 적합도를 가진 BT만 선별하여 GP 진화에 투입. 이 단계가 저품질 후보를 제거하여 후속 계산 효율을 향상
-
GP 진화: 선별된 초기 집단에 대해 유전 연산(교차 40%, 돌연변이 60%)을 8,000세대에 걸쳐 적용하여 BT 구조 최적화
적합도 함수: J = R - (alpha * ||s_d - s||^2 + beta * b + gamma * T + delta * P)
- R: 작업 보상, s: 로봇 상태, b: BT 노드 수, T: 실행 시간, P: 실패 확률
시스템 구성: GPT-4o (temperature=1.2, top_p=0.95), 초기 집단 30개 BT
실험 및 결과
시뮬레이션 환경에서 세 가지 실험을 수행하였다:
실험 1 - 이중 시나리오 성능:
- 시나리오 1: 로봇이 테이블 A에서 큐브를 집어 테이블 B에 놓기
- 시나리오 2: 로봇이 세 개의 테이블을 탐색한 후 큐브를 배치
- LLM-GP-BT가 GP-BT 대비 매우 적은 세대 수에서 최적 적합도 달성
실험 2 - 불확실성 하에서의 강건성:
- 결정론적 환경: 두 방법 모두 수렴, LLM-GP-BT가 더 빠름
- 확률적 환경 1: 위치 파악 실패 10%, 큐브 집기 실패 5%
- 확률적 환경 2: 위치 파악 20%, 집기 20%, 놓기 10% 실패
- 확률적 환경 3: 최대 불확실성 - 위치 파악 30%, 집기 40%, 놓기 20% 실패
- 모든 조건에서 LLM-GP-BT가 우수한 수렴 속도 유지
실험 3 - 집단 크기 축소:
- LLM-GP-BT의 15개 BT 초기 집단이 GP-BT의 30개 BT 초기 집단보다 우수한 성능
- 집단 크기 30, 20, 15에서 테스트하여 축소된 자원에서도 강건한 성능 확인
결론
LLM-GP-BT 프레임워크는 세 가지 메커니즘을 통해 자율 로봇 작업 계획을 효과적으로 달성한다: (1) 허용 가능한 적합도의 초기 집단을 활용한 GP 최적화 효율 향상, (2) 이미지 기반 환경 컨텍스트를 통한 계산 자원 최적화, (3) 사전 정의된 고품질 BT 예시에 대한 의존성 제거. 시뮬레이션 결과는 결정론적 및 확률적 환경 모두에서 작업 효과성을 확인하였으며, 최소한의 인간 입력으로 자율 시스템 제어를 향상시키는 확장 가능하고 효율적인 솔루션임을 입증하였다.