본문으로 건너뛰기

"Large Language Model" 태그로 연결된 20개 게시물개의 게시물이 있습니다.

모든 태그 보기

LLM-BT - Performing Robotic Adaptive Tasks based on Large Language Models and Behavior Trees

· 약 3분
Haotian Zhou
Yunhan Lin
Longwu Yan
Jihong Zhu
Huasong Min

논문 정보

  • 제목: LLM-BT: Performing Robotic Adaptive Tasks based on Large Language Models and Behavior Trees
  • 저자: Haotian Zhou, Yunhan Lin, Longwu Yan, Jihong Zhu, Huasong Min
  • 학회/저널: IEEE International Conference on Robotics and Automation (ICRA 2024)
  • 발행일: 2024-04-08
  • DOI: arXiv:2404.05134
  • 주요 연구 내용: 대규모 언어 모델(LLM)과 행동 트리(BT)를 결합하여 외부 교란 상황에서도 로봇이 적응적으로 태스크를 수행할 수 있는 LLM-BT 프레임워크 제안
  • 주요 결과 및 결론: 기존 LLM 기반 방법과 달리 동적으로 확장 가능한 가변 행동 트리를 출력하여 외부 교란에 강건한 로봇 태스크 실행 달성
  • 기여점: ChatGPT 기반 추론, BERT 기반 파싱, 동적 BT 업데이트 알고리즘을 통합한 새로운 적응적 로봇 태스크 수행 파이프라인 제시

Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges

· 약 4분
Md. Eusha Kadir
Tasnim Rahman
Sourav Barman
Md. Al-Amin

논문 정보

  • 제목: Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges
  • 저자: Md. Eusha Kadir, Tasnim Rahman, Sourav Barman, Md. Al-Amin (Institute of Information Technology, Noakhali Science and Technology University, Noakhali, Bangladesh)
  • 학회/저널: International Journal of Advanced Trends in Computer Science and Engineering
  • 발행일: 2024-02-06
  • DOI: 10.30534/ijatcse/2024/031312024
  • 주요 연구 내용: 본 연구는 300개의 경쟁적 프로그래밍 문제를 'Easy', 'Medium', 'Hard' 세 가지 난이도로 나누어 ChatGPT의 문제 해결 능력을 평가함. LeetCode 플랫폼의 문제들을 활용했으며, 프롬프트 엔지니어링을 적용하여 생성된 코드의 정확성을 온라인 저지 시스템을 통해 측정함.
  • 주요 결과 및 결론: ChatGPT는 전체 문제에 대해 66.00%의 정답률(acceptance rate)을 기록하여, 평균적인 인간 사용자의 52.95%를 상회하는 성능을 보임. 난이도별 정답률은 Easy 89.00%, Medium 68.00%, Hard 41.00%로, 문제의 복잡도가 증가할수록 성능이 저하되는 경향을 보임.
  • 기여점: ChatGPT의 경쟁적 프로그래밍 문제 해결 능력을 인간과 비교하여 체계적으로 평가한 초기 연구 중 하나임. 효과적인 코드 생성을 위한 프롬프트 엔지니어링의 중요성을 입증하고, 복잡한 문제 해결에서 나타나는 AI의 한계점을 명확히 제시함.

A Study on Training and Developing Large Language Models for Behavior Tree Generation

· 약 3분
Fu Li
Xueying Wang
Bin Li
Yunlong Wu
Yanzhen Wang
Xiaodong Yi

논문 정보

  • 제목: A Study on Training and Developing Large Language Models for Behavior Tree Generation
  • 저자: Fu Li, Xueying Wang, Bin Li, Yunlong Wu, Yanzhen Wang, Xiaodong Yi
  • 학회/저널: arXiv preprint (cs.CL, cs.AI, cs.RO)
  • 발행일: 2024-01-16
  • DOI: 10.48550/arXiv.2401.08089
  • 주요 연구 내용: LLM의 표현 및 추론 능력을 활용하여 복잡한 작업에 대한 행동 트리(BT)를 자동 생성하는 프레임워크를 설계하고, 데이터 합성부터 모델 훈련, 애플리케이션 개발, 데이터 검증까지의 전체 파이프라인을 제안
  • 주요 결과 및 결론: 합성 데이터로 훈련된 BTGen 모델이 다양한 복잡한 작업에 대한 이해도와 적응력을 크게 향상시키며, 다층 검증 전략으로 생성된 BT의 유효성과 실행 가능성을 보장
  • 기여점: 데이터 합성, 모델 훈련, 애플리케이션 개발, 다층 검증을 아우르는 완전한 LLM 기반 BT 생성 프레임워크를 최초로 제시

From image to UML: First results of image-based UML diagram generation using LLMs

· 약 5분
Aaron Conrardy
Jordi Cabot

논문 정보

  • 제목: From image to UML: First results of image-based UML diagram generation using LLMs
  • 저자: Aaron Conrardy (Luxembourg Institute of Science and Technology), Jordi Cabot (Luxembourg Institute of Science and Technology, University of Luxembourg)
  • 학회/저널: First Large Language Models for Model-Driven Engineering Workshop (LLM4MDE 2024)
  • 발행일: 2024
  • DOI: (제공되지 않음)
  • 주요 연구 내용: 본 연구는 GPT-4V, Gemini (Pro/Ultra), CogVLM과 같은 최신 시각적 LLM을 사용하여, 손으로 그린 UML 클래스 다이어그램 이미지를 PlantUML 텍스트 코드로 변환하는 성능을 평가함. 다이어그램의 복잡도, 의미적 정확성, 프롬프트의 상세 수준을 변수로 설정하여 실험을 수행함.
  • 주요 결과 및 결론: GPT-4V가 PlantUML 구문 오류 없이 가장 정확하고 일관된 변환 결과를 보여주었음. 반면, 다른 모델들은 구문 오류가 잦거나(Gemini, CogVLM), 의미적으로 무의미한 다이어그램의 변환을 거부하는 경향을 보임.
  • 기여점: LLM을 활용한 이미지 기반 UML 다이어그램 생성 가능성을 최초로 실증적으로 평가함. 소프트웨어 엔지니어링 초기 설계 단계에서 발생하는 수동 모델링 작업을 자동화하여 '로우-모델링(low-modeling)'을 지원할 수 있음을 시사하며, 현재 기술 수준에서는 '인간-참여형(human-in-the-loop)' 접근이 필수적임을 강조함.

Self-Refine - Iterative Refinement with Self-Feedback

· 약 4분
Aman Madaan
Niket Tandon
Prakhar Gupta
Skyler Hallinan
Luyu Gao
Sarah Wiegreffe
Uri Alon
Nouha Dziri
Shrimai Prabhumoye
Yiming Yang
Shashank Gupta
Bodhisattwa Prasad Majumder
Katherine Hermann
Sean Welleck
Amir Yazdanbakhsh
Peter Clark

논문 정보

  • 제목: Self-Refine: Iterative Refinement with Self-Feedback
  • 저자: Aman Madaan (Carnegie Mellon University), Niket Tandon (Allen Institute for AI), Prakhar Gupta (Carnegie Mellon University), Skyler Hallinan (University of Washington), Luyu Gao (Carnegie Mellon University), Sarah Wiegreffe (Allen Institute for AI), Uri Alon (Carnegie Mellon University), Nouha Dziri (Allen Institute for AI), Shrimai Prabhumoye (NVIDIA), Yiming Yang (Carnegie Mellon University), Shashank Gupta (Allen Institute for AI), Bodhisattwa Prasad Majumder (Allen Institute for AI), Katherine Hermann (Google Research), Sean Welleck (Carnegie Mellon University), Amir Yazdanbakhsh (Google Research), Peter Clark (Allen Institute for AI)
  • 학회/저널: NeurIPS 2023 (Thirty-seventh Conference on Neural Information Processing Systems)
  • 발행일: 2023-12-10
  • DOI: arXiv:2303.17651
  • 주요 연구 내용: 단일 LLM을 생성기, 피드백 제공자, 개선기로 동시에 활용하여 초기 출력을 반복적으로 개선하는 Self-Refine 프레임워크 제안
  • 주요 결과 및 결론: 7개의 다양한 태스크에서 평균 약 20%의 절대적 성능 향상을 달성하며, 추가 학습 데이터나 강화학습 없이 GPT-4와 같은 최신 모델의 성능도 테스트 시간에 추가로 향상 가능함을 입증
  • 기여점: 별도의 학습 없이 단일 LLM만으로 출력 품질을 반복적으로 개선할 수 있는 범용적 프레임워크를 제안하여, LLM의 활용 패러다임에 새로운 방향을 제시

Teaching Large Language Models to Self-Debug

· 약 3분
Xinyun Chen
Maxwell Lin
Nathanael Schärli
Denny Zhou

논문 정보

  • 제목: Teaching Large Language Models to Self-Debug
  • 저자: Xinyun Chen (Google DeepMind), Maxwell Lin (UC Berkeley), Nathanael Schärli (Google DeepMind), Denny Zhou (Google DeepMind)
  • 학회/저널: ICLR 2024 (International Conference on Learning Representations)
  • 발행일: 2023-04-11 (arXiv), 2024 (ICLR)
  • DOI: 10.48550/arXiv.2304.05128
  • 주요 연구 내용: LLM이 생성한 코드를 스스로 실행하고, 실행 결과를 분석하며, 자연어 설명을 통해 오류를 파악·수정하는 Self-Debugging 프레임워크 제안
  • 주요 결과 및 결론: Spider(text-to-SQL)에서 2-3%, TransCoder(C++-to-Python)와 MBPP(text-to-Python)에서 최대 12%의 정확도 향상을 달성하며, 10배 이상의 후보 프로그램을 생성하는 베이스라인과 동등하거나 우수한 성능
  • 기여점: 추가 학습 데이터 없이 인퍼런스 단계에서만 동작하는 자기 수정 메커니즘을 제안하고, 러버 덕 디버깅 개념을 LLM에 적용

GPT-4 Technical Report

· 약 3분
OpenAI

논문 정보

  • 제목: GPT-4 Technical Report
  • 저자: OpenAI (Josh Achiam, Steven Adler, Sandhini Agarwal 외 다수)
  • 학회/저널: arXiv preprint
  • 발행일: 2023-03-15 (최종 수정: 2024-03-04)
  • DOI: 10.48550/arXiv.2303.08774
  • 주요 연구 내용: 이미지와 텍스트를 입력으로 받아 텍스트를 출력하는 대규모 멀티모달 언어 모델 GPT-4의 개발, 성능 평가, 안전성 분석
  • 주요 결과 및 결론: 다양한 전문적·학술적 벤치마크에서 인간 수준의 성능을 달성하며, 모의 변호사 시험 상위 10% 수준의 점수를 기록. RLHF 기반 정렬을 통해 사실성 및 바람직한 행동 준수를 향상
  • 기여점: 현대 LLM 연구의 기준점을 제시하고, 스케일 예측 방법론을 실증하며, 포괄적인 안전성 평가 프레임워크를 제공

Robot Behavior-Tree-Based Task Generation with Large Language Models

· 약 3분
Yue Cao
C.S. George Lee

논문 정보

  • 제목: Robot Behavior-Tree-Based Task Generation with Large Language Models
  • 저자: Yue Cao (Purdue University, Elmore Family School of ECE), C.S. George Lee (Purdue University, Elmore Family School of ECE)
  • 학회/저널: arXiv:2302.12927 / AAAI 2023 Spring Symposium (AAAI-MAKE 2023) Extended Abstract
  • 발행일: 2023-02-24
  • DOI: arXiv:2302.12927
  • 주요 연구 내용: 대규모 언어 모델(LLM)을 활용하여 사전 정의된 프리미티브 태스크 없이 자연어 설명으로부터 Behavior Tree를 자동 생성하는 크로스 도메인 방법론 제안
  • 주요 결과 및 결론: Phase-Step 프롬프트 설계와 BT 임베딩 기반 검색을 통해 추상적 태스크 설명으로부터 계층적 BT를 성공적으로 생성
  • 기여점: 사전 정의된 프리미티브 태스크에 의존하지 않는 최초의 LLM 기반 BT 자동 생성 방법론으로, 크로스 도메인 확장성을 확보

Program Synthesis with Large Language Models

· 약 4분
Jacob Austin
Augustus Odena
Maxwell Nye
Maarten Bosma
Henryk Michalewski
David Dohan
Ellen Jiang
Carrie Cai
Michael Terry
Quoc Le
Charles Sutton

논문 정보

  • 제목: Program Synthesis with Large Language Models
  • 저자: Jacob Austin (Google Research), Augustus Odena (Google Research), Maxwell Nye (Google Research), Maarten Bosma (Google Research), Henryk Michalewski (Google Research / University of Warsaw), David Dohan (Google Research), Ellen Jiang (Google Research), Carrie Cai (Google Research), Michael Terry (Google Research), Quoc Le (Google Research), Charles Sutton (Google Research)
  • 학회/저널: arXiv Preprint
  • 발행일: 2021-08-16
  • DOI: arXiv:2108.07732
  • 주요 연구 내용: 244M에서 137B 파라미터까지의 대규모 언어 모델(LaMDA PT)의 프로그램 합성 능력을 MBPP 및 MathQA-Python 벤치마크에서 few-shot 및 fine-tuning 방식으로 체계적으로 평가
  • 주요 결과 및 결론: 프로그램 합성 성능이 모델 크기에 따라 로그-선형적으로 증가하며, 최대 모델이 few-shot으로 MBPP 태스크의 59.6%를 해결하고, fine-tuning으로 약 10%p 추가 향상 가능하며, 인간 피드백으로 오류율을 절반으로 줄일 수 있음을 입증
  • 기여점: LLM 기반 프로그램 합성의 가능성과 한계를 체계적으로 분석하고, 프로그램 합성 연구를 위한 두 가지 새로운 벤치마크(MBPP, MathQA-Python)를 제공

Evaluating Large Language Models Trained on Code

· 약 3분
Mark Chen
Jerry Tworek
Heewoo Jun
Qiming Yuan
Jared Kaplan
Greg Brockman
Ilya Sutskever
Wojciech Zaremba

논문 정보

  • 제목: Evaluating Large Language Models Trained on Code
  • 저자: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin 외 다수 (OpenAI)
  • 학회/저널: arXiv 프리프린트
  • 발행일: 2021-07-07
  • DOI: arXiv:2107.03374
  • 주요 연구 내용: GitHub 공개 코드로 파인튜닝된 GPT 언어 모델 Codex를 소개하고, docstring에서 함수를 생성하는 능력을 평가하는 HumanEval 벤치마크 제안
  • 주요 결과 및 결론: Codex는 HumanEval에서 pass@1 28.8%를 달성하였으며 (GPT-3: 0%, GPT-J: 11.4%), 반복 샘플링(100개)으로 70.2% 달성
  • 기여점: LLM의 코드 생성 능력을 체계적으로 측정한 선구적 연구로, HumanEval은 이후 모든 코드 생성 LLM의 표준 벤치마크로 자리잡음. GitHub Copilot의 기반 모델