"Large Language Model" 태그로 연결된 20개 게시물개의 게시물이 있습니다.

모든 태그 보기

LLM-BT - Performing Robotic Adaptive Tasks based on Large Language Models and Behavior Trees

2024년 4월 8일 · 약 3분

Haotian Zhou

Yunhan Lin

Longwu Yan

Jihong Zhu

Huasong Min

논문 정보

제목: LLM-BT: Performing Robotic Adaptive Tasks based on Large Language Models and Behavior Trees
저자: Haotian Zhou, Yunhan Lin, Longwu Yan, Jihong Zhu, Huasong Min
학회/저널: IEEE International Conference on Robotics and Automation (ICRA 2024)
발행일: 2024-04-08
DOI: arXiv:2404.05134
주요 연구 내용: 대규모 언어 모델(LLM)과 행동 트리(BT)를 결합하여 외부 교란 상황에서도 로봇이 적응적으로 태스크를 수행할 수 있는 LLM-BT 프레임워크 제안
주요 결과 및 결론: 기존 LLM 기반 방법과 달리 동적으로 확장 가능한 가변 행동 트리를 출력하여 외부 교란에 강건한 로봇 태스크 실행 달성
기여점: ChatGPT 기반 추론, BERT 기반 파싱, 동적 BT 업데이트 알고리즘을 통합한 새로운 적응적 로봇 태스크 수행 파이프라인 제시

Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges

2024년 2월 6일 · 약 4분

Md. Eusha Kadir

Tasnim Rahman

Sourav Barman

Md. Al-Amin

논문 정보

제목: Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges
저자: Md. Eusha Kadir, Tasnim Rahman, Sourav Barman, Md. Al-Amin (Institute of Information Technology, Noakhali Science and Technology University, Noakhali, Bangladesh)
학회/저널: International Journal of Advanced Trends in Computer Science and Engineering
발행일: 2024-02-06
DOI: 10.30534/ijatcse/2024/031312024
주요 연구 내용: 본 연구는 300개의 경쟁적 프로그래밍 문제를 'Easy', 'Medium', 'Hard' 세 가지 난이도로 나누어 ChatGPT의 문제 해결 능력을 평가함. LeetCode 플랫폼의 문제들을 활용했으며, 프롬프트 엔지니어링을 적용하여 생성된 코드의 정확성을 온라인 저지 시스템을 통해 측정함.
주요 결과 및 결론: ChatGPT는 전체 문제에 대해 66.00%의 정답률(acceptance rate)을 기록하여, 평균적인 인간 사용자의 52.95%를 상회하는 성능을 보임. 난이도별 정답률은 Easy 89.00%, Medium 68.00%, Hard 41.00%로, 문제의 복잡도가 증가할수록 성능이 저하되는 경향을 보임.
기여점: ChatGPT의 경쟁적 프로그래밍 문제 해결 능력을 인간과 비교하여 체계적으로 평가한 초기 연구 중 하나임. 효과적인 코드 생성을 위한 프롬프트 엔지니어링의 중요성을 입증하고, 복잡한 문제 해결에서 나타나는 AI의 한계점을 명확히 제시함.

A Study on Training and Developing Large Language Models for Behavior Tree Generation

2024년 1월 16일 · 약 3분

Fu Li

Xueying Wang

Bin Li

Yunlong Wu

Yanzhen Wang

Xiaodong Yi

논문 정보

제목: A Study on Training and Developing Large Language Models for Behavior Tree Generation
저자: Fu Li, Xueying Wang, Bin Li, Yunlong Wu, Yanzhen Wang, Xiaodong Yi
학회/저널: arXiv preprint (cs.CL, cs.AI, cs.RO)
발행일: 2024-01-16
DOI: 10.48550/arXiv.2401.08089
주요 연구 내용: LLM의 표현 및 추론 능력을 활용하여 복잡한 작업에 대한 행동 트리(BT)를 자동 생성하는 프레임워크를 설계하고, 데이터 합성부터 모델 훈련, 애플리케이션 개발, 데이터 검증까지의 전체 파이프라인을 제안
주요 결과 및 결론: 합성 데이터로 훈련된 BTGen 모델이 다양한 복잡한 작업에 대한 이해도와 적응력을 크게 향상시키며, 다층 검증 전략으로 생성된 BT의 유효성과 실행 가능성을 보장
기여점: 데이터 합성, 모델 훈련, 애플리케이션 개발, 다층 검증을 아우르는 완전한 LLM 기반 BT 생성 프레임워크를 최초로 제시

From image to UML: First results of image-based UML diagram generation using LLMs

2024년 1월 1일 · 약 5분

Aaron Conrardy

Jordi Cabot

논문 정보

제목: From image to UML: First results of image-based UML diagram generation using LLMs
저자: Aaron Conrardy (Luxembourg Institute of Science and Technology), Jordi Cabot (Luxembourg Institute of Science and Technology, University of Luxembourg)
학회/저널: First Large Language Models for Model-Driven Engineering Workshop (LLM4MDE 2024)
발행일: 2024
DOI: (제공되지 않음)
주요 연구 내용: 본 연구는 GPT-4V, Gemini (Pro/Ultra), CogVLM과 같은 최신 시각적 LLM을 사용하여, 손으로 그린 UML 클래스 다이어그램 이미지를 PlantUML 텍스트 코드로 변환하는 성능을 평가함. 다이어그램의 복잡도, 의미적 정확성, 프롬프트의 상세 수준을 변수로 설정하여 실험을 수행함.
주요 결과 및 결론: GPT-4V가 PlantUML 구문 오류 없이 가장 정확하고 일관된 변환 결과를 보여주었음. 반면, 다른 모델들은 구문 오류가 잦거나(Gemini, CogVLM), 의미적으로 무의미한 다이어그램의 변환을 거부하는 경향을 보임.
기여점: LLM을 활용한 이미지 기반 UML 다이어그램 생성 가능성을 최초로 실증적으로 평가함. 소프트웨어 엔지니어링 초기 설계 단계에서 발생하는 수동 모델링 작업을 자동화하여 '로우-모델링(low-modeling)'을 지원할 수 있음을 시사하며, 현재 기술 수준에서는 '인간-참여형(human-in-the-loop)' 접근이 필수적임을 강조함.

Self-Refine - Iterative Refinement with Self-Feedback

2023년 12월 10일 · 약 4분

Aman Madaan

Niket Tandon

Prakhar Gupta

Skyler Hallinan

Luyu Gao

Sarah Wiegreffe

Uri Alon

Nouha Dziri

Shrimai Prabhumoye

Yiming Yang

Shashank Gupta

Bodhisattwa Prasad Majumder

Katherine Hermann

Sean Welleck

Amir Yazdanbakhsh

Peter Clark

논문 정보

제목: Self-Refine: Iterative Refinement with Self-Feedback
저자: Aman Madaan (Carnegie Mellon University), Niket Tandon (Allen Institute for AI), Prakhar Gupta (Carnegie Mellon University), Skyler Hallinan (University of Washington), Luyu Gao (Carnegie Mellon University), Sarah Wiegreffe (Allen Institute for AI), Uri Alon (Carnegie Mellon University), Nouha Dziri (Allen Institute for AI), Shrimai Prabhumoye (NVIDIA), Yiming Yang (Carnegie Mellon University), Shashank Gupta (Allen Institute for AI), Bodhisattwa Prasad Majumder (Allen Institute for AI), Katherine Hermann (Google Research), Sean Welleck (Carnegie Mellon University), Amir Yazdanbakhsh (Google Research), Peter Clark (Allen Institute for AI)
학회/저널: NeurIPS 2023 (Thirty-seventh Conference on Neural Information Processing Systems)
발행일: 2023-12-10
DOI: arXiv:2303.17651
주요 연구 내용: 단일 LLM을 생성기, 피드백 제공자, 개선기로 동시에 활용하여 초기 출력을 반복적으로 개선하는 Self-Refine 프레임워크 제안
주요 결과 및 결론: 7개의 다양한 태스크에서 평균 약 20%의 절대적 성능 향상을 달성하며, 추가 학습 데이터나 강화학습 없이 GPT-4와 같은 최신 모델의 성능도 테스트 시간에 추가로 향상 가능함을 입증
기여점: 별도의 학습 없이 단일 LLM만으로 출력 품질을 반복적으로 개선할 수 있는 범용적 프레임워크를 제안하여, LLM의 활용 패러다임에 새로운 방향을 제시

Teaching Large Language Models to Self-Debug

2023년 4월 11일 · 약 3분

Xinyun Chen

Maxwell Lin

Nathanael Schärli

Denny Zhou

논문 정보

제목: Teaching Large Language Models to Self-Debug
저자: Xinyun Chen (Google DeepMind), Maxwell Lin (UC Berkeley), Nathanael Schärli (Google DeepMind), Denny Zhou (Google DeepMind)
학회/저널: ICLR 2024 (International Conference on Learning Representations)
발행일: 2023-04-11 (arXiv), 2024 (ICLR)
DOI: 10.48550/arXiv.2304.05128
주요 연구 내용: LLM이 생성한 코드를 스스로 실행하고, 실행 결과를 분석하며, 자연어 설명을 통해 오류를 파악·수정하는 Self-Debugging 프레임워크 제안
주요 결과 및 결론: Spider(text-to-SQL)에서 2-3%, TransCoder(C++-to-Python)와 MBPP(text-to-Python)에서 최대 12%의 정확도 향상을 달성하며, 10배 이상의 후보 프로그램을 생성하는 베이스라인과 동등하거나 우수한 성능
기여점: 추가 학습 데이터 없이 인퍼런스 단계에서만 동작하는 자기 수정 메커니즘을 제안하고, 러버 덕 디버깅 개념을 LLM에 적용

GPT-4 Technical Report

2023년 3월 15일 · 약 3분

OpenAI

논문 정보

제목: GPT-4 Technical Report
저자: OpenAI (Josh Achiam, Steven Adler, Sandhini Agarwal 외 다수)
학회/저널: arXiv preprint
발행일: 2023-03-15 (최종 수정: 2024-03-04)
DOI: 10.48550/arXiv.2303.08774
주요 연구 내용: 이미지와 텍스트를 입력으로 받아 텍스트를 출력하는 대규모 멀티모달 언어 모델 GPT-4의 개발, 성능 평가, 안전성 분석
주요 결과 및 결론: 다양한 전문적·학술적 벤치마크에서 인간 수준의 성능을 달성하며, 모의 변호사 시험 상위 10% 수준의 점수를 기록. RLHF 기반 정렬을 통해 사실성 및 바람직한 행동 준수를 향상
기여점: 현대 LLM 연구의 기준점을 제시하고, 스케일 예측 방법론을 실증하며, 포괄적인 안전성 평가 프레임워크를 제공

Robot Behavior-Tree-Based Task Generation with Large Language Models

2023년 2월 24일 · 약 3분

Yue Cao

C.S. George Lee

논문 정보

제목: Robot Behavior-Tree-Based Task Generation with Large Language Models
저자: Yue Cao (Purdue University, Elmore Family School of ECE), C.S. George Lee (Purdue University, Elmore Family School of ECE)
학회/저널: arXiv:2302.12927 / AAAI 2023 Spring Symposium (AAAI-MAKE 2023) Extended Abstract
발행일: 2023-02-24
DOI: arXiv:2302.12927
주요 연구 내용: 대규모 언어 모델(LLM)을 활용하여 사전 정의된 프리미티브 태스크 없이 자연어 설명으로부터 Behavior Tree를 자동 생성하는 크로스 도메인 방법론 제안
주요 결과 및 결론: Phase-Step 프롬프트 설계와 BT 임베딩 기반 검색을 통해 추상적 태스크 설명으로부터 계층적 BT를 성공적으로 생성
기여점: 사전 정의된 프리미티브 태스크에 의존하지 않는 최초의 LLM 기반 BT 자동 생성 방법론으로, 크로스 도메인 확장성을 확보

Program Synthesis with Large Language Models

2021년 8월 16일 · 약 4분

Jacob Austin

Augustus Odena

Maxwell Nye

Maarten Bosma

Henryk Michalewski

David Dohan

Ellen Jiang

Carrie Cai

Michael Terry

Quoc Le

Charles Sutton

논문 정보

제목: Program Synthesis with Large Language Models
저자: Jacob Austin (Google Research), Augustus Odena (Google Research), Maxwell Nye (Google Research), Maarten Bosma (Google Research), Henryk Michalewski (Google Research / University of Warsaw), David Dohan (Google Research), Ellen Jiang (Google Research), Carrie Cai (Google Research), Michael Terry (Google Research), Quoc Le (Google Research), Charles Sutton (Google Research)
학회/저널: arXiv Preprint
발행일: 2021-08-16
DOI: arXiv:2108.07732
주요 연구 내용: 244M에서 137B 파라미터까지의 대규모 언어 모델(LaMDA PT)의 프로그램 합성 능력을 MBPP 및 MathQA-Python 벤치마크에서 few-shot 및 fine-tuning 방식으로 체계적으로 평가
주요 결과 및 결론: 프로그램 합성 성능이 모델 크기에 따라 로그-선형적으로 증가하며, 최대 모델이 few-shot으로 MBPP 태스크의 59.6%를 해결하고, fine-tuning으로 약 10%p 추가 향상 가능하며, 인간 피드백으로 오류율을 절반으로 줄일 수 있음을 입증
기여점: LLM 기반 프로그램 합성의 가능성과 한계를 체계적으로 분석하고, 프로그램 합성 연구를 위한 두 가지 새로운 벤치마크(MBPP, MathQA-Python)를 제공

Evaluating Large Language Models Trained on Code

2021년 7월 7일 · 약 3분

Mark Chen

Jerry Tworek

Heewoo Jun

Qiming Yuan

Jared Kaplan

Greg Brockman

Ilya Sutskever

Wojciech Zaremba

논문 정보

제목: Evaluating Large Language Models Trained on Code
저자: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin 외 다수 (OpenAI)
학회/저널: arXiv 프리프린트
발행일: 2021-07-07
DOI: arXiv:2107.03374
주요 연구 내용: GitHub 공개 코드로 파인튜닝된 GPT 언어 모델 Codex를 소개하고, docstring에서 함수를 생성하는 능력을 평가하는 HumanEval 벤치마크 제안
주요 결과 및 결론: Codex는 HumanEval에서 pass@1 28.8%를 달성하였으며 (GPT-3: 0%, GPT-J: 11.4%), 반복 샘플링(100개)으로 70.2% 달성
기여점: LLM의 코드 생성 능력을 체계적으로 측정한 선구적 연구로, HumanEval은 이후 모든 코드 생성 LLM의 표준 벤치마크로 자리잡음. GitHub Copilot의 기반 모델

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보