본문으로 건너뛰기

"Code Generation" 태그로 연결된 6개 게시물개의 게시물이 있습니다.

모든 태그 보기

PAPER2CODE: AUTOMATING CODE GENERATION FROM SCIENTIFIC PAPERS IN MACHINE LEARNING

· 약 6분
Minju Seo
Jinheon Baek
Seongyun Lee
Sung Ju Hwang

논문 정보

  • 제목: PAPER2CODE: AUTOMATING CODE GENERATION FROM SCIENTIFIC PAPERS IN MACHINE LEARNING
  • 저자: Minju Seo (KAIST), Jinheon Baek (KAIST), Seongyun Lee (KAIST), Sung Ju Hwang (KAIST, DeepAuto.ai)
  • 학회/저널: arXiv (v4)
  • 발행일: 2025-10-10
  • DOI: (N/A)
  • 주요 연구 내용: 기계 학습(ML) 논문만 입력받아 완전한 코드 리포지토리를 생성하는 멀티 에이전트 LLM 프레임워크 'PaperCoder'를 제안함. PaperCoder는 1) Planning (계획), 2) Analysis (분석), 3) Generation (생성)의 3단계로 작업을 분해하여 인간 개발자의 워크플로우를 모방함.
  • 주요 결과 및 결론: PaperCoder는 자체 구축한 Paper2CodeBench 및 공개된 PaperBench 벤치마크에서 ChatDev, MetaGPT 등 기존 코드 생성 방식들을 큰 차이로 능가함. 생성된 코드는 원본 논문 저자의 평가에서도 88%가 최고로 선택되었으며, 92%가 재현에 도움이 된다고 응답함.
  • 기여점: ML 논문에서 코드 자동 생성을 위한 체계적인 3단계(계획-분석-생성) 멀티 에이전트 방법론을 제시함. 생성된 코드는 평균 0.81%의 코드 라인만 수정하면 실행 가능한 '거의 실행 가능한(near-executable)' 수준의 높은 품질을 달성하여 ML 연구의 재현성 위기를 해결하는 데 기여함.

Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability

· 약 5분
Mengliang He
Jiayi Zeng
Yankai Jiang
Wei Zhang
Zeming Liu
Xiaoming Shi
Aimin Zhou

논문 정보

  • 제목: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
  • 저자: Mengliang He (East China Normal University), Jiayi Zeng (East China Normal University), Yankai Jiang (Shanghai AI Lab), Wei Zhang (East China Normal University), Zeming Liu (Beihang University), Xiaoming Shi (East China Normal University), Aimin Zhou (East China Normal University)
  • 학회/저널: arXiv (v1)
  • 발행일: 2025-06-02
  • DOI: (arXiv:2506.02073)
  • 주요 연구 내용: 기존 LLM 코드 생성 벤치마크가 순서도(flowchart)를 간과하고 있다는 문제를 지적. 15개 프로그래밍 언어, 3가지 순서도 유형(코드, UML, 의사코드)에 걸친 총 16,866개의 순서도를 포함하는 'Flow2Code'라는 새로운 벤치마크 데이터셋을 구축.
  • 주요 결과 및 결론: 13개의 최신 멀티모달 LLM(MLLM)을 평가한 결과, 현재 모델들이 순서도를 완벽하게 코드로 변환하지 못하며, 특히 의사코드(pseudocode) 순서도에서 성능 저하가 큼을 발견. 또한, 지도 미세조정(Supervised Fine-Tuning)이 모델 성능 향상에 크게 기여함을 확인함.
  • 기여점: 순서도 기반 코드 생성이라는 새로운 연구 방향을 제시. 해당 작업을 위한 포괄적인 벤치마크(Flow2Code)를 공개하고, 현재 MLLM의 한계를 명확히 식별하며, 성능 향상을 위한 미세조정의 효과를 입증함.

Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges

· 약 4분
Md. Eusha Kadir
Tasnim Rahman
Sourav Barman
Md. Al-Amin

논문 정보

  • 제목: Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges
  • 저자: Md. Eusha Kadir, Tasnim Rahman, Sourav Barman, Md. Al-Amin (Institute of Information Technology, Noakhali Science and Technology University, Noakhali, Bangladesh)
  • 학회/저널: International Journal of Advanced Trends in Computer Science and Engineering
  • 발행일: 2024-02-06
  • DOI: 10.30534/ijatcse/2024/031312024
  • 주요 연구 내용: 본 연구는 300개의 경쟁적 프로그래밍 문제를 'Easy', 'Medium', 'Hard' 세 가지 난이도로 나누어 ChatGPT의 문제 해결 능력을 평가함. LeetCode 플랫폼의 문제들을 활용했으며, 프롬프트 엔지니어링을 적용하여 생성된 코드의 정확성을 온라인 저지 시스템을 통해 측정함.
  • 주요 결과 및 결론: ChatGPT는 전체 문제에 대해 66.00%의 정답률(acceptance rate)을 기록하여, 평균적인 인간 사용자의 52.95%를 상회하는 성능을 보임. 난이도별 정답률은 Easy 89.00%, Medium 68.00%, Hard 41.00%로, 문제의 복잡도가 증가할수록 성능이 저하되는 경향을 보임.
  • 기여점: ChatGPT의 경쟁적 프로그래밍 문제 해결 능력을 인간과 비교하여 체계적으로 평가한 초기 연구 중 하나임. 효과적인 코드 생성을 위한 프롬프트 엔지니어링의 중요성을 입증하고, 복잡한 문제 해결에서 나타나는 AI의 한계점을 명확히 제시함.

Teaching Large Language Models to Self-Debug

· 약 3분
Xinyun Chen
Maxwell Lin
Nathanael Schärli
Denny Zhou

논문 정보

  • 제목: Teaching Large Language Models to Self-Debug
  • 저자: Xinyun Chen (Google DeepMind), Maxwell Lin (UC Berkeley), Nathanael Schärli (Google DeepMind), Denny Zhou (Google DeepMind)
  • 학회/저널: ICLR 2024 (International Conference on Learning Representations)
  • 발행일: 2023-04-11 (arXiv), 2024 (ICLR)
  • DOI: 10.48550/arXiv.2304.05128
  • 주요 연구 내용: LLM이 생성한 코드를 스스로 실행하고, 실행 결과를 분석하며, 자연어 설명을 통해 오류를 파악·수정하는 Self-Debugging 프레임워크 제안
  • 주요 결과 및 결론: Spider(text-to-SQL)에서 2-3%, TransCoder(C++-to-Python)와 MBPP(text-to-Python)에서 최대 12%의 정확도 향상을 달성하며, 10배 이상의 후보 프로그램을 생성하는 베이스라인과 동등하거나 우수한 성능
  • 기여점: 추가 학습 데이터 없이 인퍼런스 단계에서만 동작하는 자기 수정 메커니즘을 제안하고, 러버 덕 디버깅 개념을 LLM에 적용

Evaluating Large Language Models Trained on Code

· 약 3분
Mark Chen
Jerry Tworek
Heewoo Jun
Qiming Yuan
Jared Kaplan
Greg Brockman
Ilya Sutskever
Wojciech Zaremba

논문 정보

  • 제목: Evaluating Large Language Models Trained on Code
  • 저자: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin 외 다수 (OpenAI)
  • 학회/저널: arXiv 프리프린트
  • 발행일: 2021-07-07
  • DOI: arXiv:2107.03374
  • 주요 연구 내용: GitHub 공개 코드로 파인튜닝된 GPT 언어 모델 Codex를 소개하고, docstring에서 함수를 생성하는 능력을 평가하는 HumanEval 벤치마크 제안
  • 주요 결과 및 결론: Codex는 HumanEval에서 pass@1 28.8%를 달성하였으며 (GPT-3: 0%, GPT-J: 11.4%), 반복 샘플링(100개)으로 70.2% 달성
  • 기여점: LLM의 코드 생성 능력을 체계적으로 측정한 선구적 연구로, HumanEval은 이후 모든 코드 생성 LLM의 표준 벤치마크로 자리잡음. GitHub Copilot의 기반 모델

Survey of Template-Based Code Generation

· 약 2분
Lechanceux Kavuya Luhunu

논문 정보

  • 제목: Survey of Template-Based Code Generation
  • 저자: Lechanceux Kavuya Luhunu (Université de Montréal), 지도교수: Eugene Syriani (Université de Montréal)
  • 학회/저널: Université de Montréal 석사 학위 논문 (Maîtrise en Informatique)
  • 발행일: 2017-04
  • DOI: 10.71781/9794
  • 주요 연구 내용: 모델 기반 엔지니어링(MDE)에서 가장 널리 사용되는 모델-텍스트 변환 패러다임인 템플릿 기반 코드 생성(TBCG) 기법을 체계적으로 매핑하고, 관련 도구들의 표현력·성능·확장성을 비교 분석
  • 주요 결과 및 결론: 모델 기반 도구는 표현력이 높고, 코드 기반 도구는 실행 속도가 훨씬 빠르며, Xtend2가 표현력과 성능 간 최적의 균형을 제공
  • 기여점: TBCG 기법의 분류 체계를 제시하고 구현 패턴을 통한 정량적 도구 비교 프레임워크를 확립