"Multimodal" 태그로 연결된 2개 게시물개의 게시물이 있습니다.

Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability

2025년 6월 2일 · 약 5분

Mengliang He

Jiayi Zeng

Yankai Jiang

Wei Zhang

Zeming Liu

Xiaoming Shi

Aimin Zhou

제목: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
저자: Mengliang He (East China Normal University), Jiayi Zeng (East China Normal University), Yankai Jiang (Shanghai AI Lab), Wei Zhang (East China Normal University), Zeming Liu (Beihang University), Xiaoming Shi (East China Normal University), Aimin Zhou (East China Normal University)
학회/저널: arXiv (v1)
발행일: 2025-06-02
DOI: (arXiv:2506.02073)
주요 연구 내용: 기존 LLM 코드 생성 벤치마크가 순서도(flowchart)를 간과하고 있다는 문제를 지적. 15개 프로그래밍 언어, 3가지 순서도 유형(코드, UML, 의사코드)에 걸친 총 16,866개의 순서도를 포함하는 'Flow2Code'라는 새로운 벤치마크 데이터셋을 구축.
주요 결과 및 결론: 13개의 최신 멀티모달 LLM(MLLM)을 평가한 결과, 현재 모델들이 순서도를 완벽하게 코드로 변환하지 못하며, 특히 의사코드(pseudocode) 순서도에서 성능 저하가 큼을 발견. 또한, 지도 미세조정(Supervised Fine-Tuning)이 모델 성능 향상에 크게 기여함을 확인함.
기여점: 순서도 기반 코드 생성이라는 새로운 연구 방향을 제시. 해당 작업을 위한 포괄적인 벤치마크(Flow2Code)를 공개하고, 현재 MLLM의 한계를 명확히 식별하며, 성능 향상을 위한 미세조정의 효과를 입증함.

2023년 3월 15일 · 약 3분

OpenAI

제목: GPT-4 Technical Report
저자: OpenAI (Josh Achiam, Steven Adler, Sandhini Agarwal 외 다수)
학회/저널: arXiv preprint
발행일: 2023-03-15 (최종 수정: 2024-03-04)
DOI: 10.48550/arXiv.2303.08774
주요 연구 내용: 이미지와 텍스트를 입력으로 받아 텍스트를 출력하는 대규모 멀티모달 언어 모델 GPT-4의 개발, 성능 평가, 안전성 분석
주요 결과 및 결론: 다양한 전문적·학술적 벤치마크에서 인간 수준의 성능을 달성하며, 모의 변호사 시험 상위 10% 수준의 점수를 기록. RLHF 기반 정렬을 통해 사실성 및 바람직한 행동 준수를 향상
기여점: 현대 LLM 연구의 기준점을 제시하고, 스케일 예측 방법론을 실증하며, 포괄적인 안전성 평가 프레임워크를 제공