Blog | 99JIK

WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS

2025년 3월 17일 · 약 5분

Weronika Ormaniec

Felix Dangel

Sidak Pal Singh

논문 정보

제목: WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS
저자: Weronika Ormaniec (ETH Zürich), Felix Dangel (Vector Institute), Sidak Pal Singh (ETH Zürich)
학회/저널: ICLR 2025
발행일: 2025-03-17
DOI: 해당 없음
주요 연구 내용: 단일 셀프 어텐션 레이어의 손실 함수에 대한 헤시안 행렬을 이론적으로 완전히 유도하고, 이를 행렬 미분 형태로 표현함. 헤시안의 각 블록이 데이터, 가중치, 어텐션 모멘트(attention moments)에 어떻게 의존하는지 분석하여 기존 MLP나 CNN과의 구조적 차이점을 명확히 함.
주요 결과 및 결론: 트랜스포머 헤시안은 파라미터 그룹(Query, Key, Value)에 따라 데이터와 가중치에 대한 의존성이 매우 비선형적이고 이질적(heterogeneous)임을 보임. Softmax 활성화 함수와 Query-Key 파라미터화와 같은 트랜스포머의 핵심 설계 요소가 이러한 이질성의 주요 원인임을 밝힘.
기여점: 트랜스포머 학습에 통용되는 적응형 옵티마이저, 레이어 정규화, 학습률 워밍업 등의 기법이 필요한 이유를 헤시안의 복잡하고 이질적인 구조를 통해 설명함. 이는 트랜스포머의 독특한 최적화 환경과 그로 인한 문제들에 대한 깊은 이론적 토대를 제공함.

SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS

2025년 2월 26일 · 약 6분

Zhenyan Lu

Xiang Li

Dongqi Cai

Rongjie Yi

Fangming Liu

Xiwen Zhang

Nicholas D. Lane

Mengwei Xu

논문 정보

제목: SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS
저자: Zhenyan Lu (Beijing University of Posts and Telecommunications), Xiang Li (Peng Cheng Laboratory), Dongqi Cai (Helixon Research), Rongjie Yi (Beijing University of Posts and Telecommunications), Fangming Liu (Beijing University of Posts and Telecommunications), Xiwen Zhang (Beijing University of Posts and Telecommunications), Nicholas D. Lane (University of Cambridge), Mengwei Xu (Beijing University of Posts and Telecommunications)
학회/저널: arXiv
발행일: 2025-02-26 (v3)
DOI: arXiv:2409.15790
주요 연구 내용: 1억~50억 파라미터 사이의 디코더-전용 트랜스포머 기반 소형 언어 모델(SLM) 70개를 대상으로 기술 혁신을 아키텍처, 학습 데이터셋, 학습 알고리즘 세 가지 축으로 분석함. 또한, 상식 추론, 수학, 인-컨텍스트 학습, 긴 컨텍스트 처리 등 다양한 영역에서 모델의 능력을 평가하고, 온디바이스 환경에서의 추론 지연 시간과 메모리 사용량을 벤치마킹함.
주요 결과 및 결론: SLM의 성능은 2022년에서 2024년 사이에 LLM보다 빠르게 발전했으며, 모델 성능에는 아키텍처보다 데이터 품질이 더 결정적인 영향을 미침. 최신 SLM은 Chinchilla 법칙이 제안하는 것보다 훨씬 많은 토큰으로 '과잉 학습'되는 경향이 있으며, 이는 제한된 자원의 디바이스에 더 강력한 모델을 배포하기 위함임. 모델 아키텍처는 특히 추론의 프리필(prefill) 단계에서 지연 시간에 큰 영향을 줌.
기여점: 최근 발표된 SLM들을 철저히 검토하고 핵심 혁신을 요약하며, 모델의 능력과 온디바이스 비용을 포괄적으로 벤치마킹함. 심층 분석을 통해 향후 SLM 연구에 기여할 수 있는 통찰력을 제공하고, 모든 결과와 벤치마크 도구를 공개하여 관련 연구를 촉진함.

Prediction of Pick Acting Forces Using an Random Forest Model based on Mechanical Properties of Rocks and Cutting Parameters

2025년 2월 24일 · 약 6분

Mohammad Sharghi

Hoyoung Jeong

논문 정보

제목: Prediction of Pick Acting Forces Using an Random Forest Model based on Mechanical Properties of Rocks and Cutting Parameters
저자: Mohammad Sharghi, Hoyoung Jeong (Pukyong National University)
학회/저널: TUNNEL & UNDERGROUND SPACE
발행일: 2025-02-24
DOI: https://doi.org/10.7474/TUS.2025.35.1.055
주요 연구 내용: 195개의 암석 선형절삭시험 데이터세트를 구축하여 다변수 선형 회귀(MLR) 분석으로 기초 상관관계를 파악하고, 무작위 탐색 교차 검증(Randomized Search CV)으로 하이퍼파라미터를 튜닝한 최적화된 랜덤 포레스트(RF) 모델을 제안함. 이 모델을 사용하여 픽 커터의 평균 수직력( $FN_m$ )과 평균 절삭력( $FC_m$ )을 예측함.
주요 결과 및 결론: 최적화된 RF 모델은 MLR 모델( $FN_m$ $R^2$ =0.743, $FC_m$ $R^2$ =0.674) 대비 매우 우수한 예측 성능을 보임. 테스트 데이터 기준, $FN_m$ 예측 $R^2$ 는 0.983, $FC_m$ 예측 $R^2$ 는 0.908을 달성함. 특징 중요도 분석 결과, $FN_m$ 은 일축압축강도(UCS)가 지배적 영향을 미쳤으나, $FC_m$ 은 여러 매개변수가 복합적으로 작용하는 것으로 나타남.
기여점: 다양한 암종과 절삭 조건을 포함하는 포괄적인 데이터셋을 활용하여, 픽 커터 작용력 예측에 최적화된 RF 머신러닝 모델을 제시함. 특히 $FN_m$ 과 $FC_m$ 에 영향을 미치는 주요 인자(UCS 등)를 규명함으로써 굴착 효율성 및 공구 마모 예측의 정확도를 크게 향상시킴.

Identifying Bug Inducing Commits by Combining Fault Localisation and Code Change Histories

2025년 2월 19일 · 약 7분

Gabin An

Jinsu Choi

Jingun Hong

Naryeong Kim

Shin Yoo

논문 정보

제목: Identifying Bug Inducing Commits by Combining Fault Localisation and Code Change Histories
저자: Gabin An (KAIST), Jinsu Choi (KAIST), Jingun Hong (SAP Labs Korea), Naryeong Kim (KAIST), Shin Yoo (KAIST)
학회/저널: arXiv (Extended version of ICSE 2023 paper)
발행일: 2025-02-19 (v2)
DOI: 10.1109/ICSE48619.2023.00059 (Original ICSE 2023 paper)
주요 연구 내용: 코드 요소의 결함 의심 점수(Fault Localisation)와 코드 변경 이력(Version Control)을 결합하여 버그 유발 커밋(BIC)의 가능성을 정량화하는 'FONTE' 기법 제안. FONTE는 3단계(필터링, 의미 보존 커밋 제거, 점수화)를 통해 BIC 탐색 공간을 줄이고 순위를 매김.
주요 결과 및 결론: 206개 실제 BIC 대상 평가 결과, FONTE는 기존 IR 기반 BIC 식별 기법 대비 최대 45.8% 높은 MRR을 달성. 또한 FONTE 점수를 활용한 '가중 이진 탐색(Weighted Bisection)'은 표준 이진 탐색 대비 탐색 반복 횟수를 98%의 사례에서 감소시킴.
기여점: 버그 리포트나 버그 수정 커밋(BFC) 없이, 테스트 실패 정보(커버리지)와 커밋 이력만으로 BIC를 식별하는 효율적이고 유연한 비지도 방식 제안. 대규모 산업 프로젝트(SAP HANA)의 배치 테스팅 실패 시나리오에 적용하여 실용성 입증.

Automatic Robot Task Planning by Integrating Large Language Model with Genetic Programming

2025년 2월 11일 · 약 4분

Azizjon Kobilov

Jianglin Lan

논문 정보

제목: Automatic Robot Task Planning by Integrating Large Language Model with Genetic Programming
저자: Azizjon Kobilov (University of Glasgow, James Watt School of Engineering), Jianglin Lan (University of Glasgow, James Watt School of Engineering)
학회/저널: 10th IEEE International Conference on Advanced Robotics and Mechatronics (ARM 2025), Portsmouth, UK
발행일: 2025-02-11 (arXiv 제출일)
DOI: arXiv:2502.07772
주요 연구 내용: LLM과 유전 프로그래밍(GP)을 통합한 LLM-GP-BT 기법으로 자연어 로봇 작업 명령을 행동 트리(BT) 기반 작업 계획으로 자동 변환
주요 결과 및 결론: LLM-GP-BT가 GP-BT 대비 더 빠른 수렴 속도와 우수한 성능을 확률적 환경에서도 유지하며, 절반 크기의 초기 집단으로도 기존 방법보다 우수한 성능 달성
기여점: 사전 정의된 BT 예시 없이 환경 이미지와 자연어 명령만으로 BT를 자동 생성하는 사용자 친화적이고 계산 효율적인 프레임워크 제안

AI-Assisted Discovery of Biodegradable Polymer Alternatives

2024년 12월 31일 · 약 7분

Peter Broklyn

Sabir K

논문 정보

제목: AI-Assisted Discovery of Biodegradable Polymer Alternatives
저자: Peter Broklyn, Sabir K
학회/저널: Polymer Recycling
발행일: 2024년 12월
DOI: -
주요 연구 내용: 인공지능(AI)을 활용하여 생분해성 고분자 대체재를 발견하는 방법론과 기술을 탐색하는 연구임. 기존의 시간과 비용이 많이 소모되는 시행착오 기반의 접근법 대신, AI를 통해 물질의 특성을 예측하고, 고분자 제형을 최적화하며, 새로운 대체재를 식별하는 과정을 가속화하는 역할을 강조함.
주요 결과 및 결론: 머신러닝을 이용해 고분자의 물성을 예측하고, 생성 모델을 활용해 새로운 고분자 구조를 설계하며, 데이터 마이닝과 고속 스크리닝을 통해 유망한 후보를 식별할 수 있음을 보여줌. 이러한 AI 기술은 생분해성 폴리에스터 및 고분자 혼합물의 개발 사례에서 그 유용성이 입증됨.
기여점: 기존의 고분자 연구 개발의 한계를 극복하기 위해 AI의 잠재력을 제시함. 특히, 분자 구조와 물성 간의 관계를 밝혀내고, 새로운 물질을 제안하며, 실험 과정을 간소화하는 데 AI가 핵심적인 역할을 할 수 있음을 보여줌으로써 지속 가능한 소재 개발의 새로운 방향을 제시함.

Alternative Methods to SHAP Derived from Properties of Kernels: A Note on Theoretical Analysis

2024년 12월 15일 · 약 4분

Kazuhiro Hiraki

Shinichi Ishihara

Junnosuke Shino

논문 정보

제목: Alternative Methods to SHAP Derived from Properties of Kernels: A Note on Theoretical Analysis
저자: Kazuhiro Hiraki (International Monetary Fund), Shinichi Ishihara (Independent Researcher), Junnosuke Shino (Waseda University)
학회/저널: 2024 IEEE International Conference on Big Data (Big Data)
발행일: 2024-12-15 (추정)
DOI: 10.1109/BigData62323.2024.10825215
주요 연구 내용: 본 연구는 LIME(Local Interpretable Model-agnostic Explanations)의 커널을 이용하여 AFA(Additive Feature Attribution)의 일반적인 분석식을 유도함. 커널에 대칭성 조건을 부과하여, 특정 커널로부터 AFA 값을 분석적으로 계산할 수 있는 일반적인 프레임워크를 제시함.
주요 결과 및 결론: 이 프레임워크를 통해 기존의 AFA 방법론인 SHAP, ES, FESP를 커널 기반으로 재해석하고, LS prenucleolus 개념과 일치하거나 LIME의 커널 속성과 부합하는 새로운 AFA 방법론 4가지를 제안함. 이를 통해 SHAP의 대안이 될 수 있는 설명가능 AI 방법론의 이론적 기반을 확장함.
기여점: LIME의 커널 관점에서 AFA 방법론들을 통합적으로 분석하고 생성할 수 있는 일반화된 분석식을 최초로 유도함. 이를 통해 SHAP, ES 등 기존 방법론들을 커널 기반으로 재정의하고, LIME의 철학에 더 부합하는 새로운 AFA 대안들을 제시하여 설명가능 AI 분야의 이론적 토대를 넓힘.

데이터 변동률 기반 회귀 체인을 사용한 생분해성 섬유 원사 물성 예측 모델 개선

2024년 12월 1일 · 약 4분

Deokyeop Kim

류영교

강보권

김태환

이우진

경북대학교 컴퓨터학부 전임교수

논문 정보

제목: 데이터 변동률 기반 회귀 체인을 사용한 생분해성 섬유 원사 물성 예측 모델 개선 (Improving biodegradable fiber yarn property prediction model using data change rate-based regression chain)
저자: 김덕엽, 류영교, 강보권, 김태환, 이우진 (경북대학교 IT대학 컴퓨터학부)
학회/저널: 2024 한국소프트웨어종합학술대회 논문집
발행일: 2024-12
DOI: 제공되지 않음
주요 연구 내용: 본 연구는 데이터 수집 및 분포가 불균형한 생분해성 섬유 방사 데이터의 물성 예측 정확도를 높이기 위한 방법을 제안함. 기존의 상관 분석은 신뢰성이 떨어지므로, 방사 공정 데이터에 따른 물성 데이터의 변동률을 계산하고 변동률 간의 상관관계를 분석하여 물성 간 종속성을 평가함. 이 평가 결과를 바탕으로 회귀 체인(Regression Chain)을 구성하여 예측 모델을 개선함.
주요 결과 및 결론: 데이터 변동률 기반 분석 결과, 인장강도는 인장신도와 강한 종속성을 보였으며(상관계수 0.73), 이는 기존 상관 분석 결과와 다름. 이 결과를 바탕으로 인장신도를 예측하여 인장강도 예측 모델의 입력으로 사용하는 회귀 체인을 적용했을 때, 기존 모델 대비 MAE는 13%, MSE는 20%, R²는 5% 향상된 성능을 보임.
기여점: 불균형한 산업 데이터에서 기존 상관 분석의 한계를 지적하고, 데이터 변동률이라는 새로운 기준으로 물성 간 종속성을 더 신뢰성 있게 평가하는 방법을 제시함. 이는 국한적인 상황에서 회귀 체인 모델을 적용하여 예측 성능을 향상시킬 수 있음을 실험적으로 입증함.

Material Property Prediction with Element Attribute Knowledge Graphs and Multimodal Representation Learning

2024년 11월 13일 · 약 5분

Chao Huang

Chunyan Chen

Ling Shil

Chen Chen

논문 정보

제목: Material Property Prediction with Element Attribute Knowledge Graphs and Multimodal Representation Learning
저자: Chao Huang (Institute of Computing Technology, Chinese Academy of Science; Ningbo Institute of Information Technology Application, Chinese Academy of Sciences), Chunyan Chen (Institute of Computing Technology, Chinese Academy of Science), Ling Shil (Institute of Computing Technology, Chinese Academy of Science), Chen Chen (Ningbo Institute of Information Technology Application, Chinese Academy of Sciences)
학회/저널: arXiv
발행일: 2024-11-13
DOI: 제공되지 않음
주요 연구 내용: 기존 결정질 재료 물성 예측 모델들이 원소의 화학적, 물리적 특성을 간과하는 한계를 해결하고자 함. 원소의 속성(원자 반경, 전기음성도 등)을 체계화한 지식 그래프를 구축하고, 이를 임베딩하여 원소 속성 특징을 추출함. 이 특징을 결정 구조 그래프에서 추출한 특징과 결합하는 멀티모달 융합 프레임워크 'ESNet'을 제안함.
주요 결과 및 결론: Materials Project 벤치마크 데이터셋을 이용한 실험에서, ESNet은 밴드갭 예측에서 기존 SOTA 모델들을 능가하는 성능(MAE 0.177 eV)을 달성했으며, 형성 에너지 예측에서는 대등한 결과를 보임. 이를 통해 구조적 정보에 화학적 사전 지식(원소 속성)을 통합하는 것이 물성 예측 정확도를 크게 향상시킬 수 있음을 입증함.
기여점: 첫째, 재료 과학 분야에 활용 가능한 원소 속성 지식 그래프를 구축함. 둘째, 원소 속성 특징과 결정 구조 특징을 통합하는 새로운 멀티모달 융합 프레임워크 ESNet을 제안함. 셋째, 화학적 사전 지식의 통합이 재료 물성 예측, 특히 밴드갭 예측의 정확도를 크게 향상시킬 수 있음을 실험적으로 증명함.

Automatic Behavior Tree Expansion with LLMs for Robotic Manipulation

2024년 9월 20일 · 약 3분

Jonathan Styrud

Matteo Iovino

Mikael Norrlöf

Mårten Björkman

Christian Smith

논문 정보

제목: Automatic Behavior Tree Expansion with LLMs for Robotic Manipulation
저자: Jonathan Styrud, Matteo Iovino, Mikael Norrlöf, Mårten Björkman, Christian Smith
학회/저널: ICRA 2025 (IEEE International Conference on Robotics and Automation)
발행일: 2024-09-20 (arXiv), 2025 (ICRA)
DOI: 10.48550/arXiv.2409.13356
주요 연구 내용: LLM을 활용하여 로봇 조작 작업 중 계획 및 실행 단계에서 발생하는 오류를 자동으로 해결하고, 행동 트리(BT) 정책을 동적으로 확장·구성하는 BETR-XP-LLM 방법론 제안
주요 결과 및 결론: 다양한 작업과 실패 상황에서 BT를 자동으로 확장하여 문제를 해결하고, 향후 유사한 문제에 대응할 수 있도록 정책을 영구적으로 업데이트
기여점: BT의 투명성과 가독성을 유지하면서 LLM 호출을 최소화하고, 자동 정책 업데이트를 통해 로봇 시스템의 견고성과 성공률을 향상

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보​

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보

논문 정보