제목: Performance Improvement of Lightfastness Grade Prediction Model using Differential Testing
저자: 이대규, 서강복, 김덕엽, 이우진 (경북대학교 컴퓨터학부)
학회/저널: 2024 한국컴퓨터종합학술대회 논문집
발행일: 2024-06-26
DOI: 제공되지 않음
주요 연구 내용: 산업 현장의 요구사항을 반영한 내광성 등급 예측 모델의 성능 저하 문제를 해결하기 위해 차분 테스트 기법을 응용한 데이터 정제 방법을 제안함. 다수의 머신러닝 모델(LSTM, RF-MLP, AutoML)을 학습시킨 후, 일정 기준 이상의 정확도를 보이는 모델들 중 과반수가 예측에 실패한 데이터를 이상치로 간주하여 제거하고, 정제된 데이터로 모델을 재학습시켜 성능을 향상시킴.
주요 결과 및 결론: 제안된 기법을 적용한 결과, AutoML 모델은 1%, RF-MLP 앙상블 모델은 3%, LSTM 모델은 10%의 성능 향상을 보여 평균 4.6%의 정확도 상승을 확인함. 특히 LSTM 모델에서 예측 실패율이 높았던 데이터가 주로 제거되었는데, 이는 염색 공정의 순서상 발생한 데이터 오기입일 가능성이 높으며, 이를 이상치로 판단하여 제거한 것이 성능 향상의 주요 원인으로 분석됨.
기여점: 데이터의 양이 부족하고 신뢰성이 낮은 산업 데이터 환경에서 모델의 성능을 향상시키기 위한 실용적인 접근법을 제시함. 여러 모델의 예측 결과를 교차 검증하는 차분 테스트의 아이디어를 활용하여 학습을 저해하는 이상치를 효과적으로 식별하고 제거함으로써, 추가 데이터 확보 없이 예측 정확도를 높이는 방법을 제안함.
제목: 데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발 (The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error)
저자: Sechan Park (경북대학교), Deokyeop Kim (경북대학교), Kangbok Seo (경북대학교), 이우진 (경북대학교 컴퓨터학부)
학회/저널: 한국정보과학회 학술발표대회 (KSC 2022)
발행일: 2022-12-01
DOI: -
주요 연구 내용: 생분해성 섬유(PLA) 방사 공정에서 데이터 불균형과 측정 오차를 고려한 이상치 처리 및 데이터 증강 기법을 적용하여 인장 강신도 예측 모델의 성능을 개선
주요 결과 및 결론: 제안된 이상치 처리와 데이터 증강 기법을 통해 인장 강도(tenacity)와 신도(elongation) 예측 모델의 성능이 유의미하게 향상
기여점: 섬유 방사 공정 데이터의 고유한 특성(불균형, 측정 오차)을 고려한 맞춤형 데이터 전처리 파이프라인 제안
주요 연구 내용: 회귀분석에서 다중공선성(multicollinearity)과 이상치(outlier) 문제가 동시에 발생할 때, 기존의 최소자승법(OLS)은 신뢰할 수 없는 결과를 낳는다. 이 연구는 이 두 문제를 동시에 해결하기 위해 강건 회귀(robust regression) 방법인 LTS(Least Trimmed Squares)와 다중공선성 해결을 위한 편향 추정(biased estimation) 방법인 Ridge 및 Liu 회귀를 결합하는 접근법을 제안한다. 또한, 이러한 강건 편향 추정법을 쉽게 적용하고 비교할 수 있는 R 패키지 ltsbase를 개발하여 소개한다.
주요 결과 및 결론: 이상치를 포함하는 두 개의 실제 데이터셋(hbk, toxicity)을 대상으로 제안된 방법을 실험한 결과, LTS 기반의 Liu 추정법(LTS-Liu)이 OLS, Ridge, Liu, LTS-Ridge 등 다른 방법들보다 일관되게 가장 낮은 평균 제곱 오차(MSE)를 기록했다. 이는 다중공선성과 이상치가 공존하는 데이터에서 제안된 강건 편향 추정법이 매우 효과적임을 입증하며, 개발된 ltsbase 패키지가 실용적인 분석 도구로서의 가치가 있음을 보여준다.
기여점: 다중공선성과 이상치 문제를 동시에 다루는 강건 편향 추정법(LTS-Ridge, LTS-Liu)의 효과성을 실증적으로 검증했다. 이 방법론을 사용자가 편리하게 이용할 수 있도록 R 패키지 ltsbase를 개발하고 그 기능을 상세히 소개하여 관련 연구 및 분석의 접근성을 높였다.