제목: Polymer design via SHAP and Bayesian machine learning optimizes pDNA and CRISPR ribonucleoprotein delivery
저자: Rishad J. Dalal (University of Minnesota), Felipe Oviedo (Nanite Inc., University of Minnesota), Michael C. Leyden (University of Minnesota), Theresa M. Reineke (University of Minnesota)
주요 연구 내용: 길이, 이원 조성, pKav, 소수성(clog P)을 체계적으로 변화시킨 폴리머 라이브러리를 합성함. SHAP(SHapley Additive exPlanations) 분석과 베이지안 최적화(BO) 머신러닝을 결합하여 plasmid DNA(pDNA) 및 CRISPR-Cas9 리보핵단백질(RNP) 전달을 위한 정량적 구조-특성 관계를 해석하고 최적의 제형을 예측함.
주요 결과 및 결론: pDNA 전달에는 낮은 폴리머 pKa와 높은 benzimidazole ethanethiol(BET) 비율이 유리한 반면, RNP 전달에는 더 긴 폴리머 길이와 captamine(Cap) 양이온이 더 효과적임을 발견함. 머신러닝으로 최적화된 상위 3개 폴리머는 생체 내(in vivo)에서 대조군보다 1.7배 향상된 유전자 발현을 보이며 20일 이상 안정적으로 유지됨.
기여점: 핵산의 종류에 따라 최적의 전달체 설계 파라미터가 다르다는 것을 설명 가능한 머신러닝(SHAP)을 통해 처음으로 규명함. 합성, 특성 분석, 머신러닝을 결합한 파이프라인을 제시하여 차세대 핵산 약물 전달체 개발을 가속화할 수 있는 강력한 도구를 제공함.
주요 연구 내용: 본 연구는 그래프 신경망(GNN)을 대규모로 확장하고 액티브 러닝을 적용하여 무기 결정의 안정성을 정확하게 예측하는 GNOME(Graph Networks for Materials Exploration) 프레임워크를 개발했다. 이 프레임워크는 대칭성을 고려한 부분 치환(SAPS)과 같은 새로운 후보군 생성 방법과 밀도 범함수 이론(DFT) 계산을 결합한 반복적인 학습 사이클을 통해 모델을 지속적으로 개선하며 방대한 화학 공간을 효율적으로 탐색함.
주요 결과 및 결론: GNOME을 통해 기존 연구 대비 220만 개의 새로운 안정적인 결정 구조를 발견했으며, 이 중 381,000개는 새로운 볼록 껍질(convex hull)을 형성하여 인류에게 알려진 안정적인 재료의 수를 10배 가까이 확장함. 최종 모델은 에너지 예측 오차를 원자당 11 meV까지 낮췄으며, 안정적인 구조 예측의 정확도(hit rate)를 80% 이상으로 향상시킴. 또한, 이 과정에서 생성된 방대한 데이터셋은 전이 학습 없이도 높은 정확도를 보이는 범용 머신러닝 원자간 전위(MLIP) 모델 개발을 가능하게 함.
기여점: 알려진 안정적인 무기 재료의 수를 10배 가까이 확장하여 재료 과학 분야에 방대한 데이터를 제공함. 딥러닝 모델의 규모를 확장함으로써 학습 데이터 분포를 벗어나는 문제(out-of-distribution)에 대한 일반화 성능이 향상될 수 있음을 보여주었고, 이는 과학적 발견에서 머신러닝의 근본적인 한계를 극복할 가능성을 제시함. 또한, 생성된 데이터셋을 통해 특정 재료에 대한 추가 학습 없이도 분자 동역학 시뮬레이션에 바로 사용될 수 있는 고성능 사전 학습 원자간 전위 모델을 개발함.