banner
홈페이지 / 블로그 / 방사성 및 영향 요인에 대한 기계 학습 알고리즘의 비교 성능
블로그

방사성 및 영향 요인에 대한 기계 학습 알고리즘의 비교 성능

Jun 26, 2023Jun 26, 2023

Scientific Reports 13권, 기사 번호: 14069(2023) 이 기사 인용

76 액세스

1 알트메트릭

측정항목 세부정보

현재 방사선학에 어떤 기계 학습(ML) 알고리즘을 사용해야 하는지에 대한 권장 사항은 없습니다. 목표는 일부 전략이 데이터 세트에 관계없이 가장 좋고 안정적인 성능을 제공할 수 있는지 확인하기 위해 다양한 임상 질문에 적용될 때 방사선학에서 ML 알고리즘의 성능을 비교하는 것이었습니다. 본 연구에서는 10개의 데이터 세트에 대해 14개의 이진 분류 알고리즘과 결합된 9개의 특징 선택 알고리즘의 성능을 비교합니다. 이러한 데이터 세트에는 CT의 코로나19 폐렴 또는 근육감소증, MRI의 두경부, 안와 또는 자궁 병변을 포함한 이진 임상 분류를 위한 방사성 특성 및 임상 진단이 포함되었습니다. 각 데이터세트에 대해 학습-테스트 분할이 생성되었습니다. 특징 선택 알고리즘과 분류 알고리즘의 126개(9×14) 조합 각각은 10배 교차 검증을 사용하여 훈련 및 조정된 후 AUC가 계산되었습니다. 이 절차는 데이터세트당 3번 반복되었습니다. 특징 선택 알고리즘으로 JMI와 JMIM을 사용하고 분류 알고리즘으로 Random Forest 및 선형 회귀 모델을 사용하여 최고의 전체 성능을 얻었습니다. 분류 알고리즘의 선택은 대부분의 성능 변동(전체 변동의 10%)을 설명하는 요인이었습니다. 특징 선택 알고리즘의 선택은 변동의 2%만을 설명하는 반면, 학습-테스트 분할은 9%를 설명합니다.

Radiomics는 질병의 새로운 예측, 진단 또는 예후 영상 바이오마커를 발견하기 위해 의료 영상에서 많은 수의 특징을 정량적으로 추출하는 것으로 정의할 수 있습니다. Radiomics는 기계 학습 기술을 사용하여 의료 이미지에서 사람의 눈에 보이지 않는 정보를 비침습적으로 추출할 수 있으며 유망한 결과를 보여주었습니다. 그러나 표준이 부족하여 임상 환경에서 방사성 바이오마커를 사용하는 데 방해가 됩니다1.

방사성학 연구는 코호트 구성 및 영상 획득, 관심 영역(ROI) 분할, 특징 추출, 모델링 및 (이상적으로는) 독립적인 데이터 세트에 대한 외부 검증의 5단계로 구성됩니다2.

모델링 단계 자체는 특징 선택과 예측이라는 두 가지 단계에 의존합니다. 각 단계마다 다양한 방법과 알고리즘을 사용할 수 있으므로 수많은 조합이 가능합니다. 현재까지 방사성 측정을 수행할 때 어떤 알고리즘을 우선적으로 사용해야 하는지에 대한 전략이나 권장 사항은 나오지 않았습니다. 따라서 일부 팀에서는 최상의 결과를 제공하는 알고리즘이 시나리오에 따라 다르다고 믿기 때문에 연구를 수행할 때 서로 다른 알고리즘을 동시에 테스트하기로 선택했습니다3. 그러나 주어진 데이터세트에 대해 방사선학을 수행할 때 많은 수의 전략을 테스트하면 잘못된 발견의 위험이 높아집니다. 따라서 의미 있는 결과를 얻을 가능성을 높이려면 더 적은 수의 선택된 모델을 사용하는 것이 바람직할 수 있습니다.

Radiomics Quality Score2 또는 CLAIM(의료 영상 인공 지능 체크리스트4)과 같은 권장 사항을 발행하는 몇 가지 계획이 있더라도 이러한 권장 사항은 잘 따르지 않습니다. 예를 들어 Roberts et al5이 조사한 코로나19의 진단 또는 예후에 관한 69개의 기계 학습 연구 중 25개만이 36개 중 6 이상의 RQS를 받았습니다. 이러한 결과는 Spadarella et al.의 리뷰6에 의해 뒷받침됩니다. 44개 방사성학 연구에 대한 RQS 중앙값은 21%(7,5)입니다. 이는 연구의 여러 단계에서 잘못된 방법론적 선택이 편향된 결과로 이어질 수 있기 때문에 중요한 문제입니다. 훈련 데이터 세트의 분포가 대상 모집단과 다른 경우 코호트 구성 단계에서 일찍 편향이 도입될 수 있습니다7. 이는 데이터 세트 주석 중 연산자 가변성에 의해 도입될 수도 있습니다. Joskowicz et al8은 3193 CT 분할에서 두 관찰자 사이의 평균 부피 중첩 가변성이 37%임을 보여주었습니다. 이러한 가변성으로 인해 일부 방사성 특성이 재현되지 않을 수 있습니다. 또한 ML 알고리즘은 과적합되거나 잘못 평가된 성능을 제공할 수 있습니다. 신경영상 데이터 세트에 대한 Varoquaux et al.의 9개 실험에서는 연구 표본 크기가 100이면 예측 정확도에서 ±10%의 오류가 발생함을 보여줍니다. 반대로, Kaggle 대회에 대한 Roelofs et al.의 연구10에서는 테스트 샘플이 충분히 크면 과적합을 방지할 수 있음을 보여주었습니다. Roelofs는 과적합을 방지하기 위해 최소 10,000개의 예시를 고려했습니다.