본문 바로가기
논문 리뷰/의료영상

Han et al., 2020, Predicting Unnecessary Nodule Biopsies from a Small, Unbalanced,and Pathologically Proven Dataset by Transfer Learning

by 펄서까투리 2020. 10. 6.

# 세줄요약 #

  1. The database includes 68 biopsied nodules, 16 are pathologically proven benign and the remaining 52 are malignant.
  2. The leave-one-out and 10-folder cross validations are applied to train and test the randomly selected 68 image slices (one image slice from one nodule) in each experiment.
  3. Transfer learning from other larger datasets can supply additional information to small and unbalanced datasets to improve the classification performance.

 

# 상세리뷰 #

1. Dataset

  • biopsy 검증된 폐 결절 데이터셋 68개(16 benign, 52 malignant)
    • proved by pathological diagnosis on biopsied nodule specimens
    • diameters: 9.1mm ~ 130.8mm (* mean = 31.5mm)
  • 데이터셋의 갯수와 폐 결절 직경의 분포 범위를 보았을때 매우 작고 불균형한(small and unbalanced) 데이터셋이라 할 수 있다.

2. Method

  • Transfer learning
    • 데이터셋이 적기 때문에 ImageNet이 학습된 VGG16 신경망을 불러와서 Transfer Learning을 하였다.
    • ImageNet 비록 의료 데이터는 아니지만 사물에 대한 학습 결과도 의료영상 학습에 도움이 될 것이라 예상

  • 데이터셋 전처리
    • 각 결절의 경계는 영상전문의(Radiologist)들이 그려주었다.
      • 이렇게 구한 결절의 크기는 9.1mm~130.8mm로 차지하는 픽셀의 크기는 10x10 ~ 145x145 pixels (* mean = 35 x 35 pixels)로 다양하게 분포한다.
      • 학습을 위해 통일된 크기가 필요하므로 45x45 pixels 크기의 패치들을 추출하여 학습하였다.
    • 단 ImageNet 전이학습을 사용하였기에 ImageNet 데이터셋과 같은 구조를 만들어줘야한다.
      • ImageNet 데이터는 2D 이미지이기 때문에 결절 Patch를 3D로 학습시키지 못하고, 각 결절 슬라이스별로 나누어 2D로 학습시켜야 한다. 
        • 단 결절 크기가 제 각각이라 작은 결절은 3 슬라이스에서만 나타나지만, 가장 거대한 결절은 49 슬라이스에 걸쳐 분포(평균 16 슬라이스)하므로 Training set과 Test set을 구성할 때, 한 환자당 하나의 슬라이스씩 랜덤하게 추출하여 사용하기로 결정하였다.
        • 즉 학습에 사용되는 데이터셋은 매번 랜덤하게 68개의 슬라이스가 각 환자별로 하나씩 추출되어 학습 또는 테스트에 사용된다.
      • ImageNet 데이터는 컬러 이미지이기 때문에 Gray 이미지인 폐 결절 데이터셋을 R, G, B Component로 나누어 channel을 늘려주는 과정이 전처리에 들어간다.

  • VGG16 학습
    • Transfer layser의 수에 따른 성능 변화를 비교하기 위해 VGG16 신경망 내의 transfer convolutional layer 수를 8, 11, 13, 16로 조정해가며 성능 비교.
    • 각각의 결절에서 랜덤하게 한 슬라이스씩 결절 patch를 추출하여 학습과 테스트에 사용
    • leave-one-out validation과 10-fold cross validation 함께 진행
      • leave-one-out method에서는 100개의 Train & test 데이터셋을 추출한 후 결과는 평균하여 구한다.
    • 그리고 전통적인 머신러닝인 SVM classifier와도 학습 결과를 비교한다.
    • benign 갯수 16에 비해 malignant 갯수가 52개로 너무 많기에, 16 benign & 8 malignant 데이터 subset으로 학습을 한번 더하여 결과를 비교한다.

3. 결과

  • 머신러닝과 CNN 결과 비교
    • Transfer learning을 사용한 CNN(VGG16) 성능이 더 우수

  • 데이터 비율에 따른 비교 (benign/malignant ratio = 16:52 & 16:8)
    • 16:8 비율일 때 성능이 더 우수

# Reference: Han, F., Yan, L., Chen, J. et al. Predicting Unnecessary Nodule Biopsies from a Small, Unbalanced, and Pathologically Proven Dataset by Transfer Learning. J Digit Imaging 33, 685–696 (2020). https://doi.org/10.1007/s10278-019-00306-z

728x90
728x90

댓글