본문 바로가기
논문 리뷰/의료영상

Kanavati et al., 2021, A deep learning model for the classification of indeterminate lung carcinoma in biopsy whole slide images

by 펄서까투리 2021. 7. 18.

# 세줄 요약 #

  1. The differentiation between major histological types of lung cancer, such as adenocarcinoma (ADC), squamous cell carcinoma (SCC), and small-cell lung cancer (SCLS) is of crucial importance for determining optimum cancer treatment.
  2. Hematoxylin and Eosin (H&E)-stained slides of small transbronchial lung biopsy (TBLB) are one of the primary sources for making a diagnosis, but if this diagnosis is difficult, we need further immunohistochemistry or surgical resection.
  3. We trained a deep learning model to classify H&E-stained Whole Slide Images(WSI) of TBLB specimens into ADC, SCC, SCLC, and non-neoplastic using a training set of 579 WSIs and a test set of 83 cases with a receiver operator curve area under the curve (AUC) of 0.99.

 

# 상세 리뷰 #

1. Introduction

  • 폐암(Lung Cancer)은 많은 국가들에서 주요 사망 원인임에도 아직 예측이 매우 어려운 병이고 악성 종양(Malignant tumor)의 종류에 따라 치료 접근법도 달라지기에, 조직검사(biopsy)로 병변 예측과 종양의 종류까지 알 수 있는 병리진단(Histopathological diagnosis)은 매우 중요하다.
  • 폐 암종(Lung Carcinoma)의 종류에는 'Small cell lung cancer (SCLC)'와 SCLC가 아닌 'Adenocarcinoma (ADC)', 'Squamous cell carcinoma (SCC)' 가 존재하며, 이러한 폐암 병리 진단에는 'Hematoxylin and Eosin (H&E)' 염색법을 사용한 기관지폐생검(transbronchial lung biopsy; TBLB)를 주로 사용한다.

그림 1. 폐 암종의 종류, 왼쪽부터 ADC(Adenocarcinoma), SCC(Squamous cell carcinoma), SCLC(Small cell lung cancer), Non-neoplastic(benign). [Kanavati et al., 2021, DOI: 10.1038/s41598-021-87644-7]
그림 2. 기관지폐생검(Transbronchial Lung Biopsy; TBLB) [Ellis, 1975, https://doi.org/10.1378/chest.68.4.524]

  • 다만 병리학자(Pathologist)들이 H&E로 염색된 기관지폐생검 샘플(H&E staind TBLB specimen)만으로 진단이 불가능할 경우에는 면역조직화학적 염색 샘플(immunohistochemical staind specimen)로 진단하거나 수술로 절제한 샘플(Surgical resection specimen)을 직접 진단해야 한다.
    • H&E stained TBLB specimen에서 진단이 안되는 비율은 28% 정도로 무시할 수 없는 수준이다.
    • Surgical resection을 할 경우 TBLB보다 샘플의 크기가 커서 많은 수의 세포(cell)과 넓은 영역의 조직(tissue)를 볼 수 있어서 진단 정확도가 올라간다.
  • Whole slide images (WSI)는 병리 조직 유리 슬라이드(glass slides)들을 최대 40배까지 확대하여 디지털화된 영상으로 변환한 것이며, 이러한 폐 병리 조직 WSI에 대해 딥러닝 분석을 사용한 논문으로는 'Coudray et al., 2018' 등이 있다.
    • 'Coudray et al., 2018' 논문에서는 TCGA(The Cancer Genome Atlas) 데이터셋을 사용하여 Surgical resection WSI에 대해 딥러닝 학습을 시켰으며 102 장의 테스트셋(biopsy specimens; 51 ADC, 51 SCC)에 대해 AUROC(Area Under Reciver Operator Curve) 0.871, 0.928의 성능을 보였다. 
    • 단 판별이 어려운 테스트셋 34개의 biopsy specimens에 대해서는 AUROC 0.809(ADC), 0.822(SCC)로 낮은 성능을 보였다.
  • 이번 연구에서는 RNN(Recurrent Neural Network)와 결합한 CNN(Convolutional Neural Network)를 가지고 TBLB specimen WSI들을 학습시켜 Lung Carcinoma들의 종류(ADC, SCC, SCLS, Non-neoplastic)들을 분류하였다.
    • 학습된 모델을 indeterminate specimen들을 모은 test set(n=83)에 검증한 결과 AUROC 0.99를 달성.

 

2. Result

  • A deep learning model for lung subtype carcinoma TBLB WSI classification
    • 목표: TBLB specimen WSI들에 대해서 딥러닝 모델로 학습시켜 ADC, SCC, SCLC, Non-neoplastic 4종류의 Lung caricinoma들을 분류하는 것.
    • 데이터셋
      • Training set: 579 WSIs of TBLB specimens (이중 45개는 indternimateWSI)
      • Test set: 83 indeterminate specimen WSIs = 0.99 AUROC  
      • Additional 4 test set: 502 TBLB specimen WSIs & 2407 surgical resection WSIs from three different medical institutions.

표 1. 이번 연구의 데이터셋 Train-Validationi-Test 분류 [Kanavati et al., 2021, DOI: 10.1038/s41598-021-87644-7]

  •  방법
    • WSI가 너무 크므로 병변이 나타나는 타일들을 패치로 추출하여 학습한 후 최종진단은 전체 WSI에 대해서 진단한다. 이때 타일들에 대해 분석한 후 전체 WSI로 진단하는 과정에서 두가지 방법이 존재한다. 
    • 방법 1. CNN 모델을 사용하여 각 타일들에 개별 분석을 한 후에 RNN 모델로 각 타일들의 예측(Prediction) 결과들을 합쳐 하나의 WSI 진단을 내림. -> 이번 논문에서 새롭게 시도한 방법
    • 방법 2. CNN 모델만 사용하는 방법으로 각 타일들을 CNN으로 개별 분석한 후 각 타일별 Probability 값들을 Max-pooling하여 최종 WSI에 대한 진단을 구한다. -> 기존 방법

그림 3. 이번 연구에서 딥러닝 모델 학습 방법: CNN으로 타일 분석 이후 RNN으로 WSI 진단. [Kanavati et al., 2021, DOI: 10.1038/s41598-021-87644-7]

  • Deep learning model can distinguish between ADC and SCC on indeterminate TBLB test set.
    • Kyushu Medical Centre에서 모은 83개의 H&E stained TBLB specimens WSI들에 대해 학습된 모델을 테스트하였고, 그 결과 64개의 ADC와 19개의 SCC에 대해 CNN+RNN 모델의 경우 각각 0.993, 0.996의 AUROC 성능을 얻었다.
  • Deep learning model can classify subtypes on TBLB test set.
    • Kyushu Medical Centre에서 추가로 모은 502개의 TBLB specimen WSI들에 대하여(훈련데이터셋과 같은 기관) 테스트한 결과, CNN+RNN 모델에서 ADC, SCC, SCLC 각각에 대한 AUROC 성능은 0.964, 0.968, 0.995였으며, non-neoplastic의 경우 0.979 AUROC를 얻었다.
  • Deep learing model can predict carcinomas on practical surgical sections.
    • 학습에는 TBLB specimen WSI들을 사용했지만, Surgical resection WSI들에 대해서도 모델이 우수한 성능을 보이는지 확인하기 위하여 Kyushu Medical Centre(n=500) 외에도 Mita Hospital(n=500)과 TCGA(n=905)에서도 테스트용 데이터셋을 구했다.
    • 그 결과 CNN+RNN 모델의 경우 3개의 데이터셋에서 4 종류의 Carcinoma 모두 0.94 이상의 AUROC 성능을 보여 TBLB로 학습된 모델이 Surgical resection 또한 잘 분류하는 것을 확인하였다.

표 2. ADC, SCC, SCLC, Neoplastic 각 종류 별로 여러 테스트셋(TBLB, indeterminate TBLB, 3 Surgical resection)의 AUROC 성능(with RNN vs with Max-pooling) [Kanavati et al., 2021, DOI: 10.1038/s41598-021-87644-7]
그림 4. 전체 테스트셋에서 (A) ADC, (b) SCC, (c) SCLC, (d) neoplastic 별 ROC(Reciver Operator Curve). 각 테스트셋 별 AUC 값은 레이블에서 참고. [Kanavati et al., 2021, DOI: 10.1038/s41598-021-87644-7]

 

3. Method & Discussion

  • WSI 진단에서 RNN 기법을 사용한 이유는 기존의 Max-pooling 방식의 경우 H&E 염색 기법 만으로 판독이 어려운 indeterminate case들에서 특히나 성능이 떨어지기 때문이다.
    • 표 2 참고: TBLB-indeterminate 테스트셋의 경우 ADC의 AUROC 값이 0.814(Max-pool)과 0.993(RNN)으로 큰 차이를 보인다.
  • Deep learing model
    • 영상 전처리:
      • 10배 확대한 WSI를 224x224 크기의 타일로 112 stide를 주어 추출하였다.
      • ADC, SCC, SCLC의 경우 cancer cell이 포함된 영역만 추출하기 위해 타일의 centre point가 레이블링 된 영역을 포함할 때만 추출하였으며, non-neoplastic 샘플은 cell이 없는 영역이므로 레이블링 되어 있지 않은 영역에서 자유롭게 타일을 추출하였다.
    • CNN tile classifier:
      • baseline model: EfficientNet-B1 + GAP(global average pooling) with 4 class(ADC, SCC, SCLS, non-neoplastic)
      • 4 클래스 별로 데이터셋 불균형이 심했기에, WSI에서 각 epoch마다 batch size 만큼 타일을 불러올 때 각 클래스별로 균등한 수(batch size/4)의 타일을 불러와서 학습시킴.
      • Complie: categorical cross entropy loss function + Adam optimizer
      • Imagenet Transfer learining: 첫 epoch에서는 마지막 classification layer를 제외한 Base layer들은 모두 frozen 시켰으며, 이후 epoch부터는 모든 레이어를 학습시켰다(unfrozen).
    • RNN WSI diagnosis:
      • CNN 모델에서 GAP Classifier를 입력으로 하는 GRU(gated recurrent uint) 기반의 RNN 모델(128 classification layer + 3 output layer)로 구성
      • RNN diagnosis는 ADC, SCC, SCLC의 3가지 출력값을 계산하여 3 모두가 아닌 경우 non-neoplastic이 된다.

 

# Reference: Kanavati F, Toyokawa G, Momosaki S, Takeoka H, Okamoto M, Yamazaki K, Takeo S, Iizuka O, Tsuneki M. A deep learning model for the classification of indeterminate lung carcinoma in biopsy whole slide images. Sci Rep. 2021 Apr 14;11(1):8110. doi: 10.1038/s41598-021-87644-7. PMID: 33854137; PMCID: PMC8046816.

728x90
728x90

댓글