# 세줄 요약 #
- The differentiation between major histological types of lung cancer, such as adenocarcinoma (ADC), squamous cell carcinoma (SCC), and small-cell lung cancer (SCLS) is of crucial importance for determining optimum cancer treatment.
- Hematoxylin and Eosin (H&E)-stained slides of small transbronchial lung biopsy (TBLB) are one of the primary sources for making a diagnosis, but if this diagnosis is difficult, we need further immunohistochemistry or surgical resection.
- We trained a deep learning model to classify H&E-stained Whole Slide Images(WSI) of TBLB specimens into ADC, SCC, SCLC, and non-neoplastic using a training set of 579 WSIs and a test set of 83 cases with a receiver operator curve area under the curve (AUC) of 0.99.
# 상세 리뷰 #
1. Introduction
- 폐암(Lung Cancer)은 많은 국가들에서 주요 사망 원인임에도 아직 예측이 매우 어려운 병이고 악성 종양(Malignant tumor)의 종류에 따라 치료 접근법도 달라지기에, 조직검사(biopsy)로 병변 예측과 종양의 종류까지 알 수 있는 병리진단(Histopathological diagnosis)은 매우 중요하다.
- 폐 암종(Lung Carcinoma)의 종류에는 'Small cell lung cancer (SCLC)'와 SCLC가 아닌 'Adenocarcinoma (ADC)', 'Squamous cell carcinoma (SCC)' 가 존재하며, 이러한 폐암 병리 진단에는 'Hematoxylin and Eosin (H&E)' 염색법을 사용한 기관지폐생검(transbronchial lung biopsy; TBLB)를 주로 사용한다.
- 다만 병리학자(Pathologist)들이 H&E로 염색된 기관지폐생검 샘플(H&E staind TBLB specimen)만으로 진단이 불가능할 경우에는 면역조직화학적 염색 샘플(immunohistochemical staind specimen)로 진단하거나 수술로 절제한 샘플(Surgical resection specimen)을 직접 진단해야 한다.
- H&E stained TBLB specimen에서 진단이 안되는 비율은 28% 정도로 무시할 수 없는 수준이다.
- Surgical resection을 할 경우 TBLB보다 샘플의 크기가 커서 많은 수의 세포(cell)과 넓은 영역의 조직(tissue)를 볼 수 있어서 진단 정확도가 올라간다.
- Whole slide images (WSI)는 병리 조직 유리 슬라이드(glass slides)들을 최대 40배까지 확대하여 디지털화된 영상으로 변환한 것이며, 이러한 폐 병리 조직 WSI에 대해 딥러닝 분석을 사용한 논문으로는 'Coudray et al., 2018' 등이 있다.
- 'Coudray et al., 2018' 논문에서는 TCGA(The Cancer Genome Atlas) 데이터셋을 사용하여 Surgical resection WSI에 대해 딥러닝 학습을 시켰으며 102 장의 테스트셋(biopsy specimens; 51 ADC, 51 SCC)에 대해 AUROC(Area Under Reciver Operator Curve) 0.871, 0.928의 성능을 보였다.
- 단 판별이 어려운 테스트셋 34개의 biopsy specimens에 대해서는 AUROC 0.809(ADC), 0.822(SCC)로 낮은 성능을 보였다.
- 이번 연구에서는 RNN(Recurrent Neural Network)와 결합한 CNN(Convolutional Neural Network)를 가지고 TBLB specimen WSI들을 학습시켜 Lung Carcinoma들의 종류(ADC, SCC, SCLS, Non-neoplastic)들을 분류하였다.
- 학습된 모델을 indeterminate specimen들을 모은 test set(n=83)에 검증한 결과 AUROC 0.99를 달성.
2. Result
- A deep learning model for lung subtype carcinoma TBLB WSI classification
- 목표: TBLB specimen WSI들에 대해서 딥러닝 모델로 학습시켜 ADC, SCC, SCLC, Non-neoplastic 4종류의 Lung caricinoma들을 분류하는 것.
- 데이터셋
- Training set: 579 WSIs of TBLB specimens (이중 45개는 indternimateWSI)
- Test set: 83 indeterminate specimen WSIs = 0.99 AUROC
- Additional 4 test set: 502 TBLB specimen WSIs & 2407 surgical resection WSIs from three different medical institutions.
- 방법
- WSI가 너무 크므로 병변이 나타나는 타일들을 패치로 추출하여 학습한 후 최종진단은 전체 WSI에 대해서 진단한다. 이때 타일들에 대해 분석한 후 전체 WSI로 진단하는 과정에서 두가지 방법이 존재한다.
- 방법 1. CNN 모델을 사용하여 각 타일들에 개별 분석을 한 후에 RNN 모델로 각 타일들의 예측(Prediction) 결과들을 합쳐 하나의 WSI 진단을 내림. -> 이번 논문에서 새롭게 시도한 방법
- 방법 2. CNN 모델만 사용하는 방법으로 각 타일들을 CNN으로 개별 분석한 후 각 타일별 Probability 값들을 Max-pooling하여 최종 WSI에 대한 진단을 구한다. -> 기존 방법
- Deep learning model can distinguish between ADC and SCC on indeterminate TBLB test set.
- Kyushu Medical Centre에서 모은 83개의 H&E stained TBLB specimens WSI들에 대해 학습된 모델을 테스트하였고, 그 결과 64개의 ADC와 19개의 SCC에 대해 CNN+RNN 모델의 경우 각각 0.993, 0.996의 AUROC 성능을 얻었다.
- Deep learning model can classify subtypes on TBLB test set.
- Kyushu Medical Centre에서 추가로 모은 502개의 TBLB specimen WSI들에 대하여(훈련데이터셋과 같은 기관) 테스트한 결과, CNN+RNN 모델에서 ADC, SCC, SCLC 각각에 대한 AUROC 성능은 0.964, 0.968, 0.995였으며, non-neoplastic의 경우 0.979 AUROC를 얻었다.
- Deep learing model can predict carcinomas on practical surgical sections.
- 학습에는 TBLB specimen WSI들을 사용했지만, Surgical resection WSI들에 대해서도 모델이 우수한 성능을 보이는지 확인하기 위하여 Kyushu Medical Centre(n=500) 외에도 Mita Hospital(n=500)과 TCGA(n=905)에서도 테스트용 데이터셋을 구했다.
- 그 결과 CNN+RNN 모델의 경우 3개의 데이터셋에서 4 종류의 Carcinoma 모두 0.94 이상의 AUROC 성능을 보여 TBLB로 학습된 모델이 Surgical resection 또한 잘 분류하는 것을 확인하였다.
3. Method & Discussion
- WSI 진단에서 RNN 기법을 사용한 이유는 기존의 Max-pooling 방식의 경우 H&E 염색 기법 만으로 판독이 어려운 indeterminate case들에서 특히나 성능이 떨어지기 때문이다.
- 표 2 참고: TBLB-indeterminate 테스트셋의 경우 ADC의 AUROC 값이 0.814(Max-pool)과 0.993(RNN)으로 큰 차이를 보인다.
- Deep learing model
- 영상 전처리:
- 10배 확대한 WSI를 224x224 크기의 타일로 112 stide를 주어 추출하였다.
- ADC, SCC, SCLC의 경우 cancer cell이 포함된 영역만 추출하기 위해 타일의 centre point가 레이블링 된 영역을 포함할 때만 추출하였으며, non-neoplastic 샘플은 cell이 없는 영역이므로 레이블링 되어 있지 않은 영역에서 자유롭게 타일을 추출하였다.
- CNN tile classifier:
- baseline model: EfficientNet-B1 + GAP(global average pooling) with 4 class(ADC, SCC, SCLS, non-neoplastic)
- 4 클래스 별로 데이터셋 불균형이 심했기에, WSI에서 각 epoch마다 batch size 만큼 타일을 불러올 때 각 클래스별로 균등한 수(batch size/4)의 타일을 불러와서 학습시킴.
- Complie: categorical cross entropy loss function + Adam optimizer
- Imagenet Transfer learining: 첫 epoch에서는 마지막 classification layer를 제외한 Base layer들은 모두 frozen 시켰으며, 이후 epoch부터는 모든 레이어를 학습시켰다(unfrozen).
- RNN WSI diagnosis:
- CNN 모델에서 GAP Classifier를 입력으로 하는 GRU(gated recurrent uint) 기반의 RNN 모델(128 classification layer + 3 output layer)로 구성
- RNN diagnosis는 ADC, SCC, SCLC의 3가지 출력값을 계산하여 3 모두가 아닌 경우 non-neoplastic이 된다.
- 영상 전처리:
# Reference: Kanavati F, Toyokawa G, Momosaki S, Takeoka H, Okamoto M, Yamazaki K, Takeo S, Iizuka O, Tsuneki M. A deep learning model for the classification of indeterminate lung carcinoma in biopsy whole slide images. Sci Rep. 2021 Apr 14;11(1):8110. doi: 10.1038/s41598-021-87644-7. PMID: 33854137; PMCID: PMC8046816.
댓글