Histopathology를 다루기

벌크 시퀀싱 또는 공간 전사체학 데이터의 표현형을 보려면,

종종 조직병리학적(또는 전체 슬라이드 이미징) 데이터와 함께 나타납니다.

이 연구를 시작하게 된 계기는 Harvard Peter Park Lab에서 정상 조직 CNV 연구가 활발히 진행되고 있기 때문입니다.

정상인에게서 발견되는 초기 암으로 생각되는 CNV의 표현형이 WSI에서 볼 수 있습니까? 주제로 콜라보레이션을 했는데요

조직병리학에서 CNV를 어느 정도 검출할 수 있다면 초기 암 표현형으로 여겨지는 과형성과 같은 부위를 중요한 패치로 선별하는 것이 가능하지 않을까요? 에 대한 연구입니다.

저는 주로 MIL(Multiple Instance Learning)을 통해 이 문제를 해결하려고 했습니다.

이 글을 쓰는 이유는 조직병리학을 치료하기 위한 MIL이라는 방법의 가능성과 한계를 정리하고 향후 연구를 위해 GNN을 어느 정도 정리하기 위함이다.

1. 다중 인스턴스 학습(MIL)

MIL은 태그가 할당된 데이터에 포함된 여러 데이터를 처리하는 방법입니다.

: 모든 데이터를 의미

가방: 여러 인스턴스가 있는 컬렉션

이때 정답에 해당하는 태그를 가방에 부여한다.

경우에 따라 다를 수 있지만, 가방마다 존재할 수 있는 인스턴스가 다를 수 있기 때문에 구조화된 데이터만 처리하는 방식은 이와 관련된 문제를 일으킬 수 있습니다.

따라서 여러 인스턴스에서 추출한 정보를 “집합”하는 방법이 매우 중요한 포인트라고 볼 수 있습니다.

조직병리학에서 MIL이라고 하면 Bag은 WSI를 나타내며 인스턴스는 Blob이라고 할 수 있습니다.

WSI가 너무 크기 때문에 한 번에 모든 것을 처리할 수 있는 CNN을 구현하는 것은 사실상 불가능하므로 패치에서 기능을 추출하여 통합하는 방법은 이제 MIL의 표준 방법으로 간주됩니다.


새로운 주요 조직 병리학 방법 중 하나 인 Harvard Faisal Lab의 CLAM은 다음과 같이 설명됩니다.

– 주의력 장애 MIL(CLAM)의 클러스터링

루, 밍 Y. 등. “전체 슬라이드 이미지에서 데이터 효율적이고 제대로 모니터링되지 않는 계산된 병리학.” 자연의생명공학 5.6(2021): 555-570.

CLAM은 클러스터링 기반 주의 메커니즘을 통해 레이블을 예측하는 데 도움이 되는 “특이한 관심 영역”을 예측하는 방법입니다.

목표는 유사한 특성을 가진 패치를 그룹화하고 클러스터를 기반으로 가중치를 할당하여 최종 파우치 수준 라벨을 예측하는 것입니다.

아래에 설명된 클러스터링 기반 주의 메커니즘을 제외하고 밀에 대해 조직병리학을 다루는 논문은 거의 비슷한 작업 흐름을 가지고 있습니다.


패치는 매우 큰 WSI 이미지에서 추출되며 기능은 “사전 훈련된 CNN”에 의해 추출됩니다.

물론 이 “사전 훈련된 CNN”을 사용하는 것은 매우 다를 수 있습니다.

이미지 넷 레이블인 1000개의 소프트 맥스 값을 사용할 수 있습니다.

특징은 CNN 레이어의 3차원 특징을 묶어서 얻을 수 있습니다.


CLAM 연구에서 256*256*3 이미지를 입력으로 받고 ResNet50 모델의 3번째 잔차 블록의 출력에 평균 공간 풀링을 적용하여 1024개의 특징 벡터를 얻습니다.

여기에서 MIL의 단점이 명백해집니다.

특징 추출 프로세스에 사용되는 가중치가 end-to-end 스타일로 미세 조정되지 않기 때문에 사전 훈련된 imageNet 모델이 병리 이미지를 잘 분해한다고 가정해야 합니다.

이를 해결하기 위해 semi-supervised와 같은 방법을 도입하여 training 과정에서 feature의 resolution을 향상시킨다(각 instance는 약하게 supervised되고, 서로 다른 feature를 가진 instance를 구별하는 것이 bag-label 학습에 도움이 된다고 가정하기 때문). 여러 논문에서.

마지막으로 모든 MIL 방법이 유사하므로 각 인스턴스의 가중치를 추정할 수 있는 방법을 사용하여 시각화합니다.


관심도를 이용해 히트맵을 그리는 것은 쉽지만 어떻게 관심을 끌까요? 이와 관련하여 기본적으로 이 문제를 다루는 다음 문서를 따를 수 있습니다.

(2018년에 이런 작품. 정말 대단한 것 같아요)

Ilse, Maximilian, Jakub Tomczak 및 Max Welling. “여러 인스턴스에서 주의 기반 딥 러닝.” 국제 기계 학습 컨퍼런스. PMLR, 2018. (이 문서에서 제공하는 코드는 정말 이해하기 쉽습니다.

)


Attention-based Deep Multiple Instance Learning의 작업 흐름도

내가 그린다”Attention-based multi-instance deep learning.” 이것이 논문의 워크플로 체계입니다.

위의 그림에서 “특징 추출”과 “주의 메커니즘”이라는 두 가지 개념이 가장 중요합니다.


특징 추출기 및 어텐션 메커니즘의 개략도

-특징 추출기

CNN을 사용하여 중간 기능을 선택하는 데 사용됩니다.

그러나 CNN 계층의 출력은 단위(N) * 행렬(2차원)과 같은 3차원 데이터이므로 “Global Average Pooling” 등을 사용하여 각 행렬을 점(0차원)으로 줄여야 합니다.

. .

즉, 최종 벡터(1d)와 같이 만들어야 하므로 CNN의 N-행렬 출력을 요약해야 한다.

-주의 메커니즘

가장 간단한 선형 회귀(Y = aX + b)의 경우 입력 X에 대해 Y에 대한 계수 “a”의 영향으로 해석할 수 있습니다.

이를 확장하기 위해 다차원 입력 데이터가 들어오는 경우를 고려한다.

다차원 데이터 처리 계층은 선형 회귀와 같이 쉽게 해석할 수 있는 계수(가중치, 매개변수)를 가질 수 없기 때문에 다차원 입력 Xk를 0차원 포인트 값으로 변환하는 네트워크가 생성됩니다.

네트워크의 출력과 입력 Xk 간의 곱셈 연산으로 데이터 자체에 주의를 기울이는 네트워크를 상상할 수 있습니다.

위에 표시된 워크플로 구성표에서(‘관심 기반 심층 다중 인스턴스 학습의 워크플로우 체계’) 추출된 특징 벡터(각각 Xk)에 어텐션 가중치를 곱하고 다음 레이어로 전달하는 것을 볼 수 있습니다.

학습이 잘되면 출력에 영향을 미치지 않는(fade to white) 입력 Xk는 작은 가중치로 걸러내고, 출력에 좋은 영향을 주는(fade to black) Xk는 가중치를 갖게 됩니다.

높음이 필터링됩니다.

이를 통해 여러 입력의 중요성을 얻을 수 있습니다.

이것이 주목의 개념입니다.

요약, 여러 인스턴스 학습

MIL 기술을 요약하면, 조직병리학적 데이터를 처리하기 위해 지금까지 사용된 MIL은 다음과 같다.

다차원 입력의 특징으로 추출하고 매트릭스 형태의 데이터(행: 패치, 열: 추출된 특징)를 사용하여 병리 수준에서 레이블을 일치시킵니다.

어려워 보이지만 간단한 매트릭스 데이터로 레이블을 장착하는 것 외에는 아무것도 아닌 것 같습니다.

여기서 요점은 주의력 메커니즘을 사용하여 어떤 패치(행)가 중요했는지 추론하고, 조직병리학에서 중요한 영역을 확인하고 이를 병리학적 지식과 연결하는 것입니다.

MIL의 한계

경계가 명확합니다.

우리는 특징 추출기가 병리 이미지의 질감 특징을 매우 잘 구분한다고 가정해야 합니다.

특징 추출과 모델링이 분리되어 있던 과거 머신러닝 시대처럼 최적의 모델 학습이 어렵다는 의미임을 알 수 있다.

MIL 논문을 읽을 때 다음과 같이 병리학에 대한 전문 지식이 없는 일반인도 몇 분의 짧은 교육으로 완료할 수 있는 작업입니다.

즉, 목표와 기술이 나오면서 아주 기본적인 것만 쓴다는 뜻이다.

유방 조직의 MIL에서 성별을 예측하는 것은 초등학생도 빠르게 할 수 있는 일입니다.

제 경험상 MIL은 이러한 유형의 작업에 매우 적합합니다.

그러나 다음과 같이 성별 특성이 명확하게 보이지 않는 병리 이미지를 식별하기 위해 MIL을 사용하는 것은 매우 어렵습니다.

B. 식도. 전문가들은 상피조직과 결합조직의 범위 등 공간정보를 통해 대충 짐작할 수 있지만 MIL을 통한 현재 기술로는 예측이 쉽지 않다.

이는 MIL에서 사용하는 특징 추출기가 식도 표본에서 수출 병리학자의 성차별 원리를 이해하지 못하고 단순 질감 특징을 추출하기 때문이다.

조직의 다양한 질감 특징을 이용한 딥러닝으로 유전자 돌연변이, CNV 등을 막연하게 쳐서 0.7 정도의 AUC를 달성한 연구들이 많이 있지만 시기상조인 것 같다.

AUC가 심지어 0.7인 이유는 제 개인적인 생각으로는 KRAS와 같은 유전적 돌연변이는 조직학적 특성으로는 발견되지 않지만 암의 병기와 중증도는 KRAS와 같은 유전적 사건과 상당한 연관성(또는 상관관계)이 있기 때문입니다.

. .

2. 그래프 신경망(GNN)

그래프 구조 데이터는 “엔티티” 간의 복잡한 관계 또는 상호 작용을 설명하는 데 매우 유용합니다.

그래프 자체는 엔터티를 노드로 정의하고 관계를 “에지”로 정의하여 사용할 수 있습니다.

병리학적 이미지를 다루는 GNN에서 가장 기본적인 용어를 정의해 보자.

노드: 조직(세포)의 생물학적 구조

에지: 노드 간의 관계(공간적 근접성)

그래프: 노드 및 그래프 집합

이러한 그래프 구조를 신경망으로 가져오려면 행렬 구조로 바꿔야 합니다.

– 인접 행렬: 노드 간의 관계에 대한 데이터


쉬, 멩지아. “다이어그램 임베딩 방법 및 응용 프로그램 이해.” SIAM 검토 63.4(2021): 825-853.

인접 행렬에는 각 노드 간의 관계에 대한 데이터가 포함될 수 있습니다.

(행:노드, 열:노드간 관계)

각 노드에는 기능도 있을 수 있습니다.

(행: 노드, 열: 특성)

예를 들어 간단한 GNN은 두 개의 입력을 받습니다.

(인접 행렬, 특징 행렬)

* 전파 규칙

이제 위의 E에 해당하는 인접 행렬에는 4개의 노드 간의 관계를 나타내는 데이터가 있습니다.

두 개의 특성을 가진 특성 행렬이 있다고 가정해 보겠습니다.

스프레드는 인접 행렬과 특성 행렬의 곱으로 표현할 수 있습니다.


위의 행렬 곱셈에 대해 생각해 봅시다.

첫 번째 노드는 0, 0, 0, 1~4 노드의 관계를 가지며 각 노드는 중간 행렬의 특징을 가집니다.

그들 사이의 행렬 곱셈은 다음과 같습니다.

((0*0.5, 0*0.7, 0*0.0, 1*0.9),

(0*0.1, 0*0.8, 0*0.1, 1*0.8))

사실 잘 생각해보면 첫 번째 노드에 연결된 모든 노드의 특성을 컨볼루션으로 생각하면 된다.

물론 네트워크의 가중치에 따라 가중치가 곱해지고 연결된 노드 피처에 더해지는 것을 볼 수 있습니다.

따라서 각 노드 속성은 연결된 노드 간에 속성에 대한 정보를 전달하는 것으로 생각할 수 있습니다.

수식으로 표현하면 다음과 같습니다.

에프(Hⁱ, ) = σ(AHⁱWⁱ)

H: 기능 맵

A: 인접 행렬

W: 가중치 행렬

물론 위의 예시는 단순 전파이고, 그 사이에 가중치를 주면 그래프 신경망이 됩니다.

전파 과정에서 스킵 연결을 추가하여 ResNet과 같은 속성을 가질 수 있으며 이 과정에서도 주의를 기울일 수 있습니다.

이를 통해 노드 간의 관계를 나타내는 인접 행렬과 노드 기능을 나타내는 기능 행렬의 두 입력을 취하여 원하는 전체 슬라이드 수준에서 학습을 시도할 수 있습니다.

아래 그림은 AI를 사용하여 병리학적 이미지를 분석하는 유명 스타트업인 PathAI의 웨비나 프레젠테이션에서 인용한 것입니다.


조직병리학에서 세포 및 조직 데이터를 추출합니다.

그러나 노드가 너무 많으면 하드웨어의 한계로 연산이 불가능하므로 클러스터링을 통해 편리하게 공간정보를 얻을 수 있다.

그런 다음 GNN에 대해 최종적으로 알고 싶은 레이블을 예측하는 방법을 배울 수 있습니다.

##

전체 슬라이드 이미지라는 거대한 크기의 이미지를 다루는 두 가지 기술을 연구했습니다.

여러 인스턴스와 그래프 신경망으로 학습,

둘 다 연구 수준에서 여전히 사용되는 기술이며 둘 다 장점과 단점이 있습니다.

앞으로 많은 연구에 활용될 것 같습니다.