Abstract
4차 산업 혁명의 핵심 기술 중 하나인 딥러닝은 기존의 규칙 기반(rule-based) 알고리즘 또는 딥러닝을 제외한 머신러닝 알고리즘 대비
뛰어난 특징 추출 능력(1)과 성능, 그리고 재현성(reproducibility)을 보임 => 자동 진단, 치료반응 평가, 생존 예측 등 의료분야 널리 적용
최근에는 의료기기에 탑재되어 국내외적으로 인허가를 통과하는 단계
특히 의료 영상 재구성(reconstruction), 합성(synthesis), 자동 분석(analysis) 및 판독(diagnosis) 등의 영상의학(medical imaging) 분야에서 괄목할 만한 연구들이 나오고 있다
영상 재구성 : 의료 영상 촬영 기기에서 얻어진 획득 데이터를 영상으로 복원하는 기술
영상의학 관련 연구에서 딥러닝이 활발하게 이용되고 있는 또 다른 분야는 바로 의료 영상 자동 분석 및 판독 분야
목적 :영상의학과 전문의(radiologist)가 주로 담당하고 있는 업무[영상 판독, 환자 분류(triaging), 응급 질환 분류(referral suggestion) 등]의 일부(11, 12)를 수행하거나 그것을 보조하는 것
딥러닝 모델이 의료 분야에서 안전하게 사용되기 위해서는 반드시 그 판단 근거를 확인하는 과정이 필요 =>
결정의 근거와 판단 과정을 일부나마 확인할 수 있도록 제시된 최근의 기법들을 설명 가능한 인공지능(explainable artificial intelligence, XAI) 기술 -> 그 중 어텐션 기법에 대해 기술
어텐션 기법은 ‘영상의 어느 영역에 집중하면 되는지 파악하는 능력’에 해당. 구체적으로 ‘달성해야 할 목적과의 연관성에 따라 추출한 특징에 가중치를 부여함으로써 네트워크 스스로 집중해야 할 영역을 선별하는 기술’
어텐션 기법의 구분
크게 사후 네트워크 분석을 위한 어텐션과 네트워크와 동시에 학습되는 학습 가능한 어텐션 두 종류로 구분된다.
사후 네트워크 분석을 위한 어텐션 : 영상 판독이나 검출 등에서 활용되는 네트워크 추론 기술로서, 학습이 모두 끝난 네트워크에 적용하여 분류나 검출의 근거로 삼은 영역이 어디인지를 파악하는 기술.
딥러닝 모델이 폐암 환자의 방사선 영상을 보고 폐암으로 분류했다면, 어느 부분을 보고 그런 결정을 내렸는지 표현하는 기술이다. 설명
가능한 인공지능 기술로서 자주 언급되는 클래스 활성화 지도(Class Activation Mapping; 이하 CAM), 경사 가중치 클래스 활성화 지도(Gradient-weighted Class Activation Mapping; 이하 Grad-CAM), 세일리언시 지도(Saliency Map), 계층별 관련도 전파법(Layer-wise Relevance Propagation; 이하 LRP) 등 다양한 기술이 여기에 포함
학습 가능한 어텐션 : 딥러닝 모델 안에 어텐션 기법을 삽입하여 내재적으로(intrinsically) 함께 학습되도록 함으로써 전체 영상이 아닌 특정 영역에 더 집중하도록 능동적으로 학습하는 기술
학습을 다 마친 후에 딥러닝 모델이 어느 영역에 집중했는지 분석하는 것이 아니라, 어텐션 기법이 딥러닝 모델과 함께 학습되며 중요도가 높은 영역의 특징에 더 높은 가중치를 스스로 부여하도록 한다.
클래스 활성화 지도 (Class Activation Mapping)
클래스 활성화 지도(CAM) : 주로 이러한 분류 및 판별의 문제에서 각 클래스별 확률을 계산함에 있어 딥러닝 모델이 영상의 어느 부분에 집중했는지를 해석하기 위해서 고안된 방법

합성곱 신경망 층 이후 마지막 특징 지도(fk)들을 각각의 평균값으로 압축하는 전역 평균 풀링(Global Average Pooling; 이하 GAP) 과정을 거치고 이에 한 개의 완전 연결 층(fully connected layer)이 따라오는 구조에 적용 가능

Sc: 클래스 C에 대한 모델의 출력값, fk: 모델 합성곱 층 최말단의 k번째 특징 지도, Z: 영상 안의 총 픽셀 개수, Wc k : 클래스 C에 대한 K 번째 fk에 적용되는 가중치, Mc: 클래스 C에 대한 CAM이다. 각 특징 지도(fk)에 그에 상응하는 가중치(Wc k )를 곱한 후 이를 합하여 CAM을 얻는다.
장점 : 모델이 집중한 부분을 잘 지역화 한다.
단점 : 해상도가 낮다
해상도가 낮은 이유 :입력 영상이 네트워크를 통과하면서 수용 영역을 넓히고 더 많은 정보를 추출하기 위해 풀링(pooling)이 가해지기 때문에 최말단의 특징 지도(fk)에 이르러서는 그 크기가 원본 영상보다 작아지는데, 이를 원본 영상에 대응시키기 위해서 CAM의 크기를 원본 영상만큼 업-샘플링(up-sampling) 하는 과정에서 해상도가 저하
경사 가중치 클래스 활성화 지도
경사 가중치 클래스 활성화 지도 : 대부분의 CAM 기법의 경우, 모델이 반드시 GAP를 포함하여야 적용이 가능하다. 그러나 대부분의 딥러닝 모델들이 출력단에 다양한 구조를 사용하고 있다는 점에서 이러한 제한 사항은 큰 단점으로 작용한다. 따라서 모델의 판단 근거를 설명함에 있어서 모델의 구조에 구속되지 않는 유연한 방법이 요구되었으며, 이 필요성에 의해 고안된 것
제한사항 : 적어도 한 개 이상의 합성곱 신경망 층이 모델 내부에 포함되어 있어야 함


Ak: 합성곱 신경망의 k 번째 특징 지도, Z: 영상 내 총 픽셀 개수, ∂yc/∂Ak : 클래스 C에 대응되는 출력값(yc)에 대한 k 번째 특징 지도의 미분
그러나 CAM에서는 완전 연결층의 가중치(Fig. 4의 Wck )를 그대로 사용한 것과 달리, Grad-CAM에서는 역전파(backpropagation)를통해 얻을 수 있는 미분지도들의 픽셀 별 그래디언트(gradient) 값( ∂yc∂Ak )의 전역 평균을 구하여 가중치로 사용
CAM과 마찬가지로 각 특징 지도에 그에 상응하는 가중치를 곱한 후 이를 합하여 Grad-CAM을 얻게 됨
Grad-CAM 역시 합성곱 신경망 층의 특징 지도를 기반으로 만들어지는데, 효과적으로 수용 영역을 넓히기 위해 모델 구조에 풀링이 포함된 경우가 많아서 그 크기가 원본 영상보다 작아짐 -> 원본 영상과 대응시키기 위해서는 그 크기를 키워야 하고 그로 인해 CAM과 마찬가지로 해상도가 저하된다는 단점 존재
세일리언시 지도(Sailency Map)
세일리언시 지도 : 모델의 클래스별 출력값에 대한 입력 영상의 미분으로 계산 -> 이는 입력 영상의 특정 픽셀값의 변화에 따른 출력의 변화가 상대적으로 크다면, 그 픽셀이 출력값에 기여하는 바가 크다는 것을 의미한다는 가정에서 고안


특징 : 연산이 모델의 구조와는 완전히 무관
장점 :
- 연산이 모델의 구조와 완전히 무관하기 때문에 다양한 모델에 유연하게 적용 가능하다는 장점 존재
- 출력에 대한 입력의 미분으로 계산되기 때문에 히트맵이 입력영상과 동일한 해상도를 유지 -> 다른 CAM 기반의 기법들에 비해 해상도의 저하 없이 판단의 근거가 되는 영역의 세밀한 부분을 시각화 가능
단점 :
- 비선형적인 활성화 함수 등으로 인한 그래디언트 정보 소실(shattered gradient problem)이 발생할 수 있어 표현되는 히트맵에 잡음이 나타남
- 고차원 정보가 압축된 특징 지도를 활용하지 않기 때문에 지역화 능력이 떨어짐
계층별 관련도 전파법(Layer-Wise Relevance Propagation)
계층별 관련도 전파법 :추론 결과에 대한 ‘관련도(relevance)’를 입력 데이터까지 계층별(layer-wise)로 역산하여 전파 (propagation) 시키는데, 이를 통해 특정 추론값을 결정하는데 있어 입력 픽셀 별 기여도(입력 영상에서 중요하게 작용한 영역이 어디였는지)를 직접적으로 표현

세일리언시 지도와 비슷한 개념이지만, 그래디언트가 아니라 ‘관련도’를 입력 픽셀까지 전파시킨다는 점이 다름.
-> 그래디언트 기반의 방법에서 발생할 수 있는 그래디언트 소실 문제로부터 훨씬 자유로움

그림과 같이 입력 영상에 대하여 잘 훈련된 신경망이 특정 클래스로 분류를 했고 그 출력값으로 0.9를 얻었다면, 이를 출력단에서의 관련도로 설정한다. LRP에 내재된 아이디어는, 출력단 이전의 계층(layer k)에 존재하는 뉴런들에 출력값에 대한 기여도(관련도)를 분배할 수 있으며, 그 합은 0.9로 보존되어야 한다는 것. 같은 원리로 이를 입력단까지 반복하면, 각 입력 픽셀 별로 0.9라는 출력값에 대한 기여도를 정량화할 수 있으며, 특정 추론 결과를 창출함에 있어 모델이 집중한 영역을 표현할 수 있음.
의료 영상 분석에 있어 사후 분석용 어텐션 기법 간의 비교
CAM
장점 : 가장 직관적으로 이해 가능
단점 : 모델 구조에 제한, 여러 층의 합성곱 층을 지난 후에 얻어지는 특징 지도를 통해서 계산 되기때문에 그 크기를 입력 영상과 대응시키기 위해 영상의 크기를 확대하는 과정에서 해상도가 낮아짐
Grad-CAM
장점 : 모델 내부의 특징 지도에서 얻어지는 고차원적인 정보를 이용하기 때문에 그만큼 모델의 판단 근거가 되는 영역의 검출에 뛰어나다는 강점
세일리언시 지도
장점 : 모델의 구조에 제한이 전혀 없고, 그 지도의 크기가 입력 영상과 동일하기 때문에, 해상도
의 저하가 일어나지 않는다.
단점 : 입력에 대한 출력의 미분이기 때문에 그만큼 고차원적인 정보가 이용되지 않으며, 그에 따라 CAM 기반의 기법들에 비해 영역 검출의 정확성(accuracy)이 떨어지고, 잡음 등의 외적 요인에 민감.
