'2024/07/26 글 목록

Search

'2024/07/26'에 해당되는 글 1건

2024.07.26 Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods (CVPR 2024, Oral, Best Student Paper)

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods (CVPR 2024, Oral, Best Student Paper)

카테고리 없음 2024. 7. 26. 15:58 Posted by velpegor

안녕하세요, KDST팀 이원준입니다.

금일 진행한 세미나에 대해서 공유드리도록 하겠습니다.

CVPR 2024에서 Oral + Best Student Paper runner-up을 받은 논문입니다.

논문에서 지적하는 포인트는 아래와 같습니다.

Transformer와 CNN의 근본적으로 어떤 차이로 인해 달라지는가?
흔히 Transformer의 장점 중 하나인 self-attention이 그러한 원인이라면, attention이 없음에도 더 좋은 성능을 보이는 ConvNeXt 모델은 무엇인가?
attention이 원인이 아니라면, 내부 아키텍쳐가 원인인가?
그렇다면, 내부 아키텍쳐의 어떤 부분이 원인인가?

본 논문에서는 이러한 차이를 밝히기 위해, 아래와 같은 Method를 제안합니다.

Sub-explanation counting
Cross-Testing

Sub-explanation counting

"One explanation is not enough: structured attention graphs for image classification.", NeurIPS 2021에서 소개되었던 Minimally Sufficient Explanations (MSEs)를 이용합니다.
MSE : 네트워크가 높은 신뢰도로 예측을 수행하는 데 필요한 최소한의 입력 패치 집합을 의미
이 논문에서는 최소한의 입력 패치 집합인 MSE에서 더 나아가, 네트워크마다 필요로하는 패치들이 어떤 차이가 존재하는가를 알아보기위해 MSE보다 더 하위 집합의 패치들까지 조사하는 방식을 제안합니다.

여기에서 크게 모델들은 두 가지의 특징을 가집니다.

Compositional behavior : Compositionality가 높은 모델은 이미지의 여러 부분을 종합적으로 고려하여 의사결정을 내릴 수 있습니다
Disjuctive behavior : Disjuctive한 특징이 강한 모델은 이미지의 적은 수의 특징만으로도 확신을 갖고 의사결정을 내릴 수 있습니다

결과적으로, ConvNeXt와 non-distillated Transformer가 Compositional함을 나타내고, 반대로 CNNs과 Distilled Transformer(CNN으로 부터 distillation)는 Disjuctive한 특징이 강하게 나타났습니다.

자세한 원인은 실험 파트에서 설명드리도록 하겠습니다.

Cross Testing

한 네트워크를 기반으로 이미지에 대한 attribution map을 생성한 다음 마스크된 영역을 두 번째 네트워크에 입력하는 방식
이를 통해서 첫 번째 네트워크에 크게 기여하는 영역이 두 번째 네트워크와 관련이 있는지 여부를 이해할 수 있다.
두 모델이 유사한 시각적 특징에 의존하는 경우 교차 테스트에서 높은 점수를 받아야 합니다. 반면에 한 모델이 다른 모델에 중요한 것으로 간주되는 시각적 특징에 반응하지 않으면 다른 부분에 의존하고 있음을 의미합니다.

Experiments

본 논문에서 사용되는 메트릭은 Insertion metric입니다.

Insertion Metric : attribution map에서 중요한 픽셀이나 특징을 기본 이미지에 순차적으로 삽입하면서 모델의 예측 신뢰도를 평가하는 방법입니다. 이때 삽입된 픽셀이나 특징은 원본 이미지에서 가져옵니다. 기본적으로 흐려진 이미지에서 샘플링됩니다.
Insertion Metric에서 점수가 높다는 것은 흐려진 이미지에 중요한 영역이 기본 이미지에 들어갔다는 뜻

실험 파트를 통해 ConvNeXt 모델과 Trasnformer 모델이 다른 CNN들과 Distillated Transformer에 비해 높은 subexplanation의 수를 보입니다. 즉, 높은 subexplanation이라는 뜻은 네트워크가 여러 서로 다른 패치 집합을 통해 자신 있는 분류를 형성할 수 있음을 의미합니다(Compositionality가 강함).

예를 들어, 모델은 고양이라는 클래스에서 눈, 코, 입 중 3가지 모두를 봐야 가장 정확하게 예측할 수 있다라는 것입니다.

반대로, Disjuctive한 모델은 눈, 코, 입 중 눈에 대한 패치만 있어도 높은 confidence로 예측을 수행할 수 있습니다. Disjuctive하다는 것은 눈에 대한 패치가 없으면 confidence가 많이 떨어지기 때문에 눈에 대한 패치가 포함되어 있어야만 제대로된 예측을 수행할 수 있습니다. 따라서 subexplanations의 수가 적습니다.

Compositionality가 강한 모델의 경우에는, 이미지의 여러 부분을 고려해서 예측을 수행하기 때문에, 다양한 조합의 패치들의 하위 집합이 만들어질 수 있으므로 subexplanation의 수가 많음을 나타냅니다.

위 사진을 통해 Transformer 모델들과 CNN 기반 모델들의 하위 집합체의 수가 많이 다르다는 것을 확인 할 수 있습니다.

그렇다면, 이러한 원인이 무엇인가 논문에서 분석한 결과

모델의 Normalization의 방법에 따라 이러한 점이 극명하게 갈린다는 것입니다.

ConvNeXt-T-3 : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델

ConvNeXt-T-3 - GN : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델 + Layer Norm을 Group Norm으로 변경

ConvNeXt-T-3 - BN : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델 + Layer Norm을 Batch Norm으로 변경

마찬가지로

Swin-T-4 : swin의 1,2 스테이지에서만 4x4 window size로 변경

Swin-T-4 - GN : swin의 1,2 스테이지에서만 4x4 window size로 변경 + Layer Norm을 Group Norm으로 변경

Swin-T-4 - BN: swin의 1,2 스테이지에서만 4x4 window size로 변경 + Layer Norm을 Batch Norm으로 변경

실험 결과를 보면, LN을 BN으로 대체했을때 Sub-explanation의 수가 확실하게 떨어짐을 관찰할 수 있습니다.

즉, Batch Normalization이 모델을 덜 compositional하게 만든다는 것입니다.

Sub-explanation의 실험 이후로 Cross Testing에 대한 실험도 진행하였습니다.

위 실험 결과에서 가장 두드러지게 보이는 점은 세 번째 열의 Spoonbill 이미지에서 VGG에 의해 생성된 경우, 대부분의 다른 네트워크도 자신 있는 분류를 얻을 수 있었습니다. 그러나 VGG는 다른 네트워크가 생성한 가려진 이미지에서 매우 낮은 성능을 보였으며, 이는 특정 특징에 과도하게 의존하여 이러한 마스크 아래에서 그 특징이 존재하지 않을 수 있음을 보여줍니다. (Bold 글씨체가 생성된 모델을 뜻합니다.)

간단하게 논문 소개를 드렸는데, 더욱 자세한 내용은 논문을 참고하시면, 여러가지 결과와 분석을 확인하실 수 있습니다.

읽어주셔서 감사합니다.

«이전 1 다음»

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

KDST

카테고리

Search

'2024/07/26'에 해당되는 글 1건

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods (CVPR 2024, Oral, Best Student Paper)

Experiments

tag cloud

공지사항

최근댓글

최근기사

글보관함

링크

티스토리툴바