안녕하세요, KDST팀 이원준입니다.

금일 진행한 세미나에 대해서 공유드리도록 하겠습니다. 

 

CVPR 2024에서 Oral + Best Student Paper runner-up을 받은 논문입니다.

 

논문에서 지적하는 포인트는 아래와 같습니다.

  • Transformer와 CNN의 근본적으로 어떤 차이로 인해 달라지는가?
  • 흔히 Transformer의 장점 중 하나인 self-attention이 그러한 원인이라면, attention이 없음에도 더 좋은 성능을 보이는 ConvNeXt 모델은 무엇인가?
  • attention이 원인이 아니라면, 내부 아키텍쳐가 원인인가?
  • 그렇다면, 내부 아키텍쳐의 어떤 부분이 원인인가?

본 논문에서는 이러한 차이를 밝히기 위해, 아래와 같은 Method를 제안합니다.

  • Sub-explanation counting
  • Cross-Testing

Sub-explanation counting

  • "One explanation is not enough: structured attention graphs for image classification.", NeurIPS 2021에서 소개되었던 Minimally Sufficient Explanations (MSEs)를 이용합니다. 
  • MSE : 네트워크가 높은 신뢰도로 예측을 수행하는 데 필요한 최소한의 입력 패치 집합을 의미
  • 이 논문에서는 최소한의 입력 패치 집합인 MSE에서 더 나아가, 네트워크마다 필요로하는 패치들이 어떤 차이가 존재하는가를 알아보기위해 MSE보다 더 하위 집합의 패치들까지 조사하는 방식을 제안합니다.

여기에서 크게 모델들은 두 가지의 특징을 가집니다.

  1. Compositional behavior : Compositionality가 높은 모델은 이미지의 여러 부분을 종합적으로 고려하여 의사결정을 내릴 수 있습니다
  2. Disjuctive behavior : Disjuctive한 특징이 강한 모델은 이미지의 적은 수의 특징만으로도 확신을 갖고 의사결정을 내릴 수 있습니다

결과적으로, ConvNeXt와 non-distillated Transformer가 Compositional함을 나타내고, 반대로 CNNs과 Distilled Transformer(CNN으로 부터 distillation)는 Disjuctive한 특징이 강하게 나타났습니다. 

 

자세한 원인은 실험 파트에서 설명드리도록 하겠습니다.

 

Cross Testing

  • 한 네트워크를 기반으로 이미지에 대한 attribution map을 생성한 다음 마스크된 영역을 두 번째 네트워크에 입력하는 방식 
  • 이를 통해서 첫 번째 네트워크에 크게 기여하는 영역이 두 번째 네트워크와 관련이 있는지 여부를 이해할 수 있다. 
  • 두 모델이 유사한 시각적 특징에 의존하는 경우 교차 테스트에서 높은 점수를 받아야 합니다. 반면에 한 모델이 다른 모델에 중요한 것으로 간주되는 시각적 특징에 반응하지 않으면 다른 부분에 의존하고 있음을 의미합니다.

 

Experiments

본 논문에서 사용되는 메트릭은 Insertion metric입니다.

  • Insertion Metric : attribution map에서 중요한 픽셀이나 특징을 기본 이미지에 순차적으로 삽입하면서 모델의 예측 신뢰도를 평가하는 방법입니다. 이때 삽입된 픽셀이나 특징은 원본 이미지에서 가져옵니다. 기본적으로 흐려진 이미지에서 샘플링됩니다.
  • Insertion Metric에서 점수가 높다는 것은 흐려진 이미지에 중요한 영역이 기본 이미지에 들어갔다는 뜻

실험 파트를 통해 ConvNeXt 모델과 Trasnformer 모델이 다른 CNN들과 Distillated Transformer에 비해 높은 subexplanation의 수를 보입니다. 즉, 높은 subexplanation이라는 뜻은 네트워크가 여러 서로 다른 패치 집합을 통해 자신 있는 분류를 형성할 수 있음을 의미합니다(Compositionality가 강함).

 

예를 들어, 모델은 고양이라는 클래스에서 눈, 코, 입 중 3가지 모두를 봐야 가장 정확하게 예측할 수 있다라는 것입니다. 

 

반대로, Disjuctive한 모델은 눈, 코, 입 중 눈에 대한 패치만 있어도 높은 confidence로 예측을 수행할 수 있습니다. Disjuctive하다는 것은 눈에 대한 패치가 없으면 confidence가 많이 떨어지기 때문에 눈에 대한 패치가 포함되어 있어야만 제대로된 예측을 수행할 수 있습니다. 따라서 subexplanations의 수가 적습니다. 

 

Compositionality가 강한 모델의 경우에는, 이미지의 여러 부분을 고려해서 예측을 수행하기 때문에, 다양한 조합의 패치들의 하위 집합이 만들어질 수 있으므로 subexplanation의 수가 많음을 나타냅니다. 

 

 

위 사진을 통해 Transformer 모델들과 CNN 기반 모델들의 하위 집합체의 수가 많이 다르다는 것을 확인 할 수 있습니다. 

 

그렇다면, 이러한 원인이 무엇인가 논문에서 분석한 결과

모델의 Normalization의 방법에 따라 이러한 점이 극명하게 갈린다는 것입니다. 

ConvNeXt-T-3 : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델 

ConvNeXt-T-3 - GN : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델  + Layer Norm을 Group Norm으로 변경

ConvNeXt-T-3 - BN : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델 + Layer Norm을 Batch Norm으로 변경

 

마찬가지로

 

Swin-T-4 : swin의 1,2 스테이지에서만 4x4 window size로 변경 

Swin-T-4 - GN : swin의 1,2 스테이지에서만 4x4 window size로 변경 + Layer Norm을 Group Norm으로 변경

Swin-T-4 - BN: swin의 1,2 스테이지에서만 4x4 window size로 변경 +  Layer Norm을 Batch Norm으로 변경

 

실험 결과를 보면, LN을 BN으로 대체했을때 Sub-explanation의 수가 확실하게 떨어짐을 관찰할 수 있습니다. 

즉, Batch Normalization이 모델을 덜 compositional하게 만든다는 것입니다. 

 

 

Sub-explanation의 실험 이후로 Cross Testing에 대한 실험도 진행하였습니다.

 

위 실험 결과에서 가장 두드러지게 보이는 점은 세 번째 열의 Spoonbill 이미지에서 VGG에 의해 생성된 경우, 대부분의 다른 네트워크도 자신 있는 분류를 얻을 수 있었습니다. 그러나 VGG는 다른 네트워크가 생성한 가려진 이미지에서 매우 낮은 성능을 보였으며, 이는 특정 특징에 과도하게 의존하여 이러한 마스크 아래에서 그 특징이 존재하지 않을 수 있음을 보여줍니다. (Bold 글씨체가 생성된 모델을 뜻합니다.) 

 

간단하게 논문 소개를 드렸는데, 더욱 자세한 내용은 논문을 참고하시면, 여러가지 결과와 분석을 확인하실 수 있습니다.

 

읽어주셔서 감사합니다.