안녕하세요. KDST 한용진입니다.

 

이번에 소개해드릴 논문은 2025년도 ICLR에 게재된 "Resolution Attack: Exploiting Image Compression to Deceive Deep Neural Networks"에 대해 소개해드리겠습니다.

 

기존에 딥뉴럴넷 모델을 공격하는 기법들은 주로 adversarial perturbation이나 noisy label에 대한 robustness 연구가 진행되어 왔습니다. 반면 resolution에 대한 robustness 연구는 거의 이루어지고 있지 않습니다. 하지만, 저희는 일상생활에서 생각보다 자주 low-resolution image를 접하고 있습니다. 예를 들어, 네트워크 비용 감소를 위해 SNS에 사진을 업로드 시 이 사진은 압축되어 전송될 것이며, 자율주행 시스템이나 찍히는 멀리 떨어져 있는 피사체의 경우에도 low-resolution image의 성격을 띠게 됩니다. 이러한 경우 high-resolution과 low-resolution에 대한 robustness는 분명 다루어져야 할 문제라고 생각합니다.

 

본 논문에서는 high-resolution과 low-resolution class의 semantic 정보를 모두 가지고 있으면서 high-resolution에서는 높은 fidelity를 갖고 low-resolution에서는 다른 클래스로 오분류되는 이미지를 생성하는 Resolution Attack (RA) 방법을 제안합니다. 또한 source image가 주어졌을 때 해당 이미지와 유사한 이미지를 생성하도록 하는 Resolution Attack with Source image (RAS) 방법을 추가로 제안합니다.

 

RA 공격을 통해 생성된 이미지는 아래 Figure 1. 처럼 high-resolution image의 클래스는 guitar이지만 이를 low-resolution으로 downsampling하면 dog 클래스로 분류됩니다.

 

먼저 RA와 RAS에 대한 problem formulation을 해보겠습니다.

Resolution Attack 두 클래스 쌍 ($C_L$, $C_H$)가 주어졌을 때, RA 알고리즘은 두 semantic 정보를 갖는 high-resolution image $x$를 생성합니다.: $x$는 클래스 $C_H$에 속하며 downsampling된 $x_\downarrow$는 클래스 $C_L$에 속한다. 이를 공식화하면 아래와 같습니다:

$$M(C_L, C_H) = x$$

$$f(x) = C_H \quad f(x_\downarrow) = C_L$$

 

Resolution Attack with Source image

 

RA의 성질을 만족하면서, 사전에 정의된 source image $I_s$와 유사한 이미지를 생성합니다. 이를 공식화하면 아래와 같습니다:

$$M(C_L, C_H, I_s) = x$$

$$f(x) = C_H \quad f(x_\downarrow) = C_L$$

$$min D(x_\downarrow, I_s)$$

 

이때 $D$는 $I_s$와 $x_\downarrow$의 유사도를 측정하는 distance metric입니다.

 

 

Dual-Stream Generative Denoising Module (DS Module)

DS 모듈은 Figure 2.처럼 매 step마다 noise가 주어졌을 때 low-resolution에 대한 prompt $P_L$과 high-resolution에 대한 prompt $P_H$에 대응되는 $\epsilon_L$과 $\epsilon_H$를 각각 생성합니다 (prompt 예시: "a photo of dog"). 그림에서 언급된 U-Net은 Stable Diffusion v1.5입니다. 생성된 $\epsilon_L$과 $\epsilon_H$는 가우시안 필터를 통해 다시 한번 해상도를 조절한 뒤 합쳐져 다음 step의 입력값으로 사용됩니다. 이를 공식화하면 다음과 같습니다:

$$\epsilon_L=\epsilon_\theta(P_L) \quad \epsilon_H=\epsilon_\theta(P_H)$$

$$\epsilon=f_L(\epsilon_L)+f_H(\epsilon_H)$$

총 step 수는 300이며 처음/마지막 20 step은 low/high-resolution만을 적용하고 나머지 260 step은 두 해상도를 모두 고려하여 이미지를 생성하게 됩니다. 이는 diffusion model이 초반에는 low-resolution에 해당하는 구조들을 먼저 생성하고 이후에 더 세부적인 특징들을 만들어낸다고 알려져 있는 것을 응용한 것입니다.

 

Structural Guidance Module (SG Module)

SG 모듈은 Figure 2.에서 볼 수 있듯이 source image $I_s$와 유사한 이미지를 생성하기 위해 DDIM inversion과 ControlNet을 활용합니다. Diffusion 모델은 주어진 이미지를 가우시안 노이즈로 보내는 동안 실질적으로 low-resolution에 해당하는 구조들은 꽤 많은 step이 지났음에도 불구하고 제대로 사라지지 않는 모습을 보입니다. 본 논문에서는 이러한 부분을 이용하여 DDIM inversion을 통해 얻은 $I_s$의 noise $\epsilon$을 DS 모듈의 입력으로 제공합니다.

한편, ControlNet을 통해 이미지에 제약조건을 주어 해당 조건을 만족하는 이미지를 생성할 수 있도록 합니다. 이때 low-resolution에는 depth map이 사용되고 high-resolution에는 softedge image가 사용됩니다.

 

본 논문에서는 학습 데이터셋이 가지고 있는 클래스에서만 $C_H$를 선정할 때는 labeled attack이라 부르고, 반대로 학습 데이터셋에 존재하지 않는 추상적인 클래스에 대한 공격은 unlabled attack이라고 정의하였습니다.

 

Figure 3.과 Figure 4.에서 알 수 있듯이 label에 해당하는 high-resolution image가 생성되고 이를 dowmsampling 했을 때 $C_L$ (e.g. dog)에 대응되는 이미지가 나오는 것을 확인할 수 있습니다. 사실 high-resolution image를 봤을 때 이것이 이상하다는 것을 충분히 알아차릴 수 있어서 본 연구의 한계가 드러나는 것 같습니다.

 

본 연구에서 정의한 $Corrective Attack Success Rate (ASR_C)$는 low/high resolution image들이 해당 클래스에 알맞게 분류되는 비율을 의미합니다.

 

Table 1.과 2.에서 알 수 있듯이 $Acc_L$에 대해 전반적으로 labeled attack이 unlabeled attack보다 높은 것을 알 수 있습니다. 또한 CLIP 점수 또한 0.298 이하로 준수한 점수를 보여주고 있습니다. $I_s$와 $x_\downarrow$의 유사도를 측정하는 SSIM 점수도 0.727로 상당 부분 유사하다는 것을 알 수 있습니다.

 

Table 4.와 Table 5.는 ViT계열의 모델에대한 RA와 RAS 실험입니다. CNN 모델 뿐만 아니라 ViT 계열에서도 본 논문이 제안하는 공격 기법이 잘 통한다는 것을 보여주고 있습니다.

 

앞서 살펴보았듯이, SG 모듈에서는 depth map과 softedge image를 통해 source image의 semantic 정보를 유지하려고 합니다. Figure 5.는 이에 대한 실험으로 $C_L$과 $C_H$의 semantic gap이 작을 때 (e.g. dog and lion) depth map만 적용하는 것이 오히려 좋았다고 하며 반대로 semantic gap이 클 때 (e.g. dog and guitar)는 아무것도 적용하지 않는 것이 더 좋았다고 합니다.

 

Figure 7.에서는 ControlNet의 파라미터를 조절하여 depth map과 softedge image가 적용되는 강도를 조절한 실험 결과입니다. 강도를 약하게 하면 source image와의 유사도가 감소하는 것을 확인할 수 있습니다. 하지만 반대로 강도가 너무 강하면 생성된 이미지의 품질을 저하시키는 경향을 보이고 있습니다.

 

Figure 6.에서는 RAS가 source image와 유사한 이미지를 생성하는 것이니 face swapper로서의 역할도 할 수 있음을 보여주고 있습니다.

 

본 논문에서는 Diffusion 모델을 활용하여 low-resolution과 high-resolution semantic 정보를 모두 유지함과 동시에 low-resolution image가 오분류될 수 있도록 하는 기존에 없었던 새로운 공격 기법을 소개하고 있습니다.

 

글을 읽으시면서 제가 잘못 해석한 부분/수정이 필요한 부분이 있거나 토의가 필요하신 경우에 댓글 달아주시면 감사하겠습니다.

 

감사합니다:)

 

이상 논문 소개를 끝마치도록 하겠습니다.

---

이번에 소개해드린 논문을 읽어보시면서 어떤 점들이 떠오르셨나요? 금주 저희 연구실에서 진행한 논문 세미나에서 나온 이야기들을 간략하게 공유해보고자 합니다.

 

1. 공격 시나리오가 조금 더 현실성 있었으면 좋았을 것 같다. low-resolution image가 64x64 픽셀 크기로 변환되는데, 사실 이것보다 더 커도 되는 경우도 많고,  실제로 이렇게 사용하는지 의문이다. 

 

실제로 논문 리뷰에서도 공격 시나리오의 현실성에 대해서 활발하게 논의가 되었으며, rebuttal 이후에도 본 논문의 한계로 지적되었습니다.

 

2. Figure 3., 4.에 대해서 일반적으로 low-resolution image가 조금 이상하면 압축이 되어서 그런가 보다 하면서 넘어가는 경우는 많은데, high-resolution image는 조금이라도 이상한 부분이 보이면 image가 이상하다는 것을 바로 알아차릴 수 있지 않은가? 생각보다 생성된 image가 artifact인 느낌이 들어서 본 연구의 한계 중 하나인 것 같다.

One paper accepted at CVPR 2025

카테고리 없음 2025. 3. 4. 08:41 Posted by KDST

6월에 Nashville, Tennessee에서 열리는 CVPR 2025에 1편의 논문을 발표하게 되었습니다. 논문의 자세한 내용은 추후에 올리도록 하겠습니다. 

1저자인 김현수 님이 저희 팀에서 학부연구생 4개월 하시고 석사 입학후 두 달만에 쓰신 논문입니다. 

 

"Difference Inversion : Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation"

 

Three papers accepted at AAAI 2025

카테고리 없음 2025. 3. 4. 08:38 Posted by KDST

현재 필라델피아에서 열리고 있는 AAAI 2025에 3(!)편의 논문을 발표하게 되었습니다. 각 논문의 자세한 내용은 추후에 올리도록 하겠습니다. 

 

“Maximizing the Position Embedding for Vision Transformers with Global Average Pooling.”

“Salient Frequency-aware Exemplar Compression for Resource-constrained Online Continual Learning.” 
“Convergence Analysis of Federated Learning Methods Using Backward Error Analysis.”

 

안녕하세요. KDST 박민철입니다.

 

컴퓨터 비전 분야에서는 데이터 분포의 불균형, 즉 long-tailed 문제로 인해 소수 클래스에 대한 인식 성능이 떨어지는 문제가 꾸준히 제기되고 있습니다. 이런 문제를 해결하기 위해 여러 연구들이 진행되고 있는데, 이번 포스팅에서는 “Disentangling Label Distribution for Long-tailed Visual Recognition”  CVPR 2021의 논문을 통해 제안된 혁신적인 방법을 살펴보도록 하겠습니다.

 

 

현실 세계의 데이터는 종종 몇몇 클래스에 데이터가 몰려있고, 일부 클래스는 상대적으로 적은 데이터만을 보유하는 long-tailed 분포를 보입니다. 이런 불균형은 모델이 주로 다수 클래스에 집중하게 만들고, 소수 클래스에 대한 인식 성능은 떨어지게 됩니다. 기존 방법들은 주로 클래스 리샘플링, 비용 민감 학습, 혹은 데이터 증강 기법 등을 활용했지만, 여전히 근본적인 문제 해결에는 한계가 있었습니다.

본 논문은 이러한 한계를 극복하기 위해 라벨 분포 자체를 disentangle하는 접근법을 제안합니다. 즉, 모델이 각 클래스의 특징을 보다 명확하게 분리하여 학습할 수 있도록 함으로써, 소수 클래스에 대한 인식력을 향상시키는 데 초점을 맞춥니다.

 

논문을 이해하기 앞서 필요한 지식을 살펴봅시다. Softmax regression 즉, 우리가 알고 있는 multinomial logistic regression을 바탕으로 학습한 모델의 conditional probability는 아래와 같이 cross-entropy를 목적 함수를 이용하여 얻어질 수 있습니다.

 

일반적인 Softmax regression는 이 때, source와 target 라벨 분포가 같을 때 conditional probability의 추정이 유의미하다는 가정을 합니다. 하지만, 실제로 이러한 상황은 Long-tailed 분포에서 위배되는 상황이며, source 라벨분포를 통해 학습된 모델의 conditional probability를 label distribution shift가 존재할 때 강력한 믿음을 갖고 활용하기 어렵습니다.

 

따라서, 본 논문은 conditional probability를 조정하기 위해 일반적인 방법으로 Post-Compendation 전략을 소개합니다.

이 방법은 최근 Balanced Softmax의 확장된 버전으로 고려할 수 있는데, 위의 Eq. 4를 Softmax에 자연스럽게 흡수시키면, 다음과 같은 source 라벨 분포를 알고 있을 때 target 라벨 분포에 대한 합리적으로 추정 가능한 보상된 Softmax를 얻을 수 있습니다.

 

본 연구는 PC-Softmax를 베이스라인으로 비교군으로 정의하고, 베이스라인보다 우수한 보상 체계를 구축하기 위해 LADER라는 기술을 제안합니다. 이는 아래의 그림처럼 학습 시 label 분포에 대한 정보를 의도적으로 배제시키는 기술을 핵심으로 합니다.

구체적으로, source 라벨 분포를 학습 시점에 의도적으로 떼어내는 목적함수를 도입하여 아래의 수식처럼, source 라벨 분포 정보가 posterior로부터 detaching되도록 의도합니다.

이는, 모델의 class별 logit 값에 대해 Donsker-Varadhan (DV) representation을 만족하도록 아래와 같은 boundness를 표현하여 최적화 문제를 해결합니다.

3가지 항에 대한 expectation을 구하기 위해 mini-batch로부터 아래와 같은 목적 함수를 정의합니다.

LADER를 regularization으로 하는 cross-entropy를 minimization하는 문제로 학습 데이터를 훈련하는 목적 함수는 다음과 같이 정의되며, 이를 통해 최적화된 모델은 inference 시 target 라벨 분포 (target 라벨 분포는 known이라는 가정)를 직접 대입하여 활용함으로써 posterior를 얻게 됩니다.

 

Experiment results

해당 방법의 검증 프로토콜은 다음과 같습니다. Imbalance ratio는 N_max/N_min으로 얻어졌습니다.

  • 평가 지표: Top-1 정확도를 사용하여 모델의 성능을 측정합니다.
  • 데이터셋: CIFAR-100-LT, ImageNet-LT와 Places-LT를 대상으로 합니다.
  • 클래스 그룹화: 각 클래스에 속한 이미지 샘플 수에 따라 클래스를 세 그룹으로 나누고, 그룹별 평가 결과를 보고합니다.
    • Many: 클래스당 이미지 수가 100장 이상
    • Medium: 클래스당 이미지 수가 20장 이상 100장 이하
    • Few: 클래스당 이미지 수가 20장 미만

이렇게 그룹화된 각 범주에 대해 별도의 정확도를 보고하여, 클래스별 데이터 수의 편차가 성능에 미치는 영향을 구체적으로 분석합니다.

 

마지막으로, large-scale long-tailed distribution 데이터셋에 대한 검증입니다.

다음은, LADE의 효과에 의하여, class별 Logit (positive samples)이 optimum인 logC를 따르는 지 ablation study를 한 결과 입니다.

추가적으로, LADE의 효과로부터 취할 수 있는 calibration 이익에 대한 결과입니다.

 

본 연구는 long-tailed 문제에 대해 새로운 관점을 제시하며, 라벨 분포 자체를 분리하는 접근법으로 소수 클래스 인식 성능을 크게 향상시킬 수 있음을 보여줍니다. 이 연구는 데이터 불균형 문제를 해결하기 위한 다양한 방법론 중 하나로, 향후 다른 분야의 불균형 데이터 문제 해결에도 응용될 수 있을 것으로 기대됩니다.

추가적으로 궁금한 부분은 논문을 참조 부탁드리며, 질문을 댓글로 남겨주시면 함께 고민할 좋은 기회가 될 것으로 생각합니다.

 

감사합니다.

안녕하세요. KDST 박민철입니다.

 

오늘은 NeurIPS 2022에 발표된 "Revisiting Realistic Test-Time Training: Sequential Inference and Adaptation by Anchored Clustering" 제목의 도메인 적응 연구 결과를 포스팅하고자 합니다. 본 연구는 도메인 적응 문제를 테스트 시점에서 접근하기 위한 학습 방법으로 Test-Time Adaptation (TTA)과 유사해 보이지만, 소스 도메인에 대한 통계적 정보를 활용하고, 테스트 데이터가 연속적으로 주어지는 상황에서 비지도 학습을 통해 적응하는 기술이라고 볼 수 있습니다.

 

본 논문은 도메인 적응 상황에서 2가지 상황에 대한 한계점을 언급합니다.

1. 소스 및 타겟 데이터 접근 요구: 기존의 도메인 적응 방법들은 훈련 시 소스와 타겟 도메인 데이터 모두에 접근할 수 있어야 하거나, 여러 도메인을 동시에 학습해야하는 기술적 단점이 있었습니다.

2. 소스 데이터 접근 제한: 소스 도메인 데이터가 프라이버시 문제나 저장 공간의 한계로 접근이 어려운 경우가 많아, 이를 해결하기 위해 소스-프리 도메인 적응이 등장했습니다. 소스-프리 도메인 적응은 소스 데이터에 접근하지 않고 타겟 데이터만을 사용하여 도메인 적응을 수행하지만, 여러번의 훈련 과정을 필요로 하여 실시간 적용에 한계가 있었습니다.

 

본 논문은 소스 데이터에 의존하지 않고 테스트 시점에 적응할 수 있는 기술 Test-Time Training (TTT) 혹은 TTA에 대해 관심을 가질 수 있지만, 이들 간의 정의가 명확하지 않아 커뮤니티 내에 혼란이 발생하고 있는 점을 지적합니다. 따라서, TTT 기술에 대한 프로토콜을 정리하고, TTT를 실현하기 위한 방법을 고민합니다.

TTT에 대한 프로토콜을 2가지 측면에서 고려합니다.

1. One-pass adaptation: 테스트 데이터가 순차적으로 스트리밍되고, 새로운 테스트 샘플이 도착할 때마다 즉시 예측을 수행해야 합니다. 이는 Multi-Pass Adaptation (테스트 데이터를 여러 학습 에폭을 활용하여 학습하고 추론)과 구분됩니다.

2. 소스 도메인 훈련을 위한 목적 함수 수정의 부재: 최근 연구들이 소스 도메인 훈련에 대한 손실을 수정하여 TTT의 효과를 높이려는 시도가 있었지만, 계산 비용을 증가를 초래함으로써 현실적으로 적합하지 않다고 판단하였습니다.

이를 종합하여, 본 연구는 Sequential Test-Time Training (sTTT)라는 프로토콜을 기준으로 도메인 적응 기술을 구현하기 위한 노력을 합니다. 즉, 한 번의 패스 적응 프로토콜을 따르고, 훈련 목표를 변경하지 않고 효율적인 테스트 시점 적응을 가능하게 하는 것을 목표로 합니다.

 

아래의 그림을 따르는 제안하는 방법, Test-Time Anchored Clustering (TTAC)의 특징을 몇 가지로 정리할 수 있습니다.

1. 클러스터링 활용: 소스와 타겟 도메인에서 각각 클러스터를 식별하기 위해 혼합 가우시안 모델 (Mixture of Gaussian)을 사용합니다. 각 가우시안 성분은 하나의 카테고리에 해당됩니다.

 

2. 클러스터 매칭: 소스 도메인의 카테고리별 통계를 앵커로 사용하여 타겟 도메인의 클러스터를 앵커와 매칭시키기 위해 KL-Div를 최소화합니다.

Mixture of Gaussian을 tractable하게 분해하면, 다음과 같습니다.

3. 동적 업데이트: 테스트 샘플이 순차적으로 스트리밍되므로, 타겟 도메인 클러스터 통계를 업데이트 하기 위해 Exponential Moving Average (EMA)전략을 도입합니다. 이를 위해  posterior에 대한 EMA를 적용하여 업데이트 합니다.

4. 필터링된 Pseudo 라벨: 잘못된 의사 라벨, 즉  posterior가 가우시안 성분 추정에 악영향을 미치지 않도록, 네트워크의 안정성과 신뢰도, 의사 레이블 정확성 간의 상관관계를 활용하여 잠재적으로 잘못된 의사 레이블을 필터링합니다.

Prediction이 historical value를 지나치게 많이 벗어나면 filtering out하지만, history가 충분하지 않으면 강제적 filtering 방법도 필요하기 때문에 아래의 filtering 방법도 추가 제안합니다. 

5. 글로벌 특징 정렬: 필터링된 샘플을 활용하여 글로벌 특징 정렬 목표를 통합합니다.

6. 기존 TTT 기법과의 호환성: TTAC는 기존의 TTT 기법과 호환 가능하며, 소스 훈련 손실을 수정할 수 있는 경우 추가적인 효과를 발휘합니다.

 

이를 바탕으로, 구현된 알고리즘은 다음과 같습니다.

 

Experiment results

본 연구의 검증을 위한 프로토콜 기호 정리는 다음과 같습니다. 소스 도메인 훈련 시 훈련 목표를 변경할 수 있는지 가능 여부 Y 혹은 N, 테스트 데이터가 순차적으로 스트리밍되어 한 번에 예측되는지(O, One-pass) 또는 비순차적으로 여러 번 패스되는지(M, Multi-pass)로 구분합니다. 이를 바탕으로 총 4가지 TTT 프로토콜(N-O, Y-O, N-M, Y-M)을 정의하였으며, 각 프로토콜의 가정 강도는 N-O부터 Y-M까지 증가합니다. sTTT 프로토콜은 가장 약한 가정인 N-O를 따릅니다.

한편, 다음의 TTT 기술과 비교하였습니다.

 

  1. Direct Testing (TEST): 적응 없이 소스 도메인 모델로 타겟 도메인에서 직접 추론을 수행합니다.
  2. Test-Time Training (TTT-R): 소스 도메인에서 회전 기반 자가 지도 학습(task)과 분류(task)를 함께 훈련한 후, 테스트 시점에는 회전 기반 자가 지도 학습만 수행하여 즉시 예측을 합니다. 기본 프로토콜은 Y-M입니다.
  3. Test-Time Normalization (BN): 스트리밍 데이터를 통해 배치 정규화 통계를 이동 평균으로 업데이트합니다. 기본 프로토콜은 N-M이며, N-O로도 적응 가능합니다.
  4. Test-Time Entropy Minimization (TENT): 스트리밍 데이터의 모델 예측 엔트로피를 최소화하여 모든 배치 정규화 파라미터를 업데이트합니다. 기본 프로토콜은 N-O이며, N-M으로도 적응 가능합니다.
  5. Test-Time Classifier Adjustment (T3A): 스트리밍 데이터를 사용하여 각 카테고리의 타겟 프로토타입을 계산하고 업데이트된 프로토타입으로 예측을 수행합니다. 기본 프로토콜은 N-O입니다.
  6. Source Hypothesis Transfer (SHOT): 선형 분류 헤드를 고정하고 타겟 도메인에서 균형 잡힌 카테고리 가정과 자가 지도 의사 레이블링을 활용하여 타겟 특성 추출 모듈을 훈련시킵니다. 기본 프로토콜은 N-M이며, N-O로도 적응 가능합니다.
  7. TTT++: 오프라인으로 계산된 소스 도메인 특징 분포와 타겟 도메인 특징 분포를 F-norm을 최소화하여 정렬합니다. 기본 프로토콜은 Y-M이며, N-O 및 Y-O 프로토콜로도 적응 가능합니다.
  8. Test-Time Anchored Clustering (TTAC): 본 연구에서 제안한 방법으로, 타겟 도메인에 단일 패스를 요구하며 소스 훈련 목표를 수정할 필요가 없습니다. Y-O, N-M, Y-M 프로토콜로도 수정이 가능하며, TTAC+SHOT과 같은 추가적인 조합도 가능합니다.

데이터셋은 CIFAR-10/100-C, ModelNet40-C 및 ImageNet-C를 활용하여 폭넓게 검증하였습니다.

실험 결과는 다음과 같습니다.

 

 

 

결과를 정리하면 다음과 같습니다.

1. sTTT (N-O) 프로토콜:

  • 제안하는 TTAC 방법은 모든 경쟁 방법들 대비 우수한 성능을 보였습니다.
  • 예를 들어, CIFAR10-C와 CIFAR100-C에서는 기존 최고 성능인 TTT++보다 각각 3% 향상되었으며, ImageNet-C에서는 BN과 TENT보다 5~13% 향상되었습니다.
  • TTAC은 평균 정확도에서 우수하며, ImageNet-C의 15가지 유형 중 9가지에서 SHOT보다 뛰어났습니다.
  • TTAC을 SHOT과 결합한 TTAC+SHOT은 ModelNet40-C 데이터셋에서 추가적인 성능 향상을 보였습니다.

2. 대체 프로토콜들:

  • Y-O 프로토콜: TTT++를 포함한 몇몇 방법들은 Y-M 프로토콜을 따르며, TTAC에 대조 학습 분기를 추가한 경우 CIFAR10-C와 CIFAR100-C에서 명확한 향상을 보였습니다.
  • N-M 프로토콜: BN, TENT, SHOT과 비교했을 때 TTAC는 모든 세 데이터셋에서 상당한 향상을 보였으며, SHOT과 결합 시 추가적인 향상을 달성했습니다.
  • Y-M 프로토콜: TTAC은 TTT-R과 TTT++보다 매우 강력한 성능을 보였으며, N-O 프로토콜에서도 Y-M 프로토콜의 TTT++와 유사한 결과를 보여 TTAC의 강력한 TTT 능력을 입증했습니다.

본 논문은 테스트 시점에 도메인 적응을 실시하기 위한 클러스터링 기술을 기반으로 하는 비지도 학습 기술을 제안했다는 것에 그럴싸한 흥미를 갖게합니다.

추가적으로 궁금한 부분은 논문을 참조 부탁드리며, 질문을 댓글로 남겨주시면 함께 고민할 좋은 기회가 될 것으로 생각합니다.

 

감사합니다.