안녕하세요 KDST 팀의 강민수입니다.

 

오늘 소개해드릴 논문은 Facebook AI 팀에서 발표한 Simsiam architecture를 활용하여 unsupervised learning 방식 중 하나인 contrastive learning 을 하는 방식입니다.

 

전통적인 contrastive learning method들은 한 이미지를 대상으로 strong augmentation을 취해서 유사한 이미지를 만듭니다. 이후, augmentation된 이미지들은 서로 같게, 서로 다른 instance의 이미지는 embedding vector가 다르게 학습함으로서 feature representation learning을 하게 됩니다.

 

이런 상황에서 model을 shared해서 모두 같은 이미지를 흘리는 방식도 존재하지만 (SimCLR), BYOL의 논문은 EMA방식으로 encoder로부터 update되는 momentum encoder를 두고 predictor라는 별도의 network를 추가하여 학습하는 방식도 존재하였습니다.

SimSiam은 stopgradient를 활용하여 encoder하나와 predictor network를 활용하여 학습하는 방식을 취했습니다. 이를 통해 contrastive learning의 문제인 representation collapsing을 막을 수 있음을 보였습니다.

 

또한, EMA대신에 MLP인 predictor network를 활용하고 stopgradient로 update함으로써 학습이 더 안정적으로 잘되고, Batch size를 줄여도 학습이 가능하다고 말하고 있습니다. (기존 contrastive learning은 큰 batch size가 필수이고 LARS optimizer를 써야했고, SGD를 사용불가능했다고 말합니다.)

 

자세한 내용은 본문을 참조해주시기 바랍니다.

안녕하세요, KDST팀 김동진입니다.

 

오늘 소개해드릴 논문은 distribution shift에서의 generalization 발생을 분석 가능하게 하는 framework을 제안하고, 이 framework를 이용하여 다양한 distribution shift의 기반이 되는 3가지 distribution shift를 정의하고 추가적인 2가지 조건(label noise, train dataset 사이즈)에서 robustness를 가져올 수 있는 다양한 방법론들을 평가 및 비교한 논문입니다.

 

논문에는 진행한 실험 분석의 결과들이 Takeaways에 정리되어있고, distribution shift 문제에 대응해야 할 때 도움이 될 수 있는 팁들 또한 Pratical tips에 정리되어있어 참고하시면 좋을 것 같습니다. 

 

감사합니다.