KDST

KDST는 딥러닝을 중심으로 AI와 데이터에 관련된 여러 주제에 대해서 연구하는 팀입니다.

카테고리 없음

Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

jinius730 2026. 1. 11. 19:29

안녕하세요. KDST 한용진입니다.

 

이번 시간에는 2025년도 NeurIPS에서 소개된 논문에 대해 이야기를 나눠보고자 합니다.

 

데이터의 양과 모델의 크기가 증가함에 따라서 이제는 사전학습된 모델을 불러와 특정 작업에 맞춰 모델을 가볍게 수정하는 미세조정(fine-tuning) 방법이 표준으로 자리매김하고 있습니다. 현재까지 Low-Rank Adaptation(LoRA)와 같은 학습 가능한 파라미터의 수를 줄이는 다양한 방법들이 제안되어 왔는데 이는 모델의 가중치를 수정하는 방법입니다. 이와 반대로 본 논문에서 저자들은 활성화 함수를 수정하는 것에 눈을 돌렸습니다.

 

비선형 활성화 함수는 신경망의 표현력을 담당하는 실질적인 요소라고 봐도 무방합니다. 본 논문에서는 ReLU 활성화 함수를 새로운 활성화 함수로 바꾸어 가중치를 수정하지 않고 곡률을 조절할 수 있는 방법을 제안합니다. 아래 Figure 1은 저자들이 제안하는 방법을 통해 곡률을 조절했을 때 분류/회귀 문제를 시각화한 그림입니다. 왼쪽 아래 그림에서 어떠한 하이퍼 파라미터 베타를 줄이면 활성화 함수의 곡률이 줄어드는 것을 확인할 수 있습니다. 이를 분류/회귀 문제에 적용하면, \beta=0.5일 때 분류 문제에서 결정 경계가 완만해지면서 데이터를 더 잘 분류하고, \beta=0.9일 때 또한 ReLU network보다 데이터에 잘 맞는 회귀 곡선을 추정하는 것을 볼 수 있습니다.

 

저자들은 spline function의 개념을 활용하여 곡률을 조정하는 방법을 제안합니다.

더보기

Spline function s는 piece-wise polynomial로 정의된 s: \mathbb{R}^D \rightarrow \mathbb{R} 인 연속 함수이다. 아래의 그림처럼 Linear splines는 구간별로 선형 함수가 정의된 것을 확인할 수 있다. 이를 통해 실제 함수를 추정할 때 자주 사용한다.

Affine spline function은 affine mapping으로 정의된 spline function의 special case이다.

  • Matrix A\in \mathbb{R}^{R\times D}
  • Offset b\in \mathbb{R}^R
  • Partition Ω≜{ω_1, …,ω_R} of the input space R^D into R regions

 각 구간/파티션에 알맞은 affine mapping이 적용된다.

 

Max-affine spline function은 파티션 Ω의 정확한 정보 없이도 정의할 수 있는 affine spline function의 special case이다.

 신경망 또한 max-affine spline function으로 해석하여 연구하는 논문이 다수 존재하니 관심이 있다면 살펴보면 좋겠다.

Curvature Tuning: a provable method for model steering

본 논문에서는 steering이라는 표현을 미세 조정(fine-tuning)의 상위 개념으로 소개하고 있습니다. 신경망을 구성하는 요소 중에서 가중치를 조정하는 것과 활성화 함수를 조정하는 것 모두 steering 범주 안에 들어간다고 표현하겠습니다.

Toy example

위 Figure 1 예제를 통해 곡률을 수정하는 것에 대한 유효성을 확인하였습니다. 만약 2차원 실수 공간에서 이진 분류 문제가 주어졌고 최적의 decision boundary가 단위원 S^′={x∈R^2:‖x‖_2=1} 이라고 하겠습니다. 이때 x는 다음과 같이 파라미터화 됩니다: γ:t↦(cos2πt, sin2πt), t∈[0,1]. σ는 시그모이드 함수입니다. R^2에서 R로 가는 함수 f는 두 클래스를 같은 확률로 분류하는 게 가장 이상적일 것입니다.

σ(f(γ(t)))=0.5, ∀t∈[0,1]f(γ(t))=0, ∀t.

 

이에 대한 함수의 오차는 선적분으로 표현할 수 있으며, 이를 아래와 같이 전개할 수 있습니다.

에러 e를 줄이기 위해서는 t_(k+1)→t_k 로 만들어야 하는데, 이는 결국 뉴런의 개수가 무한대로 늘어나야 함을 의미합니다. 그러나 현재는 네트워크에 존재하는 뉴런의 수를 조절하지 못하므로 다른 방법이 필요합니다. 따라서 non-linearity를 완만하게 만들어주는 방법을 통해 decision boundary를 완만하게 만드는 방법을 제안합니다.

 

지금부터는 좀 전에 소개해드린 spline function의 개념을 적용할 차례입니다. Non-linear ReLU (Spline function)가 주어졌을 때 어느 부분에서 non-linearity가 발생하는지 생각해 봅시다.

 

Smoothing the non-linearity by smoothing the spline region assignment process

첫 번째로는 파티션이 바뀌는 구간입니다. ReLU의 경우에는 x=0인 점이 될 것입니다. 구간을 선택하는 부분을 one-hot encoding 방식이 아닌 soft encoding 방식으로 바꾸고 이를 다시 파티션이 선택될 확률로 다시 보겠습니다. 

H(t)를 Shannon entropy라고 했을 때 max-affine spline function을 위와 같이 해석할 수 있습니다. 위 식의 closed form은 아래와 같은데 이는 Sigmoid Linear Unit (SiLU)과 동일합니다.

Smoothing the nonlinearity by smoothing the max

두 번째로는 max term을 직접 smoothing하는 것입니다. 아마 많은 분들께서 maximum operator가 log-sum-exp operator로 smoothing 될 수 있음을 알고 계실 겁니다. 따라서 이번에는 SoftPlus와 같은 형태의 식이 나옵니다.

그러나 ReLU에서 SiLU 또는 SoftPlus로 바꾸게 되면, 결괏값의 평균이 아래 그림처럼 각각 작아지거나 커지는 문제가 존재합니다.

따라서 ReLU는 SiLU와 SoftPlus의 convex combination이라고 볼 수 있겠습니다. 이를 Curvature Tuning Unit (CTU)라고 하겠습니다.

 

CT as a projection over a space of smooth functions

ReLU 함수를 CTU로 바꾸면 바뀐 네트워크의 곡률이 크거나 같음을 증명할 수 있습니다.

위 정리를 이해하기 위해서는 L^p 공간과 Sobolev 공간에 대한 이해가 필요합니다. 두 개념을 이번 시간에 다루지 않을 계획이지만, 중요한 것은 두 공간에서 정의한 norm이 유한하다는 것입니다. L^p 공간은 함수의 크기만을 정의하기 때문에, 기울기나 곡률을 구하기에는 정보가 부족합니다. Sobolev 공간에서는 q계 도함수까지의 크기를 정의할 수 있으며, 곡률에 대한 정보는 q=2로 설정하여 얻을 수 있습니다. Sobolev 공간에서도 norm이 유한함을 구할 수 있는데, ReLU는 x=0에서 곡률을 구할 수 없으므로 0이 되며 결국 위 정리가 성립함을 보일 수 있게 됩니다.

L^p norm은 유한하다.
Sobolev norm

결국 ReLU를 CTU로 바꿈으로써 곡률이 커지는 것을 보일 수 있고, 이를 통해 generalization과 robustness 성능이 향상됨을 실험적으로 보여주고 있습니다.

Experiments

Comparison with LoRA

Table 1과 4를 통해 CT의 generalization 성능이 여러 아키텍처에서 일관되게 향상되는 것을 확인할 수 있습니다. 이때 $\beta\in [0.7, 1]$ 범위에서 Grid search를 수행한 값을 사용합니다.

 

Robustness improvement

beta 값이 1보다 작아짐에 따라 (beta=1 <=> ReLU), curvature가 조정되고 이로 인해 robustness가 향상되는 것을 확인할 수 있습니다. \ell_\infty perturbation에서 가장 유의미한 향상을 보이고 있습니다. 다만 다른 robustness criteria에서는 향상 폭이 미미한데, beta 값이 1에 굉장히 가까워져 활성화 함수가 ReLU와 별반 다르지 않기 때문입니다.

 

Transformer-based architecture

CT 방법은 트랜스포머 기반 아키텍처에서는 다소 좋은 모습을 보여주지는 못하였습니다. 다만 저자들은 LoRA에서 사용한 학습 가능한 파라미터 수보다 CT가 훨씬 적기 때문에 이러한 점이 유의미하다고 언급하고 있습니다. 제 개인적인 견해로는 트랜스포머 기반의 아키텍처는 주로 GeLU라는 활성화 함수를 사용하는데, 이는 2차 미분이 가능한 활성화 함수로써 CT에서 해결하고자 하는 문제점이 이미 어느 정도 해소된 상태이기 때문에 성능 향상이 미미했다고 볼 수 있겠습니다.

 

Conclusion

본 논문에서는 모델의 decision boundary를 증명가능한 방법으로 조절하는 방법을 제안합니다. ReLU의 비선형성을 완만하게 하는 활성화 함수를 제안하고 굉장히 적은 파라미터 만으로도 generalization & robustness 성능이 향상될 수 있음을 보입니다.

 

활성화 함수의 곡률 정보를 활용하여 모델의 성능을 적은 파라미터를 가지고도 향상할 수 있는 부분이 굉장히 흥미로웠습니다. 개인적으로는 Sobolev 공간에서 이를 증명하는 과정이 재미있게 느껴졌던 것 같습니다. 실험적으로 아쉬운 부분이 있었지만 한 번쯤 읽어도 좋은 논문이라고 생각합니다.

 

이번 소개 글에서 다루지 않은 내용들이 많으니 더 깊은 이해를 위해 논문 읽기를 권장드립니다. 부록에 수록된 증명 부분도 생각보다 쉽게 따라갈 수 있으니 읽어보시는 것을 추천드립니다. 내용 정정 또는 의견이 있으신 분께서는 댓글 남겨주시면 감사하겠습니다.