KDST

2026/05/15 학부생을 위한 오픈랩 워크샵

KDST — Thu, 14 May 2026 09:13:40 +0900

딥러닝 연구에 관심 있으신 학부생 분들 많이 와주세요.
저희 랩의 학부연구생에 관심 있으시면 아래 링크로 신청해 주시면 저희가 연락드리도록 하겠습니다.
https://forms.gle/3ZGaFXjR8XCzTsQo6

KAVA: LATENT REASONING VIA COMPRESSED KV-CACHE DISTILLATION

jinius730 — Tue, 24 Mar 2026 12:50:02 +0900

안녕하세요. KDST 한용진입니다.

이번에 소개해 드릴 논문은 2026년도 ICLR에 발표된 "KAVA: LATENT REASONING VIA COMPRESSED KV-CACHE DISTILLATION"입니다.

본 논문을 소개해 드리게 된 배경은 다음과 같습니다. 우리가 사용하는 KV cache가 중요한 정보를 잘 담고 있다면, KV cache를 다양한 태스크에 활용할 수 있지 않을까?라는 궁금증에서 시작되었습니다.

LLM은 Chain-of-Thought(CoT)를 활용해 추론(reasoning)과 같은 복잡한 문제를 잘 풀게 되었습니다. 그러나 일반적으로 사용하는 CoT는 자연어로 구성되어 있어 자연어가 가지고 있는 무의미한 단어들을 처리하는 데 불필요한 연산을 사용하는 문제점이 존재합니다. 이러한 문제를 해결하기 위해 CoT를 latent variable로 변환하여 추론하는 Latent reasoning 방법이 등장하게 됩니다. 하지만 변환된 latent variable은 사람이 해석할 수 없기 때문에 latent로 바뀌는 과정이 제대로 이루어지는지 확인할 수 없다는 문제가 있습니다.

본 논문에서는 KV cache에 내재된 정보를 활용하여 latent reasoning에서 발생하는 문제(lack of supervision)를 해결하는 방법을 제안합니다.

논문에서 제안하는 KAVA는 먼저 teacher의 KV cache를 압축하여 중요한 정보들만 캐시에 남긴 뒤, teacher의 압축된 KV cache를 student의 KV cache로 지식 증류를 함으로써 latent reasoning 모델을 학습시킨다. 이러한 과정에서 R-KV [1]와 CODI [2] 방법이 함께 사용되는데 두 방법을 간단하게 알아보도록 하자.

R-KV

추론 모델의 출력 결과는 일반적으로 장문으로 구성되기 때문에, 추론 시 캐싱된 값들이 상당히 반복적이라는 문제가 존재한다. R-KV는 Importance score(어텐션 스코어)와 Redundancy score를 통해 반복적이지 않으면서도 중요한 정보들만 저장하는 KV compression method를 제안한다.

R-KV(Redundancy-aware KV Cache Compression for Reasoning models)

추론 모델에서 장문의 출력을 생성함에 따라 반복되는 캐싱 문제를 해결하기 위한 방법을 제안한다. Importance score는 일반적인 어텐션 스코어를 사용하며 Redundancy estimation에서는 코사인 유사도를 활용한다. 두 평가지표를 통해 중요도와 반복성을 \lambda로 제어하여 적절한 전략을 탐색한다. 계산된 점수를 통해 Top-k의 값들만 캐시에 저장한다.

실제 구현에서는 KV cache를 일정 예산만큼만 압축한 뒤, 나머지는 새로운 토큰값으로 채운다. 이를 통해 최신으로 들어온 토큰 정보를 유지하면서 이전에 있던 토큰들은 반복적이지 않고 중요한 토큰들만 남기도록 한다.

CODI

Explicit CoT는 자연어로 구성되어 있어 중요하지 않은 단어/토큰도 처리해야 하는 문제점이 존재한다. 이러한 문제를 해결하기 위해 Latent reasoning이 제안되었지만 latent variable은 해석할 수 없기 때문에 제대로 추론이 이루어지고 있는지 확인하기 어렵다. CODI는 teacher와 student 모델에 KV cache를 두고 teacher의 KV cache를 supervisor로 활용하는 지식 증류 방법을 제안한다.

CODI(Continuous Chain-of-Thought via Self-Distillation)

일반적으로 CoT 기반 추론 모델은 자연어 토큰에 의존하는 반면, 프롬프트를 continuous representation으로 표현하면 짧아진 프롬프트로 인해 더 효율적인 추론이 가능해진다. CODI는 teacher task와 student task를 두고 증류를 하는 방법을 제안한다. 또한 증류를 위한 손실 함수로 정답 직전 토큰의 hidden state를 사용하는 데, 이는 정답 직전의 토큰이 정답을 유추하는 데 가장 큰 기여를 하기 때문이라고 한다. 아래 그림을 예시로 들면, 정답 직전의 토큰은 ":"이므로 ":"에 해당되는 hidden state를 정렬하는 손실 함수를 통해 모델을 학습한다.

KAVA가 사용하는 손실함수는 다음과 같다: 1) student/teacher loss, 2) CODI loss, 3) KV distillation

1) student/teacher loss

먼저 Teacher loss는 질문이 주어졌을 때 올바른 추론 과정(CoT, C)과 올바른 답(A)을 생성하는지 확인하는 손실 함수이며 CrossEntropy loss를 사용한다. Student loss는 질문과 latent variable로 표현된 추론 과정(implicit CoT, Z)이 주어졌을 때 올바른 답(A)을 생성하는지 확인하는 손실 함수이다. 두 손실 함수의 차이점은 C/Z의 위치인데, 이는 latent reasoning의 단점인 supervision이 부족한 것을 보완하기 위한 조치라고 보면 되겠다.

2) CODI loss

CODI loss는 student/teacher 모델에서 정답 직전 토큰의 hidden state를 정렬시키기 위한 손실 함수이다. Teacher 모델에서 Student 모델로 지식을 증류시킬 것이므로 sg(stop gradient)를 통해 teacher에 gradient가 흐르지 않도록 한다.

3) KV distillation

KV distillation loss는 R-KV로 압축된 teacher의 KV cache에 내재된 정보들을 student의 KV cache로 증류하는 함수이다. CODI loss와 유사하게 손실 함수가 설계되었다. 이때 p는 1 또는 2의 값을 가지며, student의 KV cache 사이즈(M)에 맞추어 압축이 되었기 때문에 M으로 두 번 나눈다. (key, value 한 번씩)

Table 1은 GSM8k-AUG와 GSM8k-AUG-NL에 대한 실험 결과이다. KAVA가 대체적으로 더 좋은 성능을 보이고 있으며, 좀 더 어려운 데이터셋인 GSM8k-AUG-NL에 대해서도 정확도 감소가 덜하다는 장점이 있다고 저자들이 주장한다.

Figure 4는 explicit CoT 토큰을 일정 비율만큼 latent token으로 변경하여(20%->40%->60%->80%) 정확도와 효율성 간의 상관관계를 측정한 결과이다. x축은 CoT를 생성하는 데 필요한 forward pass의 수를 의미한다. 그림을 통해 알 수 있듯이, KAVA가 다른 방법들보다 더 좋은 Pareto frontier를 보여주고 있다.

Figure 5는 KV distillation loss에서 p를 어떤 값으로 설정해 주었는지에 따른 정확도를 보여준다. 신기하게도 p=1 (l1 norm)을 사용했을 때 더 좋은 성능을 보인다고 한다. 그러나 저자들은 이 부분에 대해서 의미 있는 해석을 제공하지는 않고 있다.

Figure 6은 R-KV를 통해 teacher의 KV cache를 압축할 때 redundancy에 초점을 맞출 것인지 importance에 초점을 맞출 것인지를 확인하는 실험이다. 그림을 통해 확인할 수 있듯이 두 평가 지표를 적절하게 모두 고려하는 것이 좋은 성능을 낸다는 것을 보여준다.

Figure 7은 latent CoT(implicit CoT)와 정답 CoT 간의 코사인 유사도를 측정한 결과이다. 왼쪽 그림은 R-KV로 KV cache를 압축하지 않은 상태에서 KV distillation loss로 학습한 결과인데, 정답 CoT와의 유사도가 거의 없는 반면, 압축된 KV cache로 학습한 결과 대각 행렬의 값이 높은 것을 통해 정답 CoT와 latent CoT의 유사도가 높은 것을 확인할 수 있다.

KV cache를 압축(compression) 또는 축출(eviction)하는 과정에서 레이어/헤드 간의 관계가 고려되지 않아 입력 토큰과의 직접적인 연계가 어려운 점이 존재한다. 그럼에도 불구하고 압축/축출된 KV cache에 있는 정보를 통해 더 좋은 추론 성능을 낼 수 있다는 점에서 유의미한 논문이라고 생각한다.

본 글에서 다루지 않은 내용 및 실험이 있으니 더 깊은 이해를 위해 논문 읽기를 권장드립니다.

https://openreview.net/pdf?id=ePrhcLbtGv

긴 글 읽어주셔서 감사합니다.

참고문헌

[1] Cai, Zefan, et al. "R-kv: Redundancy-aware kv cache compression for reasoning models." arXiv preprint arXiv:2505.24133 (2025).

[2] Shen, Zhenyi, et al. "Codi: Compressing chain-of-thought into continuous space via self-distillation." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.

One Paper Accepted at ICLR 2026

KDST — Mon, 26 Jan 2026 22:37:06 +0900

4월에 브라질에서 열리는 ICLR 2026에 다음 1편의 논문을 발표하게 되었습니다. 최초로 T2V 모델에 특화된 탈옥 기법을 제안한 점이 인정받은 것 같습니다. 점점 더 활용이 늘어날 T2V 모델의 safety에 대한 연구의 시작점으로서의 의의가 크다고 생각합니다.

더 자세한 내용은 공저자로 참여한 박하언 님의 아래 링크의 글을 참조하시기 바랍니다.

"Jailbreaking on Text-to-Video Models via Scene Splitting Strategy"

https://www.linkedin.com/posts/haonpark_we-jailbroke-google-veo2-luma-ray2-activity-7391746063684202496--yvh/?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAEo1YsBRipDMyvWjsR4fw_VpQN-EzddNmY

We jailbroke Google Veo2, Luma Ray2, and Hailuo with 84% success rate. The results were… harder to look at than we exp

We jailbroke Google Veo2, Luma Ray2, and Hailuo with 84% success rate. The results were… harder to look at than we expected. Working on LLM jailbreaks, you see harmful text: uncomfortable, but just text. With video generation, bypassing safe

www.linkedin.com

2026년 대한전자공학회 영상이해/ 영상처리 연구회 합동겨울학교 초청 강의

KDST — Mon, 26 Jan 2026 22:36:45 +0900

지난 1월 13일(화)~15일(목)에 소노캄 비발디파크에서 열린 2026년 대한전자공학회 영상이해/ 영상처리 연구회 합동겨울학교에서 파라미터 효율적 미세 조정(PEFT)에 대한 초청 강의를 진행하였습니다.

최근에는 워낙 큰 모델이 많이 나와서 실제로도 많이 활용되는 기술이면서 연구도 활발히 진행되고 있는 분야입니다. 자원이 제한된 대학 연구실에서 특히 활용도가 높아서 많이들 관심 갖고 들어주셔서 감사했습니다.

Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

jinius730 — Sun, 11 Jan 2026 19:29:29 +0900

안녕하세요. KDST 한용진입니다.

이번 시간에는 2025년도 NeurIPS에서 소개된 논문에 대해 이야기를 나눠보고자 합니다.

데이터의 양과 모델의 크기가 증가함에 따라서 이제는 사전학습된 모델을 불러와 특정 작업에 맞춰 모델을 가볍게 수정하는 미세조정(fine-tuning) 방법이 표준으로 자리매김하고 있습니다. 현재까지 Low-Rank Adaptation(LoRA)와 같은 학습 가능한 파라미터의 수를 줄이는 다양한 방법들이 제안되어 왔는데 이는 모델의 가중치를 수정하는 방법입니다. 이와 반대로 본 논문에서 저자들은 활성화 함수를 수정하는 것에 눈을 돌렸습니다.

비선형 활성화 함수는 신경망의 표현력을 담당하는 실질적인 요소라고 봐도 무방합니다. 본 논문에서는 ReLU 활성화 함수를 새로운 활성화 함수로 바꾸어 가중치를 수정하지 않고 곡률을 조절할 수 있는 방법을 제안합니다. 아래 Figure 1은 저자들이 제안하는 방법을 통해 곡률을 조절했을 때 분류/회귀 문제를 시각화한 그림입니다. 왼쪽 아래 그림에서 어떠한 하이퍼 파라미터 베타를 줄이면 활성화 함수의 곡률이 줄어드는 것을 확인할 수 있습니다. 이를 분류/회귀 문제에 적용하면, \beta=0.5일 때 분류 문제에서 결정 경계가 완만해지면서 데이터를 더 잘 분류하고, \beta=0.9일 때 또한 ReLU network보다 데이터에 잘 맞는 회귀 곡선을 추정하는 것을 볼 수 있습니다.

저자들은 spline function의 개념을 활용하여 곡률을 조정하는 방법을 제안합니다.

Spline function s는 piece-wise polynomial로 정의된 s: \mathbb{R}^D \rightarrow \mathbb{R} 인 연속 함수이다. 아래의 그림처럼 Linear splines는 구간별로 선형 함수가 정의된 것을 확인할 수 있다. 이를 통해 실제 함수를 추정할 때 자주 사용한다.

Affine spline function은 affine mapping으로 정의된 spline function의 special case이다.

Matrix A\in \mathbb{R}^{R\times D}
Offset b\in \mathbb{R}^R
Partition Ω≜{ω_1, …,ω_R} of the input space R^D into R regions

각 구간/파티션에 알맞은 affine mapping이 적용된다.

Max-affine spline function은 파티션 Ω의 정확한 정보 없이도 정의할 수 있는 affine spline function의 special case이다.

신경망 또한 max-affine spline function으로 해석하여 연구하는 논문이 다수 존재하니 관심이 있다면 살펴보면 좋겠다.

Curvature Tuning: a provable method for model steering

본 논문에서는 steering이라는 표현을 미세 조정(fine-tuning)의 상위 개념으로 소개하고 있습니다. 신경망을 구성하는 요소 중에서 가중치를 조정하는 것과 활성화 함수를 조정하는 것 모두 steering 범주 안에 들어간다고 표현하겠습니다.

Toy example

위 Figure 1 예제를 통해 곡률을 수정하는 것에 대한 유효성을 확인하였습니다. 만약 2차원 실수 공간에서 이진 분류 문제가 주어졌고 최적의 decision boundary가 단위원 S^′={x∈R^2:‖x‖_2=1} 이라고 하겠습니다. 이때 x는 다음과 같이 파라미터화 됩니다: γ:t↦(cos2πt, sin2πt), t∈[0,1]. σ는 시그모이드 함수입니다. R^2에서 R로 가는 함수 f는 두 클래스를 같은 확률로 분류하는 게 가장 이상적일 것입니다.

σ(f(γ(t)))=0.5, ∀t∈[0,1]⇔f(γ(t))=0, ∀t.

이에 대한 함수의 오차는 선적분으로 표현할 수 있으며, 이를 아래와 같이 전개할 수 있습니다.

에러 e를 줄이기 위해서는 t_(k+1)→t_k 로 만들어야 하는데, 이는 결국 뉴런의 개수가 무한대로 늘어나야 함을 의미합니다. 그러나 현재는 네트워크에 존재하는 뉴런의 수를 조절하지 못하므로 다른 방법이 필요합니다. 따라서 non-linearity를 완만하게 만들어주는 방법을 통해 decision boundary를 완만하게 만드는 방법을 제안합니다.

지금부터는 좀 전에 소개해드린 spline function의 개념을 적용할 차례입니다. Non-linear ReLU (Spline function)가 주어졌을 때 어느 부분에서 non-linearity가 발생하는지 생각해 봅시다.

Smoothing the non-linearity by smoothing the spline region assignment process

첫 번째로는 파티션이 바뀌는 구간입니다. ReLU의 경우에는 x=0인 점이 될 것입니다. 구간을 선택하는 부분을 one-hot encoding 방식이 아닌 soft encoding 방식으로 바꾸고 이를 다시 파티션이 선택될 확률로 다시 보겠습니다.

H(t)를 Shannon entropy라고 했을 때 max-affine spline function을 위와 같이 해석할 수 있습니다. 위 식의 closed form은 아래와 같은데 이는 Sigmoid Linear Unit (SiLU)과 동일합니다.

Smoothing the nonlinearity by smoothing the max

두 번째로는 max term을 직접 smoothing하는 것입니다. 아마 많은 분들께서 maximum operator가 log-sum-exp operator로 smoothing 될 수 있음을 알고 계실 겁니다. 따라서 이번에는 SoftPlus와 같은 형태의 식이 나옵니다.

그러나 ReLU에서 SiLU 또는 SoftPlus로 바꾸게 되면, 결괏값의 평균이 아래 그림처럼 각각 작아지거나 커지는 문제가 존재합니다.

따라서 ReLU는 SiLU와 SoftPlus의 convex combination이라고 볼 수 있겠습니다. 이를 Curvature Tuning Unit (CTU)라고 하겠습니다.

CT as a projection over a space of smooth functions

ReLU 함수를 CTU로 바꾸면 바뀐 네트워크의 곡률이 크거나 같음을 증명할 수 있습니다.

위 정리를 이해하기 위해서는 L^p 공간과 Sobolev 공간에 대한 이해가 필요합니다. 두 개념을 이번 시간에 다루지 않을 계획이지만, 중요한 것은 두 공간에서 정의한 norm이 유한하다는 것입니다. L^p 공간은 함수의 크기만을 정의하기 때문에, 기울기나 곡률을 구하기에는 정보가 부족합니다. Sobolev 공간에서는 q계 도함수까지의 크기를 정의할 수 있으며, 곡률에 대한 정보는 q=2로 설정하여 얻을 수 있습니다. Sobolev 공간에서도 norm이 유한함을 구할 수 있는데, ReLU는 x=0에서 곡률을 구할 수 없으므로 0이 되며 결국 위 정리가 성립함을 보일 수 있게 됩니다.

L^p norm은 유한하다.

Sobolev norm

결국 ReLU를 CTU로 바꿈으로써 곡률이 커지는 것을 보일 수 있고, 이를 통해 generalization과 robustness 성능이 향상됨을 실험적으로 보여주고 있습니다.

Experiments

Comparison with LoRA

Table 1과 4를 통해 CT의 generalization 성능이 여러 아키텍처에서 일관되게 향상되는 것을 확인할 수 있습니다. 이때 $\beta\in [0.7, 1]$ 범위에서 Grid search를 수행한 값을 사용합니다.

Robustness improvement

beta 값이 1보다 작아짐에 따라 (beta=1 <=> ReLU), curvature가 조정되고 이로 인해 robustness가 향상되는 것을 확인할 수 있습니다. \ell_\infty perturbation에서 가장 유의미한 향상을 보이고 있습니다. 다만 다른 robustness criteria에서는 향상 폭이 미미한데, beta 값이 1에 굉장히 가까워져 활성화 함수가 ReLU와 별반 다르지 않기 때문입니다.

Transformer-based architecture

CT 방법은 트랜스포머 기반 아키텍처에서는 다소 좋은 모습을 보여주지는 못하였습니다. 다만 저자들은 LoRA에서 사용한 학습 가능한 파라미터 수보다 CT가 훨씬 적기 때문에 이러한 점이 유의미하다고 언급하고 있습니다. 제 개인적인 견해로는 트랜스포머 기반의 아키텍처는 주로 GeLU라는 활성화 함수를 사용하는데, 이는 2차 미분이 가능한 활성화 함수로써 CT에서 해결하고자 하는 문제점이 이미 어느 정도 해소된 상태이기 때문에 성능 향상이 미미했다고 볼 수 있겠습니다.

Conclusion

본 논문에서는 모델의 decision boundary를 증명가능한 방법으로 조절하는 방법을 제안합니다. ReLU의 비선형성을 완만하게 하는 활성화 함수를 제안하고 굉장히 적은 파라미터 만으로도 generalization & robustness 성능이 향상될 수 있음을 보입니다.

활성화 함수의 곡률 정보를 활용하여 모델의 성능을 적은 파라미터를 가지고도 향상할 수 있는 부분이 굉장히 흥미로웠습니다. 개인적으로는 Sobolev 공간에서 이를 증명하는 과정이 재미있게 느껴졌던 것 같습니다. 실험적으로 아쉬운 부분이 있었지만 한 번쯤 읽어도 좋은 논문이라고 생각합니다.

이번 소개 글에서 다루지 않은 내용들이 많으니 더 깊은 이해를 위해 논문 읽기를 권장드립니다. 부록에 수록된 증명 부분도 생각보다 쉽게 따라갈 수 있으니 읽어보시는 것을 추천드립니다. 내용 정정 또는 의견이 있으신 분께서는 댓글 남겨주시면 감사하겠습니다.

25/12/22 범용인공지능(AGI) 테크 세미나

KDST — Sun, 21 Dec 2025 02:39:58 +0900

과학기술정보통신부와 IITP (정보통신기획평가원)에서 주최하는 범용인공지능(AGI) 테크 세미나에서 김수현 교수가 "AGI를 위해 필요한 기술"이라는 주제로 발표합니다.

연구 주제 소개 자료 (25/11/28 update)

KDST — Fri, 28 Nov 2025 02:05:10 +0900

저희 팀의 연구 방향에 대한 소개를 담은 pdf 파일입니다.

https://drive.google.com/file/d/1P_P2bmXjgI5BrhjImJMCpXsJrjDaR-Mv/view?usp=sharing

20251127 딥러닝 수업 소개 dist.pdf

drive.google.com

오픈랩 워크샵 성황리에 마무리

KDST — Tue, 18 Nov 2025 00:07:13 +0900

많은 분들이 와주셔서 오픈랩 워크샵이 성황리에 마무리되었습니다.

자리가 모자라서 뒤편에 의자를 추가로 놓고도 자리가 부족해서 돌아가신 분들이 계셨습니다.

내년에는 더 큰 장소에서 진행하고 피자도 더 많이 준비하도록 하겠습니다.

참석하신 모든 분들에게 감사드리며 워크샵을 준비하신 저희 팀원들에게 특히 더 고맙다는 말씀을 드리고 싶습니다.

People

KDST — Wed, 5 Nov 2025 02:36:57 +0900

현재 멤버 소개

김수현 (Principal Investigator)
김유진
이원준
김현수
원희지
한용진
김민환
옥윤승
전상우
양경식
지가은

이전 멤버 소개 (공간 제약 등으로 단기 인턴은 포함하지 못하였습니다)

강진구 (영국 취업)
남현우 (티머니 취직 후 창업: http://nemolabs.co.kr )
박대혁 (제인모터스)
이해동 (미국 취업)
홍길원 (LG전자)
Linh Ho Tran (Runi Solutions CEO)
서동만 (대구가톨릭대 교수)
서대일 (현대자동차)
박호건 (성균관대 교수)
홍승길 (withSG)
황혜진 (캐나다 취업)
이관훈 (고려대 대학원 진학)
송규원 (차세대융합기술연구원)
장강희 (고려대 포닥)
Muhammad Irfan Yousuf (University of Engineering & Technology, Lahore 교수)
김우정 (Cornell Univ. CS 박사과정)
박도균 (고려대 박사과정)
Assel Kembay (UC Santa Cruz 박사과정)
김준수 (UBC 박사과정)
김동진 (군사과학기술병)
강민구 (삼성전자)
강민수 (현대모비스)
박윤아 (연세대-KIST 학연)
박민철 (삼성 종기원)

2025/11/07 학부생을 위한 오픈랩 워크샵

KDST — Mon, 3 Nov 2025 14:12:18 +0900

딥러닝 연구에 관심 있으신 학부생 분들 많이 와주세요.

저희 랩의 학부연구생에 관심 있으시면 아래 링크로 신청해 주시면 저희가 연락드리도록 하겠습니다.

https://forms.gle/3ZGaFXjR8XCzTsQo6