AI 모델, 특히 딥러닝 기반 시스템은 최근 놀라운 예측 정확도를 달성하며 기술 혁신을 주도하고 있습니다. 하지만 이 화려한 성과 이면에는 '적대적 예제(Adversarial Examples)'라는 치명적인 취약점이 존재합니다.
사람의 눈으로는 식별 불가능한 미세한 노이즈 하나가 모델의 예측 결과를 완전히 뒤바꿀 수 있다는 사실은 자율 주행이나 의료 진단과 같은 고위험군 애플리케이션에서 심각한 위협이 됩니다. 이제는 단순한 정확도(Accuracy)를 넘어, 외부 공격에도 흔들리지 않는 강건성(Robustness)이 필수 조건이 되었습니다.
본 글에서는 기존 경험적 방어의 한계를 넘어, 수학적으로 증명된 안전함을 제공하는 최첨단 방법론인 랜덤화 스무딩(Randomized Smoothing)의 원리와 구현 방법을 심층적으로 분석합니다.
1. 경험적 방어의 한계와 '인증된 강건성'
기존의 방어 기법인 적대적 학습(Adversarial Training) 등은 특정 공격 알고리즘(예: PGD, FGSM)에 대해서는 효과를 발휘합니다. 하지만 이는 임시방편일 뿐, 새로운 유형의 공격이 등장하면 무력화되기 쉽습니다. 개발자는 끊임없이 뚫리는 방패를 들고 있는 셈입니다.
우리가 진정으로 원하는 것은 "이 모델은 반경 R 내의 어떤 외란(Perturbation)에도 절대 분류를 바꾸지 않는다"는 수학적 보증(Provable Guarantee)입니다.
이러한 수학적 보증을 제공하는 것이 바로 '인증된 강건성(Certified Robustness)'입니다.
2. 핵심 메커니즘: 랜덤화 스무딩 (Randomized Smoothing)
랜덤화 스무딩은 노이즈에 민감할 수 있는 기본 분류기 $f$를 사용하여, 노이즈에 훨씬 덜 민감한 새로운 '평활화 분류기' $g$를 구성하는 기법입니다. 핵심 아이디어는 입력 데이터 $x$에 가우시안 노이즈를 주입하고, 그 결과를 투표(Voting)하여 최종 분류를 결정하는 것입니다.
2.1. 평활화 분류기 $g$의 정의
기저 분류기 $f$가 있을 때, 평활화 분류기 $g$는 입력값 주변의 확률 분포를 통해 정의됩니다. $g(x)$는 노이즈가 추가된 입력들에 대해 $f$가 가장 자주 출력하는 클래스를 의미합니다.
(여기서 $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$는 가우시안 노이즈입니다)
이 과정을 통해 원래 모델 $f$의 날카로웠던 결정 경계(Decision Boundary)가 부드러워지며(Smoothed), 미세한 외란에 민감하게 반응하지 않게 됩니다.
2.2. 구현 상세: 예측 단계 (Prediction)
실제 환경에서 무한한 노이즈 샘플을 계산하는 것은 불가능하므로, Monte Carlo 샘플링을 사용합니다. 수만 개의 샘플을 생성하고 투표를 진행하여 가장 확률이 높은 클래스를 추정하는 방식입니다.
// Pseudo-code for Smoothed Prediction
function Predict_Smoothed(f, x, sigma, N_samples):
counts = dictionary(Class -> Count)
for i in 1 to N_samples:
noise = Normal_Distribution(0, sigma^2)
prediction = f(x + noise)
counts[prediction] += 1
return class with maximum count (c_A)
3. 인증 반경과 수학적 보증
랜덤화 스무딩의 진정한 가치는 Cohen et al. (2019)이 제시한 인증 정리(Certification Theorem)에 있습니다. 이 정리는 모델이 특정 입력 $x$를 클래스 $c_A$로 분류할 때, 일정한 반경 $R$ 안에서는 그 어떤 공격이 들어와도 결과가 바뀌지 않음을 수학적으로 증명합니다.
3.1. 인증 반경 $R$의 정의
만약 가장 높은 확률을 가진 클래스 $c_A$의 확률 $p_A$가 두 번째 클래스 $p_B$보다 충분히 크다면, 인증 반경 $R$은 다음과 같이 결정됩니다.
여기서 $\sigma$는 노이즈의 표준 편차이며, $\Phi^{-1}$는 표준 정규 분포의 역함수입니다. 이 공식은 $p_A$가 클수록, 즉 모델의 확신이 강할수록 더 넓은 안전 영역($R$)을 보장한다는 것을 의미합니다.
4. 훈련 전략: 노이즈 증강 학습
랜덤화 스무딩이 효과를 발휘하기 위해서는 기저 분류기 $f$ 자체가 노이즈에 대한 내성을 가져야 합니다. 이를 위해 노이즈 증강 학습(Noise-Augmented Training)이 필수적입니다.
훈련 과정에서 입력 데이터에 의도적으로 가우시안 노이즈를 주입하여 모델을 학습시킵니다. $f$가 노이즈 섞인 이미지도 정확히 분류할 수 있게 되면, 결과적으로 스무딩 함수의 확률 $p_A$가 높아지고 인증 반경 $R$이 최대화됩니다.
예를 들어, CIFAR-10 데이터셋에서 $\sigma=0.25$로 훈련된 모델이 특정 이미지에 대해 $R=0.68$의 인증 반경을 얻었다면, 이는 'L2 거리 0.68 이하의 어떤 노이즈를 추가해도 99%의 확률로 분류가 바뀌지 않는다'는 강력한 보증이 됩니다.
우리는 단순히 '모델이 잘 작동하길' 희망하는 단계를 넘어, '모델이 강건하게 작동함'을 증명해야 하는 시대로 나아가고 있습니다.
- 패러다임 전환: 경험적 방어(Empirical Defense)의 한계를 극복하기 위해 수학적으로 보증된 인증된 강건성이 필요합니다.
- 작동 원리: 랜덤화 스무딩은 입력에 가우시안 노이즈를 주입하고 투표(Voting)하는 방식으로 결정 경계를 부드럽게 만듭니다.
- 미래 전망: 이 기술은 의료 진단이나 LLM의 프롬프트 인젝션 방어 등 안전이 최우선인 AI 시스템 설계의 핵심 원칙이 될 것입니다.
모든 AI 아키텍트는 이제 랜덤화 스무딩을 통해 시스템의 신뢰성을 수학적으로 입증할 준비를 해야 합니다.
.png)
.png)