블랙박스를 해체하다:
LLM 기계적 해석 가능성(MI) 완벽 가이드

대규모 언어 모델(LLM)은 놀라운 성능을 보여주지만, 그 내부 작동 방식은 여전히 투명하지 않은 블랙박스로 남아 있습니다. 개발자에게 모델의 예측 근거를 이해하는 것은 단순한 호기심을 넘어, 시스템의 안정성과 안전을 보장하는 핵심 과제가 되었습니다.

오늘 우리는 이 블랙박스를 열어보려 합니다. 기계적 해석 가능성(Mechanistic Interpretability, MI)은 가중치 행렬 속에 숨겨진 실제 계산 알고리즘을 복원하여, AI가 정보를 처리하는 정확한 메커니즘을 규명하는 혁신적인 분야입니다.

트랜스포머의 핵심 구성 요소가 어떻게 협력하여 지능적인 '회로(Circuit)'를 형성하는지, 그리고 이를 통해 어떻게 더 안전한 AI를 구축할 수 있는지 깊이 있게 탐구해 보겠습니다.

MI란 무엇이며 왜 중요한가?

기계적 해석 가능성(MI)의 근본 목표는 LLM의 가중치(Weights)를 단순한 통계적 패턴이 아닌, 훈련 과정에서 압축된 '실행 가능한 소프트웨어 코드'로 간주하는 것입니다.

수백억 개의 파라미터가 이름을 복사하거나, 문법적 일치를 확인하거나, 사실을 기억하는 것과 같은 구체적인 알고리즘적 기능을 어떻게 수행하는지 밝혀내는 것이 핵심입니다.

MI와 XAI의 차이점
기존의 설명 가능 인공지능(XAI)이 "입력 중 무엇이 중요한가?"(What)에 답한다면, MI는 "정확히 어떤 계산 경로를 통해 결과가 도출되었는가?"(How)에 답합니다. 이는 입력 토큰이 출력 토큰으로 변환되는 인과적 경로를 완벽하게 재구성하는 과정입니다.

이 작업은 모델의 안전(Safety)과 정렬(Alignment)에 필수적입니다. 모델이 악의적인 출력을 생성하는 '내부 회로'를 미리 파악한다면, 사후 필터링보다 훨씬 강력한 제어 메커니즘을 통해 해당 회로를 수정하거나 비활성화할 수 있기 때문입니다.

LLM 내부 구조 해부: 트랜스포머의 부품들

MI는 LLM의 기본 구조인 트랜스포머(Transformer) 아키텍처를 최소 단위까지 분해하여 분석합니다. 여기서 가장 중요한 두 가지 모듈은 어텐션 헤드와 MLP 레이어입니다.

[Image of Transformer Architecture Diagram detailed view]

1. 주의 메커니즘(Attention Head): 정보 흐름의 게이트

어텐션 헤드는 모델이 현재 토큰을 생성하기 위해 입력 시퀀스의 어느 부분을 '참조'할지 결정합니다. MI 관점에서 각 헤드는 매우 구체적인 하나의 알고리즘 기능을 담당합니다.

복제 회로(Copy Circuit): 특정 헤드가 이전 토큰(예: 사람 이름)을 다음 위치로 단순히 '복사'합니다.
사실 기억 회로(Fact Recall Circuit): 입력 문맥이 아닌, 훈련 데이터에 저장된 지식을 추출하기 위해 쿼리(Q)와 키(K)를 정렬합니다.

연구자들은 헤드의 가중치를 시각화하여, 특정 헤드가 항상 특정 거리(예: 10 토큰 전의 주어)를 참조하도록 '하드코딩'되어 있음을 확인하기도 합니다.

2. MLP 레이어: 추상적 개념의 저장소

MLP 레이어는 단순한 연산 장치가 아니라, 특정 기능을 담당하는 '뉴런 사전(Dictionary of Neurons)'을 형성합니다. 특정 뉴런들은 지리적 위치나 특정 인물의 직업 같은 추상적인 개념에만 반응하여 높은 활성화 값을 보입니다.

MI 연구자들은 다음과 같은 접근 방식으로 이를 분석합니다:

# 뉴런이 활성화되는 조건을 찾는 의사 코드

function Find_Feature_Vector(MLP_Layer, Neuron_Index):
    # 해당 뉴런을 최대화하는 입력을 생성 (Optimization)
    Input_Token_Sequence = Optimize_Input(MLP_Layer, Neuron_Index)
    return Input_Token_Sequence

이 방법을 통해 우리는 특정 뉴런이 '고양이' 관련 문맥에서만 활성화되고, 다른 동물 문맥에서는 꺼지는 현상을 관측할 수 있습니다.

핵심 MI 기술: 인과적 중재와 회로 탐지

MI는 단순히 관찰하는 것을 넘어, 모델의 내부에 직접 '개입'하여 인과 관계를 증명합니다.

1. 활성화 패치(Activation Patching)

모델의 특정 구성 요소가 최종 출력에 미치는 영향을 정량적으로 측정하는 강력한 기법입니다. 과정은 다음과 같습니다.

손상 경로(Corrupted Run): 모델이 오답을 내도록 유도하는 입력을 넣고 실행합니다.
깨끗한 경로(Clean Run): 정답을 내는 입력을 넣고 모든 내부 활성화 값을 저장합니다.
패치 적용(Patching): 손상 경로 실행 도중, 특정 지점(예: Layer 5, Head 3)의 값을 깨끗한 경로의 값으로 덮어씌웁니다.
영향 측정: 패치 후 모델이 정답을 맞히는 비율이 회복되는지 확인합니다.

이 방법은 특정 지식이 모델의 어느 좌표에 위치하는지 핀셋으로 집어내듯 정확히 찾아낼 수 있게 해줍니다.

2. 회로 탐지(Circuit Discovery)

대부분의 기능은 단일 뉴런이 아닌, 여러 요소가 협력하는 '회로(Circuit)' 형태로 구현됩니다. 예를 들어 '주제-동사 일치' 기능은 다음과 같은 계층적 회로로 작동합니다.

Layer 1: 주어 토큰의 위치를 식별하고 정보를 전달.
Layer 2: 전달받은 주어 정보로 올바른 동사 시제를 계산.
Layer 3: 계산된 결과에 해당하는 문법적 특징 벡터를 활성화.

실제 적용 사례: Othello-GPT와 Grokking

Othello-GPT: 내부 상태의 발견

오델로 게임을 학습한 작은 GPT 모델을 분석한 결과, 놀라운 사실이 발견되었습니다. 모델은 단순히 텍스트 패턴을 익힌 것이 아니라, 내부적으로 8x8 게임 보드의 상태를 인코딩하는 뉴런 집합을 형성하고 있었습니다.

이는 LLM이 텍스트라는 1차원 데이터를 넘어, 실제 세계의 구조나 논리적 상태(Internal State)를 스스로 구축할 수 있음을 증명합니다.

Grokking 현상: 암기에서 이해로

모델이 훈련 데이터를 완벽히 암기한 후(Overfitting), 한참 뒤에야 일반화 성능이 급격히 좋아지는 'Grokking' 현상도 MI로 설명됩니다.

초기에는 데이터를 무작정 외우는 '암기 회로'가 형성되지만, 특정 시점에 효율적인 '알고리즘 회로'가 활성화되면서 암기 회로를 대체하고 일반화 능력을 갖게 되는 것입니다.

💡 핵심 요약 및 인사이트

기계적 해석 가능성(MI)은 AI를 블랙박스에서 투명한 엔지니어링 시스템으로 전환하고 있습니다.

투명성의 확보: LLM은 단순한 통계 기계가 아니라, 수많은 마이크로 알고리즘 회로의 집합체입니다.
정밀한 제어: 문제 발생 시 원인이 되는 특정 회로(레이어, 헤드)만을 타겟팅하여 수정하거나 제거할 수 있습니다.
미래의 개발: 이제 우리는 모델의 동작을 막연히 추측하는 것이 아니라, 내부 회로도를 설계하고 검증하는 시대로 진입하고 있습니다.

LLM 블랙박스 해체: 기계적 해석(MI) 완벽 가이드

블랙박스를 해체하다:LLM 기계적 해석 가능성(MI) 완벽 가이드