본문 바로가기
AI/Paper Review

[논문 리뷰] Comparing Bottom-Up and Top-Down Steering Approaches on In-Context Learning Tasks

by hyeok1235 2026. 2. 26.

핵심 : steering은 top-down(in context, contrastive)와 bottom-up(attention head)로 나뉘고, 각 방법이 잘하는 task 유형이 정해져 있다. + top-down 방식은 설정 환경(extract data 등)에 따라 많이 영향을 받는다.

0. Abstract

steering 방법론을 크게 2가지 접근, “bottom-up”과 “top-down”으로 구분하여 비교한다. 전자의 대표 예시로는 Function Vector(FV), 후자의 대표 예시로는 In-Context Vector (ICV)로 설정한다. 두 접근 모두 in-context를 학습하는 task에서 representation을 압축하여 잡아내고자 한다. 하지만 정밀한 작업이 필요할 때는 FV가 효과적이고, 전체적인 behavioral shift가 필요할 때는 ICV가 효과적임을 보인다.

1. Introduction

LLM의 behavior를 조정하기 위해 vector steering이 주목 받고 있는데, 원하는 behavior를 가지고 있는 concept vector를 만든 다음 모델에 적용하는 방식이다. vector를 유도할 때 1) “bottom-up”과 2) “top-down” 방식으로 접근할 수 있다. 1) 바텀업은 보다 low-level에서 neuron이나 circuit에 집중하며, key attention head를 통해 연산해서 인과 관계가 있는 부분을 찾는다. 2) 탑다운은 좀 더 넓고 고차원의 컨셉을 분석하기 위해 뉴런의 global한 분포에 집중하며, target behavior의 contrastive 예시들의 activation으로 찾는다.

2개의 방식을 평가하는 task들은 서로 너무 달라서 비교가 어렵기 때문에, 공통적인 in-context learning task를 통합하여 평가한다. 주요 결과는 다음과 같다:

  • FV는 정밀하고 세밀한 behavior를 조정하는데 효과적이지만, 고차원 개념에는 약하다.
  • ICV는 반대로 고차원 개념에는 강하지만, 세밀한 task에는 약하다. 추가적으로, ICV는 degradation을 발생시키는 확률이 높았고 다른 context에 대해 robust 하지 못했다.

2. Setup

FV와 ICV는 각 개념을 소개한 논문의 방식에 따르는데, ICV는 strength와 예시 사이즈를 sweep하지만 FV는 구조상 따로 탐색하지는 않는다. 모델은 Llama2-Chat과 추가로 학습된 Llama2 7B를 사용한다. 평가 기준은 정확도와 fluency (여러 엔트로피로 측정)를 사용한다.

정확한 input-output 변형을 요구하는 functional task는 반의어 생성, 첫글자 대문자로 수정 등이 있다. functional task는 zero-shot, shuffled 3-shot, OOD 설정으로 평가한다.

전체적인 모델 behavior의 수정이나 글쓰기 스타일을 바꾸는 것과 같은 behavioral task는 sentiment transfer(부정적인 감정에서 긍정적인 것으로 이동) 등이 있다. behavioral task는 zero-shot으로만 평가한다.

3. Results

3.1 Functional & Behavioral Task Performance

functional task에서는 ICV와 FV 둘 다 baseline보다 높은 성능을 보이지만, FV가 ICV보다 아주 더 효과적이다.

behavioral task에서는 ICV가 훨씬 더 효과적이며, FV는 종종 원하는 태도의 반대로 steer되는 경우도 있었다. ICV도 편차가 높고, 어떤 data에서 벡터를 추출했냐에 매우 의존적임을 보인다. 다른 task의 data를 사용해서 steering하면

3.2 Generalizability

n-shot 설정과 유사한 형식의 데이터로 뽑은 벡터를, 동일하지만 형식만 다른 task에 사용했을 때도 비교한다. FV와 ICV 둘 다 성능이 조금 떨어지긴 하지만, FV는 baseline보다는 높은 성능을 유지한다. 하지만 ICV는 어떤 task들에 대해서는 baseline과 거의 비슷한 성능을 보인다.

ICV와 FV 둘 다 fluency에 영향을 주지만, ICV는 steering strength의 더 민감하게 반응한다. strength의 최적값은 task마다 다르다.

3.3 FV Task Performance is Highly Correlated With Task-Specific CIE

FV의 성능은 높은 인과관계를 가지는 (Causal Indirect Effect, CIE) attention head를 찾을 수 있는지와 관련되어 있다. 국가-수도와 관련된 attention head는 존재하는데 detoxification과 관련된 head가 없다면 자연스럽게 성능에도 녹아드는 것이다.

3.4 Ablation Study

steering하는 위치와 steering하는 layer 개수와 관련한 실험들을 진행한다. 보통의 경우 FV는 L/3 구간에, ICV는 전체 layer에 steering한다. ICV는 두가지 유형의 task에서 모두 전체 layer에 steering하는 것보다 일부에만 steering하는 성능이 안좋았다. FV는 Behavioral Task에서 중간 layer 1개나 2개에 넣을 때는 성능이 높아졌으나, 그 외의 task나 위치나 layer 개수는 모두 성능이 안좋았다.

넓은 behavioral task의 경우에는 더 공격적인 steering이 필요함을 시사하면서, 고차원의 개념은 L/3보다 더 후반부에 위치한 layer에 있음을 시사한다.

4. Discussion and Future Work

steering의 top-down과 bottom-up 방식을 비교하며, 각 방식이 어떤 task에서 효과적인지를 확인한다. bottom-up은 더 세밀한 task에, top-down은 좀 더 넓은 representation space와 관련된 task에 적합함을 보인다. 몇개의 attention head가 behavior 전체를 담기에는 부족하고, 세밀한 메커니즘을 넓은 activation sapce에서 추출하는 것도 어렵기 때문이라고 추측한다.

ICV에 대해서는 특정 부분을 latent space에서 구분할 수 있는지가 해석가능성의 중요한 목표로 삼을 수 있다고 한다.

해당 연구에서는 두가지 방법론과 특정 task들에 대해서만 실험했기 때문에 일반화의 어려움이 있다고 밝힌다. 이에, intervention을 평가할 수 있는 통합된 벤치마크의 필요성과 다른 task/model/steering method로의 확장이 필요함을 주장한다.

 

 

NeurIPS 2024 Workshop on Foundation Model Interventions (MINT)
논문 링크: https://arxiv.org/abs/2411.07213

 

728x90
반응형