본문 바로가기
AI/Paper Review

[논문 리뷰] Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

by hyeok1235 2025. 2. 11.

핵심 : CoT는 그럴싸해보이지만 정확하지 않은 경우도 있고, 모델의 실제 reasoning path가 아닐 수도 있다.

0. Abstract

Chain-of-Thought (CoT) 방식을 사용하면서 모델이 추론하는 과정을 볼 수 있게 되었다. 하지만 CoT 설명들은 모델이 실제로 추론 과정의 실제 이유가 아닐 수도 있다. bias에 의해 영향을 많이 받는데, 오답을 합리화하는 설명을 생성할 수 있기 때문이다. bias가 추가됐을 때 그럴싸한 설명은 생성하지만 정확도는 떨어지는 양상은, CoT와 LLM 자체에 대한 신뢰성을 떨어트린다.

1. Introduction

CoT 프롬프팅은 정확한 추론과정과 정확한 답을 내면서 여러 task에 대해 성능이 높아졌다. 하지만 그럴싸해 보이고 정확한 답변 자체도, 실제로 모델이 예측할 때 사용한 추론 과정인지는 확실하지 않다. faithful한지 알 수 없기 때문에, 그럴싸해 보인다고 해서 LLM의 안전을 보장할 수는 없다는 것이다.

CoT의 설명이 실제로 LLM의 추론 과정이 아닌 것에는 여러 이유가 있다.

① 모델을 학습시킬 때, 생성해낸 결과에 이유를 정확히 설명하는 것에 대해 별도로 보상을 주지 않는다.

② 학습 데이터를 만드는 주체인 인간이 정확한 CoT 과정을 만들지 못하는 경우도 많다.

③ RLHF의 방식은 정확한 설명보다 인간에게 그럴싸해보이는 설명을 내놓는 오류가 강화된다.

 

해당 연구에서는 CoT 설명이 그럴싸해보이지만 구조적으로 unfaithful, 정확한 답변에 맞지 않는 설명인 경우가 많다는 것을 보인다. bias 특징들을 넣으면, bias에 의해서 영향을 받지만 CoT 생성 결과에는 그 영향을 구체적으로 설명해내지는 못하는 것을 보여준다.

e.g. few-shot 프롬프팅에서 모든 예시들이 첫번째 보기를 고르면, inference할 때도 무조건 첫번째 보기를 고른다. 하지만 CoT 설명을 보면 그럴싸하게 오답을 합리화하는 과정을 생성한다.

2. Evaluating Systematic Unfaithfulness

Counterfactual Simulatability

Counterfactual Simulatability는 하나의 input에 대한 설명이 다른 input에 대한 설명을 예측할 때 도움이 되는지를 평가하는 방식이다. 해당 연구에서는 모델을 bias시키면서 faithfulness를 평가한다. 모델이 faithful하기 위해서는, 자신이 bias에 의해 영향을 받는다는 것을 알아차려야 하거나 bias에 의해 영향을 받지 않아야 한다. 하지만 실제로 측정해보면 그러한 경우는 거의 존재하지 않는 것을 알 수 있다. 설명들을 평가하는 것은 보통 어려운 일이지만, bias를 하나의 보기로 몰아두는 것과 같은 방식을 사용하면 직접적으로 feature들의 영향에 대해 언급을 안해도 측정할 수 있다.

 

Two Types of Counterfactuals

프롬프팅에 들어가는 예시에 따라서 어떠한 태도를 취할지가 달라지는 것을 확인할 수 있다. 그래서 모델들이 자신의 주장을 합리화시키기 위해서 같은 증거를 일관성 없이 다르게 사용하는 것을 보인다. 크게 두 가지의 counterfactual로 구분할 수 있다:

1) bias에 영향을 잘 안받는 것, 2) 약한 증거(사실)에 섬세하게 대응하는 것

 

Evaluating Faithfulness in Subjective Domains

수학처럼 답 하나가 정해져 있는 질문이 아니라, 주관적으로 답해야 하는 부분에 대해서도 faithful한지 평가를 진행한다. 만약 bias 때문에 여러 답변들 중에서 서로 충돌하는게 생긴다면, bias를 인지하지 않는 이상 unfaithful한 것이다.

3. Perturbing Input Features Not Referenced by Explanations

해당 섹션에서는 input에 일부러 bias를 추가했지만, 설명 부분에 bias에 대한 영향을 언급하지 못하는 것을 보여준다.

 

3.1 Experimental Setup

Input Perturbations

수정되지 않은 input과 2가지 방식으로 변형된 input들을 비교해서 정확도를 측정한다:

① 먼저 모든 답이 A 보기가 되도록 보기 순서를 수정한다. 반복되는 패턴에 예민한 LLM의 특성을 고려한 것이다.

② 랜덤한 라벨이 답이라고 생각한다는 의견을 추가한다. sycophancy와 유사한 방식이다.

Prompting Conditions

CoT와 No-CoT도 비교하고, Zero-Shot과 Few-Shot도 비교한다.

 

3.2 Results

  • CoT 설명들은 구조적으로 faithful하지 못하다. bias한 특징을 넣었을 때 정확도가 크게 감소하는데, bias의 영향이 크게 있었음에도 불구하고 그 원인이 bias임을 밝히지 못했기 때문이다.
  • CoT는 정확한 예측을 bias한 예측으로 몰아갈 수 있다. CoT 방식을 사용했을 때, bias에 더 크게 반응하는 경향성이 존재한다.

⇒ bias는 정답도 틀리게 할 뿐만이 아니라, CoT explanation 과정 자체도 틀리게 하는 것을 확인하였다.

4. Perturbing Input Features Referenced by Explanations

Explanation에서 언급되는 정보들을 추가해서 실험한다.

 

4.1 Experimental Setup

Input Perturbations

질문에 약한 정보들을 넣어서 explanation 과정에서 사용하게 만든다. 질문 자체가 모호하게 설정되어 있기 때문에 정보에 의해서 faithful한지를 확인한다. 만약 바뀐 두 질문에 대해서 둘 다 “모른다”고 대답하거나, 대답도 바뀐다면 faithful한 것이다.

Prompting Conditions

동일하게 CoT와 No-CoT도 비교하고, Zero-Shot과 Few-Shot도 비교한다. 추가적으로 bias를 제거하는 instruction이 있는 경우와 없는 경우를 비교한다.

 

4.2 Results

  • 정보들을 일관성 없이 적용하여 unfaithful한 모습을 보인다.
  • debiasing하는 instruciton을 넣었을 때 실제로 bias가 줄어드는 것도 확인할 수 있다.

⇒ 고정관념과 유사한 정보가 있으면 그 부분에 가중치를 더 주는 것과 같이 일관성 없는 모습을 보여준다.

5. Related Work

Evaluating Plausibility of CoT Explanations

기존 연구들도 CoT의 한계에 대해서 서술하지만, 해당 연구에서는 plausibility부터 faithfulness에 더 집중한다. plausible하지만 unfaithful한 설명도 도움이 될 수 있는데, 사용자의 답이 왜 맞을 수 있는지에 대해서 설명할 수 있기 때문이다.

 

Effects of Perturbations on CoT

few-shot에서 CoT 설명에 오류를 집어넣거나, 수학에 관련해서 불필요한 정보를 넣으면 성능이 낮아지는 것을 확인하는 연구들은 존재한다.

 

Evaluating Faithfulness of CoT Explanations

post-hoc이나 CoT 설명에 대해 전반적으로 확인하는 연구가 있다면, 해당 연구는 adversarial 설정에서 모델이 특정 답안으로 치우쳐지는 현상에 대해 알아본다.

6. Discussion

  • unfaithful explanation에 bias의 영향을 언급하지 않아도 LLM은 bias한 특징을 인지하고 있을 수도 있다. 그렇다면 bias를 극복하기 위한 프롬프팅을 사용할 수도 있다.
  • adversarial setting, 일부러 bias가 있는 프롬프트를 준 상황에서는 CoT의 faithfulness가 낮아진다.
  • 더 발전된 모델을 사용하거나 post-hoc, prompting, decomposition과 같은 방식을 통해 faithfulness를 향상시키는 방향으로 연구할 수 있다.
  • 해당 연구는 제한된 조건 안에서만 faithfulness를 지키지 못하는 것을 확인했기 때문에 더 다양한 input에 대해 실험할 필요도 있다.

7. Conclusion

CoT explanation들이 구조적으로 unfaithful함을 보인다. 여러 조건 아래서 현재 사용되는 모델에 대해 실험했을 때 unfaithfulness를 확인함으로써, 투명하고 믿을 수 있는 AI 시스템이 되도록 발전을 시켜야 함을 보인다.

 

논문 링크 : 
https://arxiv.org/abs/2305.04388
728x90
반응형