728x90 sycophancy1 [논문 리뷰] Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting 핵심 : CoT는 그럴싸해보이지만 정확하지 않은 경우도 있고, 모델의 실제 reasoning path가 아닐 수도 있다.0. AbstractChain-of-Thought (CoT) 방식을 사용하면서 모델이 추론하는 과정을 볼 수 있게 되었다. 하지만 CoT 설명들은 모델이 실제로 추론 과정의 실제 이유가 아닐 수도 있다. bias에 의해 영향을 많이 받는데, 오답을 합리화하는 설명을 생성할 수 있기 때문이다. bias가 추가됐을 때 그럴싸한 설명은 생성하지만 정확도는 떨어지는 양상은, CoT와 LLM 자체에 대한 신뢰성을 떨어트린다.1. IntroductionCoT 프롬프팅은 정확한 추론과정과 정확한 답을 내면서 여러 task에 대해 성능이 높아졌다. 하지만 그럴싸해 보이고 정확한 답변 자체도, 실제로 .. 2025. 2. 11. 이전 1 다음 반응형