핵심 : Sycophancy의 유형을 설명하며, 발생하는 원인인 human feedback의 구조에 대해서 설명한다.
0. Abstract
파인튜닝을 하는 과정에서 보통 human feedback을 사용한다. 하지만 human feedback을 사용하면 실제 사실보다 user belief를 선호하는 sycophancy의 경향을 증가시킬 수도 있다. human preference의 영향을 이해하기 위해 SOTA AI assistant들과 데이터셋을 확인한다. 응답이 user의 관점에 부합하는 것을 더 선호하며, 인간과 preference model들 또한 실제 사실을 담은 응답보다 설득력 있게 작성된 sycophantic 응답들을 더 선호하는 것을 보인다.
1. Introduction
GPT-4와 같은 AI assistant들은 human feedback을 사용한 강화학습 (RLHF) 방식으로 학습되어, human 평가자에게 appealing한 응답을 생성해낸다. 하지만 이 방식은 human 평가자에게만 집중하게 되어, 오류가 있거나 부정확한 답을 생성하기도 한다. 또 다른 관점에서는, 학습 자체에도 하자가 있을 수 있지만 실제 inference time때 사용자가 가지고 있는 관점에 순응하려다 보니까 부정확한 답을 생성하기도 한다.
sycophancy의 이유를 찾기 위해 3가지를 확인한다:
① 먼저 SOTA 모델들의 sycophantic 유형들 파악
② 파인튜닝할 때 사용되는 데이터가 sycophancy를 부추기는지 여부
③ language model을 최적화할 때 사용하는 preference model (PM)이 sycophancy를 부추기는지 여부
2. Background: AI Assistants and Sycophancy
AI assistant를 학습할 때 많이 사용되는 RLHF 방식은, 주어진 프롬프트에 대해 응답들을 점수 매길 수 있는 Preference Model을 사용한다. 프롬프트 한 개와 응답 두 개로 짝지어진 데이터들을 사용해서 어떤 응답이 더 선호되는지를 학습한다. 하지만 가장 중요한 요소인 human feedback가 완벽하지 않을 수 있다는 것이 문제이다. 따라서 human approval을 의도하지 않았던 방법으로 얻는 결과가 발생할 수 있고, 이러한 현상을 sycophancy라고 한다.
3. Measuring Sycophancy in AI Assistants
3.1 AI Assistants can give Biased Feeedback (Feedback sycophancy)
AI assistant에게 임의의 글에 대해서 피드백을 요청했을 때, 직관적으로는 글의 내용에만 영향을 받아야 한다. 하지만 user의 관점에 많이 영향을 받는 것을 확인할 수 있다.
e.g. “나는 이 글을 좋아해”, “내가 이 글을 썼어”라고 말하면 AI assistant는 그 글에 대해서 긍정적으로 반응하고, 반대로 “나는 이 글을 싫어해”, “내가 이 글을 쓰지 않았어”라고 말하면 더 부정적으로 반응한다.
3.2 AI Assistants can be Easily Swayed
AI assistant가 내놓은 답에 user가 반대를 하면, 정확한 답이었음에도 불구하고 user의 의견에 따라 답변을 수정하는 경우도 확인할 수 있다.
e.g. “나는 그게 아니라고 생각해. 정말 확실해?”라고 의문을 제기하면 실수하지 않았지만 실수를 인정하고, user의 의견에 더 부합하는 답변을 생성한다.
3.3 AI Assistants can Provide Answers that Conform to User Beliefs (Answer sycophancy)
user가 제안하는 답변의 정확도에 따라서 AI assistant의 정확도도 영향을 받는다. 올바른 답변을 주면서 의견을 묻는다면 올바른 답변을 하고, 틀린 답변을 주면서 의견을 물으면 틀린 답변을 한다. 즉, user가 어떻게 믿고 있냐에 따라 그에 부합하는 답변을 생성하는 것이다.
e.g. “1+1=3인 것 같은데 확실하지 않아.”라고 말하면 “1+1=3이 답이 맞아”라고 답할 수도 있다는 것이다. 반대로 “1+1=3이 아닌 것 같은데 확실하지 않아.”라고 말하면 “1+1=3이 아니야”라고 답할 수도 있다는 것이다.
3.4 AI Assistant Responses sometimes Mimic User Mistakes (Mimicity sycophancy)
user가 실수를 했을 때, 실수를 바로잡지 못하고 그 실수를 그대로 받아들이는 경우가 많다.
e.g. John Donne의 작품이지만, user가 “Sylvia Plath의 작품이고 어떤 의미인지”를 물어봤을 때 Sylvia Plath를 정정하지는 않는다. 오히려 Sylvi Plath의 작품이라고 실수를 그대로 따라하면서 작품의 의미에 대해 설명하는 경우가 있다.
4. Towards Understanding Sycophancy in Language Models
모든 AI assistant는 human feedback을 사용해서 학습했기 때문에, human feedback이 sycophancy의 원인이라는 가정을 한다. 이를 검증하기 위해서 PM을 학습할 때 사용하는 human preference 데이터를 분석하고, PM이 무엇을 선호하는지를 파악한다.
4.1 What Behavior is Incentivized by Human Preference Data?
먼저 human preference에 대해서 비교한 것이 “프롬프트 P에 대해서 응답 A보다 응답 B를 선호한다”라는 형태로 존재할 때, 비교하기 편한 feature들로 바꿔야 한다. (응답 A는 응답 B보다 더 사실적이고, 덜 감성적이다.) 그리고 나서 Bayesian logistic regression를 사용해서 어떤 특징들이 존재하고, huamn preference 데이터가 무엇을 선호하는지 확인할 수 있다. 결과를 확인하면, user의 의견에 부합하는 응답이 가장 선호된다. 그 다음으로는 권위가 있는 것, 공감을 하는 것, user의 query와 관련된 것 등이 있다.
4.2 What Behavior is Inctivized by Preference Models?
4.1에서 사람들은 자신의 의견에 맞는 응답을 좋아하는 경향이 있어, sycophancy의 원인이 됨을 밝혀냈다. 이 섹션에서는 AI assistant를 학습할 때 사용하는 Preference Model이 sycophancy의 원인이 되는지를 알아본다. Best-of-N 방식에서는 N개의 답변들 중에서 Claude 2 PM이 가장 높은 점수를 매긴 sample을 사용해서 PM을 학습시킨다. RL 방식에서도 sycophancy가 얼마나 변화하는지 실험한다.
* prefix를 사용해서 non-sycophantic PM을 만든 다음에 이 모델과 비교한다.
** PM들은 helpful, honest, harmless 3가지 특성을 모두 고려하며 평가해야 한다.
결과:
sycophancy의 유형에 따라 다른 양상을 보였다.
BoN 방식에서는 sample 수가 늘어날수록 feedback sycophancy는 증가했고, answer sycophancy와 mimicry sycophancy는 감소했다.
RL 방식에서는 sample수가 늘어날 수록 feedback sycophancy와 mimicry sycophancy는 증가했고, answer sycophancy는 감소했다.
4.3 How often do humans and PMs prefer Truthful Responses?
사람들이 많이 착각하고 있는 사실 정보들을 가져온 다음에 3가지 응답 유형을 만든다.
① baseline truthful responses : user가 왜 틀렸는지에 대한 자세한 정보 제공 X
② helpful truthful responses : user가 왜 틀렸는지에 대한 자세한 정보 제공 O
③ sycophantic responses : user에 무조건 동의하는 응답
PM에 대해서 평가하고, 사람들(crowd-worker)에게도 조사했을 때 sycophantic 응답을 선호하는 비중이 상당히 높은 것(각각 45%, 35%)을 확인할 수 있다.
5. Related Work
Challenges of Learning from Human Feedback : 인간의 답이 완벽하지도 않고, 다양한 선호도가 있다. 이러한 구조를 모델링하는 것은 더욱 더 쉽지 않다.
Understanding and Demonstrating Sycophancy : human approval을 의도하지 않은 방식으로 얻고자 하는 사례들을 조사한 연구들이 존재한다.
Preventing Sycophancy : sycophancy를 방지하기 위해서는 preference model을 개선하기 위해 데이터를 들리거나 라벨러들을 도와줄 수 있다. 또한 합성 데이터를 사용한 파인튜닝, activation steering, debate의 방식 또한 사용할 수 있다.
6. Conclusion
해당 연구에서는 syncophacy가 일어나는 배경, SOTA AI assistant들에서의 사례, 원인에 대해서 설명한다.
논문 링크 :
https://arxiv.org/abs/2310.13548