728x90 critique1 [논문 리뷰] LLM Critics Help Catch LLM Bugs (CriticGPT) 핵심 : RLHF으로 학습하고 일부러 error를 넣는 tampering 과정을 거친 CriticGPT 모델은 버그를 잘 잡아낸다.0. AbstractRLHF는 결국 인간이 해야 한다는 점에서 양적으로나 질적으로나 제한이 된다. 따라서, 이 연구에서는 ‘Critic’ 모델 자체를 RLHF로 학습시켜 극복하고자 한다. 실제로 ChatGPT를 훈련시키는데 사용된 데이터 중에, 오류가 없다고 평가된 것들에서도 많은 오류를 발견하였다. 또한, 63%의 경우에 대해서 인간이 평가한 것보다 모델이 평가한 것을 선호하는 것도 확인하였다. LLM만으로는 hallucination이 발생하기도 하지만, human-machine이 같이 작업을 했을 때는 hallucination이 줄어들었다.1. IntroductionAI에.. 2025. 4. 6. 이전 1 다음 반응형