본문 바로가기

728x90

AI/Paper Review24

[논문 리뷰] LLM Critics Help Catch LLM Bugs (CriticGPT) 핵심 : RLHF으로 학습하고 일부러 error를 넣는 tampering 과정을 거친 CriticGPT 모델은 버그를 잘 잡아낸다.0. AbstractRLHF는 결국 인간이 해야 한다는 점에서 양적으로나 질적으로나 제한이 된다. 따라서, 이 연구에서는 ‘Critic’ 모델 자체를 RLHF로 학습시켜 극복하고자 한다. 실제로 ChatGPT를 훈련시키는데 사용된 데이터 중에, 오류가 없다고 평가된 것들에서도 많은 오류를 발견하였다. 또한, 63%의 경우에 대해서 인간이 평가한 것보다 모델이 평가한 것을 선호하는 것도 확인하였다. LLM만으로는 hallucination이 발생하기도 하지만, human-machine이 같이 작업을 했을 때는 hallucination이 줄어들었다.1. IntroductionAI에.. 2025. 4. 6.

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning 핵심 : verbal한 피드백을 생성하고 저장하여, 여러 번 반복하는 과정을 통해 성능을 개선한다.0. AbstractLLM이 외부환경과 많이 상호작용하지만, 환경에 빠르게 적응하는 것은 쉽지 않다. 기존의 강화학습 같은 경우에는 많은 training sample이 필요하거나 파인튜닝을 해야만 했다. 해당 연구에서는 이러한 한계를 극복하는 Reflexion이라는 방법을 제안한다. weight을 업데이트하는 것이 아니라 언어로 된 피드백을 제공하는 방식으로, 메모리 버퍼에 reflective한 텍스트들을 저장하여 이후 행동들에 반영을 한다.1. IntroductionLLM의 능력을 바탕으로 decision-making agent들이 만들어졌다. 하지만 수많은 파라미터를 모두 조정할 수 는 없기 때문에, a.. 2025. 3. 7.

[논문 리뷰] Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models 핵심 : Backtracking하는 과정을 학습시켜 LLM의 성능을 높인다.0. Abstractslow-thinking mechanism을 LLM에 적용하는 방법은 Level 2 AGI Reasoner에 한층 가깝게 한다. 하지만 overthinking과 외부 모델의 과의존하는 문제가 존재한다. 이를 해결하기 위해서는 탐색하는 과정을 내재화해야 되고, 이는 backtracking을 통해 가능해진다고 해당 논문은 주장한다. self-backtracking을 통해 LLM이 train과정과 inference 과정에서 backtracking할 수 있도록 한다. slow-thinking을 fast-thinking으로 내재화하여 추론 능력이 크게 향상되는 것뿐만이 아니라 효율성도 높일 수 있었다.1. Introdu.. 2025. 2. 28.

[논문 리뷰] Steering Llama 2 via Contrastive Activation Addition 핵심 : 원하는 행동(behavior)의 프롬프트와 그 반대 행동의 프롬프트는 activation에서 차이가 난다. 그 둘을 빼서 steering vector로 사용하면 원하는 행동을 더 강화하거나 약화할 수 있다.0. Abstract해당 연구에서는 Contrastive Activation Addition(CAA)라는 방식을 소개한다. 긍정적인 input과 부정적인 input에 대해 residual stream activation의 차이값을 활용하여 유저의 프롬프트에 대해 language model을 조정할 수 있다. 파인튜닝이나 시스템 프롬프트 디자인보다 더 효과적임을 보인다. 또한, 추상적인 레벨의 컨셉들이 LLM에서 어떻게 표현되는지 엿볼 수 있다.1. IntroductionLLM의 성능이 좋아질수.. 2025. 2. 12.

[논문 리뷰] Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting 핵심 : CoT는 그럴싸해보이지만 정확하지 않은 경우도 있고, 모델의 실제 reasoning path가 아닐 수도 있다.0. AbstractChain-of-Thought (CoT) 방식을 사용하면서 모델이 추론하는 과정을 볼 수 있게 되었다. 하지만 CoT 설명들은 모델이 실제로 추론 과정의 실제 이유가 아닐 수도 있다. bias에 의해 영향을 많이 받는데, 오답을 합리화하는 설명을 생성할 수 있기 때문이다. bias가 추가됐을 때 그럴싸한 설명은 생성하지만 정확도는 떨어지는 양상은, CoT와 LLM 자체에 대한 신뢰성을 떨어트린다.1. IntroductionCoT 프롬프팅은 정확한 추론과정과 정확한 답을 내면서 여러 task에 대해 성능이 높아졌다. 하지만 그럴싸해 보이고 정확한 답변 자체도, 실제로 .. 2025. 2. 11.

[논문 리뷰] Towards Understanding Sycophancy in Language Models 핵심 : Sycophancy의 유형을 설명하며, 발생하는 원인인 human feedback의 구조에 대해서 설명한다.0. Abstract파인튜닝을 하는 과정에서 보통 human feedback을 사용한다. 하지만 human feedback을 사용하면 실제 사실보다 user belief를 선호하는 sycophancy의 경향을 증가시킬 수도 있다. human preference의 영향을 이해하기 위해 SOTA AI assistant들과 데이터셋을 확인한다. 응답이 user의 관점에 부합하는 것을 더 선호하며, 인간과 preference model들 또한 실제 사실을 담은 응답보다 설득력 있게 작성된 sycophantic 응답들을 더 선호하는 것을 보인다.1. IntroductionGPT-4와 같은 AI as.. 2025. 2. 7.

이전 1 2 3 4 다음

티스토리툴바