본문 바로가기
728x90

RL2

[논문 리뷰] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs 핵심 : Verification, Backtracking, Subgoal Setting, Backward Chaining 속성들이 강화학습을 더 효과적으로 만든다.0. Abstractlanguage model들이 복잡한 문제에서는 더 길게 생각을 하는 test-time inference는 성능을 높이는 효과적인 방법으로 입증되었다. 강화학습의 경우에는 self-improvement를 유도하는 효과를 보이는데, 어떤 모델들은 성능이 많이 좋아지고 어떤 모델들은 빠르게 정체되는 모습도 확인할 수 있었다. (e.g. Qwen이 Llama보다 훨씬 좋은 성능을 보인다)이러한 차이를 보이게 하는 이유를 4가지 인지 행동(Cognitive Behavior)을 기준으로 하여 분석한다.Verification = 검증B.. 2025. 5. 19.
[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning 핵심 : verbal한 피드백을 생성하고 저장하여, 여러 번 반복하는 과정을 통해 성능을 개선한다.0. AbstractLLM이 외부환경과 많이 상호작용하지만, 환경에 빠르게 적응하는 것은 쉽지 않다. 기존의 강화학습 같은 경우에는 많은 training sample이 필요하거나 파인튜닝을 해야만 했다. 해당 연구에서는 이러한 한계를 극복하는 Reflexion이라는 방법을 제안한다. weight을 업데이트하는 것이 아니라 언어로 된 피드백을 제공하는 방식으로, 메모리 버퍼에 reflective한 텍스트들을 저장하여 이후 행동들에 반영을 한다.1. IntroductionLLM의 능력을 바탕으로 decision-making agent들이 만들어졌다. 하지만 수많은 파라미터를 모두 조정할 수 는 없기 때문에, a.. 2025. 3. 7.
반응형