핵심 : Verification, Backtracking, Subgoal Setting, Backward Chaining 속성들이 강화학습을 더 효과적으로 만든다.
0. Abstract
language model들이 복잡한 문제에서는 더 길게 생각을 하는 test-time inference는 성능을 높이는 효과적인 방법으로 입증되었다. 강화학습의 경우에는 self-improvement를 유도하는 효과를 보이는데, 어떤 모델들은 성능이 많이 좋아지고 어떤 모델들은 빠르게 정체되는 모습도 확인할 수 있었다. (e.g. Qwen이 Llama보다 훨씬 좋은 성능을 보인다)
이러한 차이를 보이게 하는 이유를 4가지 인지 행동(Cognitive Behavior)을 기준으로 하여 분석한다.
- Verification = 검증
- Backtracking = 이전 Step으로 되돌아 가기
- Subgoal Setting = 하위 목표 설정
- Backward Chaining = 역방향 추론
Qwen은 Llama와 비교해서 이러한 특징들을 내재적으로 가지고 있었기 때문에 RL에서도 차이가 남을 알 수 있다. Llama 모델에 이 4가지 인지 행동과 관련된 예시를 제공했을 때, Qwen의 성능과 비슷해지거나 더 좋아진 것을 확인할 수 있었다. 올바른 답으로 학습시키는 것보다 이러한 인지 행동을 학습시키는게 더 효과적임을 보인다.
1. Introduction
사람이 어려운 문제를 풀 때 더 많은 시간을 사용하는 것처럼, Language model들도 강화학습을 통해 유사하게 행동한다. 하지만 특정 모델들은 고작 몇 step만 지나면 정체하는 것을 확인할 수 있었는데, 그 이유로는 앞서 설명된 4가지 cognitive behavior의 유무라고 설명한다. 다른 방식들도 있겠지만, 사람과 가장 유사하면서도 정의가 쉽고 model output에서 더 확인이 쉬운 4가지 ① verification (체계적 에러 확인), ② backtracking (실패한 접근은 포기하기), ③ subgoal setting (작은 단위로 문제 분해), ④ backward chaining (이상적인 답에서부터 input을 추론하기)를 사용한다.
계속해서 Qwen과 Llama를 비교하는데, Llama 모델은 이러한 behavior가 부재한 것으로부터 시작된다. 하지만 이러한 추론 방식을 인위적으로 학습시켰을 때, Qwen과 비슷한 성능을 낼 정도로 성능이 올라간 것으로 학인할 수 있었다. 학습시킬 때 사용한 데이터에서 답이 틀려도 이러한 추론 방식을 학습 시킨 것으로도 성능이 올라가고, pretrain 데이터에서 이러한 추론 방식들을 강조하는 것으로도 behavioral pattern을 유도할 수 있었다.
2. Related Work
추론 능력 향상을 위한 방식은 크게 3가지 유형으로 나눌 수 있다:
- External Search, 2) In-context Search, 3) Reinforcement Learning
External Search for Reasoning
inference할 때 사용되는 시간을 늘림으로써 성능을 향상시킬 수 있다. 또한, 추가적인 학습데이터를 제공하거나 verifier, process reward model과 같은 외부 모델을 사용할 수도 있다. 탐색 과정 자체를 사용하여 추론 능력 향상을 시도할 수 있지만, 기존에 탐색한 solution들을 고려하지 않기 때문에 비효율적이라는 단점이 있다.
In-Context Search and Self-Improvement
이 방식은 반대로 모델 내부에서 해결을 시도한다. in-context examples, linearized 탐색 과정으로 파인튜닝, self-correction 예시로 학습하기 등이 있다. 효율적이지만 self-correctino이나 backtracking을 만들어내기 위해서는 엔지니어링을 잘 해야한다는 단점이 있다.
Reinforcement Learning for Reasoning
off-policy, batch, on-policy와 같은 여러 방식들부터 단순화된 PPO인 GRPO까지 강화학습과 관련해서 여러 연구들이 진행되었다. 하지만 여전히 왜 어떤 모델들만 성능이 향상이 잘 되는지에 대한 간격에 대해서 해당 연구가 깊게 파고든다.
* off-policy vs on-policy : update하는 policy와 행동하는 policy가 다르면 off-policy이다
** GRPO = 모델이 스스로 여러 개의 답안을 만들어 평균 점수를 기준으로 학습
3. Identifying and Engineering Self-Improving Behavior
3.1 Initial Investigation: A tale of two models
Qwen과 Llama를 비교하는 task로 Countdown 게임(사칙연산과 주어진 숫자들로 target 숫자에 도달하는 것)을 선택한다. 수학적 지식에을 필요로 하지 않고, search space도 적당히 제한되어 있으며, 수학적 추론, 계획, 탐색 등의 능력을 필요로 하기 때문이다. 여러 hyperparameter 설정에서 GRPO나 REINFORCE보다 안정적인 PPO로 강화학습을 진행하였다.
30번째 step에서 Qwen은 더 긴 응답과 높은 정확도를 보여준다. (Llama가 30%인 반면, Qwen은 60% 정확도를 보임) 특이한 점은, 초기에는 “8*35 is 280 which is too high”와 같은 문장으로 verify하는 과정이 explicit하게 보여졌다가, 점차 implicit하게 올바른 답을 찾을 때까지 계속 시도하는 모습을 보여줬다.
3.2 A Framework for Analyzing Cognitive Behaviors
두 모델이 다른 결과를 가지는 이유는 앞서 언급된 4가지 key behaviors 때문이다. 4가지 behavior들은 linear하고 monotonic한 reasoning 패턴에서 벗어나, 더 dynamic하고 search-like 탐색을 가능하게 한다. 인간의 problem-solving과 유사하며, Countdown뿐만이 아니라 더 넓은 수학적 추론 task에도 적용할 수 있다.
3.3 The Role of Initial Behaviors in Self-Improvement
3개의 base 모델들이 4가지 behavior들에 대해서 얼마나 가지고 있는지를 점수화 했을 때, Qwen-2.5-3B, Llama-3.1-70B, Llama-3.1-7B 순서대로 높았다. 4가지 behavior에 대해서 Llama 모델들 간의 개선 폭은 다 달랐지만, 모델 크기를 키우는게 behavior들을 활성화하는데 유리하다는 것을 확인할 수 있었다. 또한, Qwen은 이 4가지 behavior 점수가 높은 것으로 보아, 초기 모델의 특징들이 test-time compute을 효과적으로 활성화시키는 것에 중요하다는 것을 알 수 있다.
3.4 Intervening on initial behaviors
각 cognitive behavior의 중요성은 알겠으니, 이런 behavior를 인위적으로 만들 수 있는지 확인한다. 핵심 가설은, base model들의 각족 variant를 만든 다음에 RL 학습을 돌려서 효과를 확인하는 것이다.
7개의 데이터셋을 사용하는데, 각 behavior들의 조합을 여러개 만들어서 실험한다. (e.g. backtracking only, backtracking with subgoal setting 등등) 데이터셋을 만들기 위해서는 Claude-3.5-Sonnet을 사용했다고 밝혔는데, 원하는 behavior들을 만들어주는 지시를 안정적으로 잘 따르는 모델이었다고 한다. 실제로 특정 behavior의 효과를 확인하기 위해서 cot 과정은 비워두고, 길이에 맞게 placeholder token을 사용했다고 한다.
behavior를 인위적으로 넣어주면 Llama와 Qwen 모두 성능 향상을 확인할 수 있었다. 각 behavior의 영향에 대해서는, 가장 효과적인 behavior가 강하게 증폭되면서 나머지 behavior들은 씹히는 부분도 확인되었다. (backtracking이 가장 효과적이면, 다른 behavior보다 backtracking이 우선시됨)
다시 한번 실험에서도 확인할 수 있었던 것은, 올바른 답보다, 해당 cognitive behavior들을 학습시켜주는 것이 더 성능이 좋아졌다는 것이다.
3.5 Selectively amplifying behaviors in pretraining data
위에서 진행된 실험들은 모두 Countdown task에만 적용해 domain-specific했다. generalization 능력을 확인하기 위해, self-improvement를 통해 모델의 pretraining 분포를 수정해서 해당 behavior의 실행 빈도 자체를 증가시킬 수 있는지를 확인한다.
Behavioral Frequencies in Pretraining Data
pretrain 데이터에 이미 얼만큼의 cognitive behavior가 있는지를 확인한다. OpenWebMath와 FineMath 데이터셋을 Qwen-2.5-32B로 분류했을 때, cognitive behavior가 적게 나오는 것을 확인할 수 있었다.
Behavioral Augmentation of the Pretraining Data
각 behavior마다 존재하는지 유무로 데이터셋을 나눠서 각 behavior의 영향을 공정하게 평가한다. 이 때 question-thought-answer 형식으로 다시 작성하여, 포맷을 통제하고 내용을 유지함과 동시에 각 behavior의 영향을 평가한다.
control model은 성능 향상에 있어서도 조금 제한적으로 진행되었다. 하지만 이러한 targeted modification은 각 behavior들을 잘 활성화시킨다는 결과를 확인 할 수 있었다.
4. Discussion
작은 데이터로 파인튜닝을 해도 cognitive behavior를 넣어주는 것은 성능 향상에 큰 도움이 되는 것을 확인할 수 있었다. 올바른 답이 아니더라도 cognitive behavior의 존재만으로도 self-improvement가 되는 것은, 인과관계가 있다는 것을 증명한다.
해당 연구에서는 Countdown에서만 실험했지만, 여러가지 다양한 task에서는 어떤 패턴이 가장 핵심적일지는 추후에 연구될 방향이다.
논문 링크:
https://arxiv.org/abs/2503.01307