본문 바로가기
AI/Paper Review

[논문 리뷰] Decompose, Analyze and Rethink: Solving Intricate Problems with Human-like Reasoning Cycle

by hyeok1235 2025. 1. 23.

핵심 : 질문을 잘게 쪼개서 해결했을 때 얻는 정보를 활용해서 기존 답안을 수정한다.

0. Abstract

기존의 방식들은 단순하게 정보를 확장하거나 탐색을 했다면, 해당 논문에서 소개하는 DeAR 방식은 tree 형태로 문제를 쪼개고, 각 step마다 얻은 정보를 바탕으로 기존에 잘못 알고 있던 부분들은 업데이트한다. 정확도와 추론 시간에 있어서 ToT나 GoT보다 낫다

1. Introduction

ToT처럼 tree 형태로 전개하다보면, 구조가 유연하지 못하고 상위 branch에서 에러가 발생하면 그 에러가 계속해서 전파된다. 그리고 branch 개수가 정해져있으면 논리과정이 정확하지 못하거나 중복이 생길 수도 있다. 해당 논문에서는 **DeAR (Decompose-Analyze-Rethink)**라는 새로운 방식으로 해결하고자 한다.

Decompose : 인간의 추론 방식과 유사하게 질문을 sub-quesiton으로 나눈다.

Analyze : 답변 생성을 하고 subquestion에 대한 답을 스스로 확인하는 과정이 있다.

Rethink : child node를 보고 parent node에 대한 오류를 수정한다.

이 3개의 과정을 반복하면 root node에서는 요약된 정답이 존재한다. DeAR는 LLM이 자체적으로 노드를 만들고 업데이트하기 때문에 더 유연한 구조를 가지고 있고, 정확도도 향상시킬 수 있다.

2. Related Work

2.1 Prompt-based Approaches in LLM Reasoning

기존의 방식들에는 few-shot, in-context learning부터 CoT나 탐색 기반인 ToT, GoT도 존재하고, reasoning space를 확장하기 위한 RAP과 같은 아이디어도 존재한다.

2.2 Question Decomposition

질문을 분해하기 위해서 training하는 방식도 존재하지만, 데이터가 부족해서 적합하지 않다. LLM이 나온 뒤로는 LLM에게 프롬프팅 형식으로 질문을 분해하게 하는 방식들이 나왔다. ToT도 intermediate step으로 나눈다는 점에서 비슷하고, Least-to-most와 같은 방식은 예시들을 활용해서 여러 개의 간단한 sub-problem으로 나눈다.

3. Problem Formulation and Preliminaries

Reasoning Tree를 구성할 때, 각 node를 (q, r, s)로 설정한다. q = sub-question, r = rationale(answer), s = score (논리성을 수치적으로 평가). 그리고 edge는 상위 노드와 하위노드를 연결해서 sub-question이 어디서 분리되었는지를 의미한다.

sub-question을 만들 때는 top-down으로 내려가고, rationale을 업데이트할 때는 bottom-up으로 올라간다. 그래서 DeAR 방식은 먼저 질문을 분해한 다음에, 그 질문들에 대해서 답을 적고 self-check를 진행한 다음에, 상위 노드에 있는 rationale을 업데이트한다.

4. DeAR (Decompose-Analyze-Rethink) Cycle

4.1 Decompose Stage

Decompose를 잘하기 위해서 유사한 분해 과정이 담긴 human-annotated 예시들을 프롬프트에 넣어서 few-shot으로 진행한다. 여러 개의 예시들이 있을 때, 코사인 유사도를 활용해서 top-K개의 예시들만 사용한다. score가 특정 threshold를 넘어가면 덛 이상 decompose를 하지 않고, 계산 복잡도가 너무 높아지지 않도록 sub-question의 최대 개수에는 제한을 두고 있다.

4.2 Analyze Stage

각 sub-question에 대해서 rationale을 작성한 뒤에, LLM에게 에러가 있을 수도 있으니 고쳐달라고 요청을 한다. 그 뒤에 수정된 rationale과 원래 질문과의 관련도를 숫자로 표현한다. 숫자로 표현하기 위해서는 LLM에게 알려달라고 하거나, voting이나 분류 method를 사용할 수 있다.

4.3 Rethink Stage

인간의 사고방식과 유사하게, 이전 결과를 계속해서 고쳐나갈 수 있다는 장점이 있다. ToT와 같은 기존 방식을은 에러가 한번 발생하면 뒤로 계속해 전파되는데, DeAR은 하위 노드에서 얻어낸 정보를 사용해 상위 노드의 rationale을 업데이트를 한다.

5. Experiments

  • knowledge/multiple/mathematical reasoning을 확인하기 위해 ScienceQA, StrategyQA, GSM8K 데이터셋을 사용한다.
  • Few-shot 프롬프팅, CoT, ToT, GoT, Least-to-most, SelfCheck와도 비교를 한다.
  • ToT보다 성능이 더 좋게 나오는 것은 Decompose의 효과를 입증한다. (ToT는 브랜치를 정해진 수만큼만 확장하다.)
  • GoT보다 성능이 더 좋게 나오는 것은 Rethink의 효과를 입증한다.
  • 다른 데이터셋보다 GSM8K에서 성능 향상이 더욱 두드러지는데, 더 복잡하고 긴 rationale들이 필요한 것으로 추정한다.
  • Reasoning Tree에 대해서 분석할 때는 tree의 깊이와 너비, 그리고 rationale들의 길이에 대한 평균을 측정한다.
  • 논리적 일관성 (logical coherence)를 측정하기 위해서 Source-Consistency (question - rationale)와 Reasoning-Alignment (ground truth와의 비교)를 사용한다.

6. Conclusion

DeAR 방식은 인간의 추론 방식과 유사하게 복잡한 문제를 해결하고자 한다. Decompose-Analyze-Rethink 사이클을 반복하면서 생성-평가-수정을 통해 정확도를 높인다.

 

논문 링크 : 
https://openreview.net/forum?id=NPKZF1WDjZ
728x90
반응형