핵심 : reason과 action(검색, 가상의 공간에서의 행동)을 둘 다 수행함으로써 시너지 효과를 얻음
0. Abstract
Reasoning(추론, e.g. CoT 프롬프팅)과 acting(e.g. action plan generation)은 별개의 주제로 다뤄졌으나, 해당 논문에서는 2개를 합침으로써 시너지 효과를 발생시키는 ReAct라는 모델을 소개한다. Reasoning traces를 통해 모델이 action plan을 더 잘 설계하고 업데이트하고, action을 통해 추가적인 정보를 얻기 때문이다.
> Reasoning (Question Answering, Fact Verification tasks) : CoT의 문제인 hallucination이나 error propagation에서 더 나은 모습을 보임
> Acting (ALFWorld, WebShop benchmarks) : imitation이나 Reinforcement Learning에 비해 작은 수의 example 만으로 더 좋은 성능을 보임
1. Introduction
인간의 경우 : task를 진행하는 과정에서 추론을 할 때 문장(in language)으로 생각한다.
기존 Reasoning alone 방식 : 내부 지식만으로는 부족해서 hallucination이 발생하거나, error가 발생하면 다음 단계들은 모두 틀리게 되는 error propagation 문제가 존재한다.
기존 Acting alone 방식 : 추론 능력이 없어서 high-level 목표를 다루지 못하거나 메모리가 없어서 action에 제약이 존재한다.
ReAct 방식의 강점
① Reason → Act : 추론 능력을 통해서 더 나은 action plan을 수립하고 실행할 수 있다. high-level의 action plan도 관리할 수 있다.
② Act → Reason : 외부 환경과 상호작용하면서 reasoning에 도움이 되는 추가적인 정보를 가져온다.
2. ReAct : Synergizing Reasoning + Acting
t 시점에서의 action $a_{t}$는 어떠한 policy π($a_{t}$|$c_{t}$)에 의해서 결정된다. 여기서 condition으로 주어진 $c_{t}$는 context로 $c_{t} = (o_{1}, a_{1} , …, o_{t-1}, a_{t-1}, o_{t})$와 동일하다. ct 하나에서 at를 추출해내는 것은 연산이 많이 필요할 뿐더러, 정확도도 낮아진다.
그래서 ReAct는 $\hat{a}_{t}$, thought나 reasoning trace의 역할을 하는 요소를 추가한다. context를 바탕으로 추론한 내용이며 새로운 context를 업데이트하는데 사용된다.
language space는 엄청 크기 때문에 LLM의 파라미터는 고정해놓고, task의 유형에 따라서 action에 맞게 thought을 생성한다.
3. Knowledge-Intensive Reasoning Tasks
먼저 첫번째 task 유형인, knowledge-intesive reasoning task에는 Question Answering과 Fact Verfication이 있다. Wikipedia API를 사용해서 reasoning을 돕고 어떤 action을 취할지(무엇을 retrieve할지)를 정하게 된다.
- HotpotQA와 FEVER 데이터셋 사용
- Wikipedia web API는 search, lookup, finish 3가지 사용
Baseline은 (a) Standard 프롬프팅, (b) Chain-of-Thought 프롬프팅, (c) Acting-only 프롬프팅 3가지이다. CoT가 추론하는 구조/형식을 만드는 것을 다 잘했으나, hallucination의 경향성이 존재했다. 따라서 ReAct와 CoT를 번갈아가면서 사용하는 heuristic을 사용하는게 가장 좋다. (ReAct가 정답을 잘 못내릴 때는 CoT로, CoT만으로는 확실하고 일관성 있는 답변을 내리지 못하면 ReAct로 이동)
ReAct-only는 추론에 도움이 되지 않는 정보 탐색을 해서 모델의 성능을 떨어트리게 된다.
4. Decision Making Tasks
interactive한 decision-making tasks(ALFWorld와 WebShop)에 대해서 실험한다. 복잡하고 방대한 range에 reward가 드물게 있기 때문에 추론을 통해 효율적으로 탐색하는 것이 중요하다.
ReAct는 goal을 세분화할 수 있고, 환경에 대해서 현재 state를 잘 유지하기 때문에 Act-only보다 월등히 좋은 성능을 보인다.
유사한 연구 중 하나는 Inner Monologue(IM)로, 현재 환경에 대한 관찰과 goal에 대해서 보는 모델이다. 하지만 ReAct의 reasoning traces는 더 유연하고, goal을 세분화하여 더 넓게 볼 수 있다는 점에서 차별점이 있다. IM은 외부 환경에 대한 단순한 feedback이라면, ReAct는 더 복잡한 internal reasoning을 사용한다.
5. Related Work
Language model for reasoning : LLM의 추론 능력과 관련된 연구는 주로 CoT와 그의 파생 연구들이다.
Language model for decision making : LLM의 강력한 능력 중 하나는 decision making이다. 특히 동적인 환경과 상호작용하는 것이다.
6. Conclusion
ReAct 모델은 LLM에서 reasoning과 acting을 합쳐 시너지 효과를 낸다. 높은 성능과 함께 reasoning traces로 더 interpretable하다. 단순한 예시만으로도 학습을 잘하기 때문에, 더 복잡하거나 multi-task의 경우로도 scale-up이 가능하다.
논문 링크:
https://arxiv.org/abs/2210.03629
'AI > Paper Review' 카테고리의 다른 글
[논문 리뷰] Retrieval-Augmented Generation for Large Language Models: A Survey (0) | 2025.01.06 |
---|---|
[논문 리뷰] Self-Refine: Iterative Refinement with Self-Feedback (2) | 2025.01.03 |
[논문 리뷰] Toolformer: Language Models Can Teach Themselves to Use Tools (0) | 2024.12.31 |
Augmented Language Models: a Survey (1) | 2024.12.30 |
A Survey of Large Language Models (2) | 2024.12.26 |