본문 바로가기
AI/Paper Review

[논문 리뷰] Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions

by hyeok1235 2025. 1. 15.

핵심 : Retrieval을 한번 하는 것이 아니라, CoT 과정마다 지금까지 generate된 결과와 retrieve한 내용을 바탕으로 retrieve를 진행한다.

0. Abstract

multi-step QA(Question Answering)에는 질문을 보고 retrieve를 한번하는 방식은 부족할 수 있다. 해당 논문에서는 IRCoT, Retrieval과 CoT를 섞는 방식을 소개한다. CoT를 진행하면서 어떤 것을 Retrieve할지 더 잘 판단할 수 있고, Retreival을 통해 CoT의 정확도 또한 높일 수 있다.

1. Introduction

CoT 자체로도 답변 정확도가 올라가지만, Open-domain의 질문에 답변을 하기에는 정보가 없거나 업데이트가 안되어 부정확한 정보를 사용하는 경우가 발생한다. 이를 해결하기 위해 one-shot retrieval을 사용하는게 기존 방식이었다. 하지만 복잡하고 multi-step의 추론이 필요할 때는 부분적으로 추론한 뒤에 부분적으로 retrieve하는 과정을 반복하는게 정확하다.

이러한 직관을 바탕으로, 해당 논문에서는 Chain-of-Thought의 reasoning step과 retrieval을 섞는 방식인 IRCoT를 소개한다. reasoning을 통해 retrieval 과정에 도움을 주고, retrieval을 통해 reasoning 과정에도 도움을 주는 것이다. IRCoT를 통해 retrieval과 QA에 있어서 성능과 정확도를 높였다는것이 contribution이다.

2. Related Work

Prompting for Open-Domain QA

  • 프롬프팅을 통해 단계를 나눠 추론을 할 수는 있으나 Open-domain QA에서 큰 효과는 발견되지 않았다.
  • 하나의 질문을 여러개의 sub-question이나 sub-task로 분해하는 방식들도 있으나, CoT를 사용하지 않으며, retrieval과는 관련이 없다.
  • ReAct는 reasoning step과 action step을 나눠서 사용하지만, 모델이 상대적으로 크고 Open-domain QA를 위해서는 finetuning이 필요하다는 단점이 있다.

Supervised Multi-Step Open-Domain QA

Open-domain QA를 위해 반복적으로 retrieval하는 시도들은 supervised 방식으로 진행되었다. 특히 데이터셋이 커야 되기 때문에 few-shot 환경으로 확장하기 어렵다.

3. Chain-of-Thought-Guided Retrieval and Open-Domain QA

retrieve-read 패러다임을 사용한다. IRCoT에서는 retrieve 부분에서 새로운 접근을 하고, read 부분에서는 기존 프롬프팅 방식을 사용한다. IRCoT는 크게 3가지 구성요소로 나눌 수 있다.

① Base Retriever : query를 바탕으로 corpus나 외부 지식에서 단락들을 들고오는 역할

② Language Model : zero/few-shot CoT가 가능한 모델

③ 작은 수의 예시들 : 질문에 대답하기 위해 필요했던 reasoning step들과 대응하는 paragraph들.

 

IRCoT의 동작 방식은 다음과 같다.

→ Query를 참고해서 필요한 document들 retrieve.

→ query와 document들을 바탕으로 CoT 다음 step의 문장 생성.

→ 생성된 문장을 바탕으로 다시 retrieve.

→ Query, retrieve 되었던 document들, 생성된 CoT의 thought들 사용해서 CoT 다음 step의 문장 생성.

→ 종료 조건이 만족될 때까지 반복

4. Experimental Setup

4개의 multi-step QA 데이터셋을 사용했다. retriever는 BM25를 사용했고, QA reader의 경우 reasoning 단계에서 사용된 LM을 동일하게 사용한다.

IRCoT retriever의 hyperparameter로는 몇개의 paragraph를 들고 올지 설정하는 것만 있다.

5. Results

IRCoT는 few-shot multi-step ODQA에서 SOTA를 달성했으며, 다음과 같은 사실을 결과에서 확인할 수 있다.

  • IRCoT retrieval 방식이 한번 retrieve하는 것보다 좋다.
  • IRCoT QA 능력도 다른 방식보다 좋다.
  • OOD 환경(다른 데이터셋)에서도 효과적이다, generalization이 좋다.
  • 일반 CoT보다 hallucination이 적다.
  • IRCoT는 작은 모델에서도 성능 향상을 보인다.

6. Conclusion

IRCoT는 Retrieval과 CoT를 섞음으로써 retrieval과 QA 성능을 향상시킨다. 모델 크기와 상관없이 가능하게 했으며, 일반 CoT보다 factual error를 감소시켰다.

7. Limitations

base LM이 zero/few-shot CoT 능력이 있어야 하고, retrieve한 정보를 담을 수 있는 토큰 수에 의해서도 제약이 생긴다. 지금은 문장마다 retrieve했다면, 추후에는 동적으로 언제 retrieve할지 판단하는 능력에 대해 집중할 수 있다.

 

논문 링크 : 
https://arxiv.org/abs/2212.10509
728x90
반응형