본문 바로가기
728x90

Reasoning3

[논문 리뷰] Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models 핵심 : Backtracking하는 과정을 학습시켜 LLM의 성능을 높인다.0. Abstractslow-thinking mechanism을 LLM에 적용하는 방법은 Level 2 AGI Reasoner에 한층 가깝게 한다. 하지만 overthinking과 외부 모델의 과의존하는 문제가 존재한다. 이를 해결하기 위해서는 탐색하는 과정을 내재화해야 되고, 이는 backtracking을 통해 가능해진다고 해당 논문은 주장한다. self-backtracking을 통해 LLM이 train과정과 inference 과정에서 backtracking할 수 있도록 한다. slow-thinking을 fast-thinking으로 내재화하여 추론 능력이 크게 향상되는 것뿐만이 아니라 효율성도 높일 수 있었다.1. Introdu.. 2025. 2. 28.
[논문 리뷰] Large Language Models Cannot Self-Correct Reasoning Yet 핵심 : LLM이 만든 결과물을 동일한 LLM이 평가하고 더 개선시키는 것(Self-Correction)에는 한계가 있다.0. Abstract비록 LLM의 성능이 좋아졌지만, 생성 결과에 대한 정확도가 다소 떨어지는 경우도 존재한다. 이걸 해결하기 위해서 현재는 self-correction을 사용하지만, LLM이 자체적으로 수정하는 intrinsic self-correction은 실제로 효과가 없거나 한계가 있다는 점을 비판적으로 접근한다. (심지어 성능이 더 떨어지는 경우도 존재한다)1. IntroductionLLM이 처음 생성한 결과를 다시 수정했을 때 향상된다는 주장에서 근본적으로 나오는 질문은 “수정할 능력이 있으면 애초에 처음부터 잘하면 되지 않을까?”이다. 해당 논문에서는 모델의 내부 지식만을.. 2025. 1. 24.
[논문 리뷰] SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning 핵심 : step-by-step 추론 과정에서 각 step을 새롭게 생성하고 원래 생성된 결과와 비교함으로써 에러를 검출하고자 한다.0. AbstractCoT와 같은 기법으로 LLM이 단계별 추론이 가능해졌다. 하지만 단순하고 선형적인 추론이 아닌 더 복잡한 문제에서는 성능이 좋은 LLM들도 실수를 한다. 따라서 단계별 추론에서 실수했는지 확인하는 과정을 추가한 SelfCheck라는 새로운 방식을 소개한다. SelfCheck의 checking 과정에서 생성된 여러 개의 답변들 중에서 weighted voting을 통해 성능을 향상시킨다.1. IntroductionCoT처럼 단계별로 추론을 했을 때, 하나의 단계에서 실수를 할 확률은 낮지만 최소 한 개의 실수를 할 확률은 높아서 최종 답변을 잘 못하는 것.. 2025. 1. 20.
반응형