본문 바로가기
728x90

AI/Paper Review24

[논문 리뷰] Dense Passage Retrieval for Open-Domain Question Answering 핵심 : Dense embedding을 사용해서 semantic한 정보를 더 많이 포착하고자 하는 Retrieval System0. AbstractOpen-domain Question Answering의 핵심은 효율적이고 좋은 context(passage, information)을 retrieve하는 것이다. 기존의 방법들은 Sparse 벡터 모델들을 사용했다. (e.g. TF-IDF, BM25, 단어의 사용 횟수를 바탕으로 표현) 해당 논문에서는 dense 벡터 모델을 사용하는 **Dense Passage Retrieval(DPR)**을 소개한다. simple dual-encoder 구조로 학습하며, 적은 수의 question-passage 쌍만을 필요로 하는 장점이 있다.1. Introduction기.. 2025. 1. 8.
[논문 리뷰] Retrieval-Augmented Generation for Large Language Models: A Survey 핵심 : RAG 패러다임의 변화와 구조, Retriaval, Augmentation, Generation에 대한 설명과 한계점 및 추후 연구되어야 할 방향이 정리된 Survey0. AbstractLLM의 현재 한계에는 Hallucination, 최신 정보 부재, 불투명한 추론 과정 등이 있다. 이를 해결 하기 위해 외부 데이터베이스의 지식을 가져오는 Retrieval-Augmented Generation이 등장하였다. 이 survey에서는 RAG 패러다임의 변화(Naive RAG, Advanced RAG, Modular RAG)부터 RAG를 구성하는 요소들에 대해서 설명한다. 그리고 현재 RAG가 직면하고 있는 한계점들이나 추후 연구될 수 있는 방향에 대해 소개한다.1. IntroductionLLM의 성.. 2025. 1. 6.
[논문 리뷰] Self-Refine: Iterative Refinement with Self-Feedback 핵심 : 동일한 LLM 하나로 생성-피드백-수정 단계를 밟으면서 생성 결과를 발전시킬 수 있다. (ChatGPT와 대화하면서 조금씩 원하는 방향으로 수정하도록 query를 넣어주는 것을 자동화한 느낌)0. Abstract해당 논문에서는 인간이 자신이 쓴 글을 개선하는 방식과 유사하게, LLM이 반복적으로 피드백하고 수정하는 과정을 통해 결과물을 개선하는 Self-Refine 방식을 소개한다. 별도의 학습이 필요하지 않고, 하나의 LLM만으로 generator, feedback provider, refiner의 역할을 모두 수행할 수 있다. 논문에서는 7개의 task에 대해 확인하였으며 GPT-4와 같은 SOTA LLM도 Self-Refine을 통해 더 개선될 수 있다는 것을 보인다.1. Introduct.. 2025. 1. 3.
[논문 리뷰] ReAct: Synergizing Reasoning and Acting in Language Models 핵심 : reason과 action(검색, 가상의 공간에서의 행동)을 둘 다 수행함으로써 시너지 효과를 얻음0. AbstractReasoning(추론, e.g. CoT 프롬프팅)과 acting(e.g. action plan generation)은 별개의 주제로 다뤄졌으나, 해당 논문에서는 2개를 합침으로써 시너지 효과를 발생시키는 ReAct라는 모델을 소개한다. Reasoning traces를 통해 모델이 action plan을 더 잘 설계하고 업데이트하고, action을 통해 추가적인 정보를 얻기 때문이다.> Reasoning (Question Answering, Fact Verification tasks) : CoT의 문제인 hallucination이나 error propagation에서 더 나은 모.. 2025. 1. 2.
[논문 리뷰] Toolformer: Language Models Can Teach Themselves to Use Tools 0. AbstractLanguage Model이 여러 task에서 뛰어난 성능을 보이지만 (특히 Scale-up할 수록), 비교적 간단한 사칙 연산이나 factual lookup을 어려워하는 것을 확인할 수 있다. 해당 논문에서는 이를 해결하기 위해서 LM이 외부 tool들을 사용하는 방법을 학습시킬 수 있음을 보여준다.Toolformer라는 모델을 소개하는데, 어떤 API를 언제 사용할지, 어떤 argument를 전달할지, 호출 결과를 어떻게 합칠지를 학습한다. Self-supervised이기 때문에 API마다 몇개의 예제만 작성해주면 된다.비교적 간단한 방법으로 여러 downstream task에서 좋은 성능을 보이며, 더 큰 모델과 성능이 비슷하고 가장 핵심인 language modeling 능력도.. 2024. 12. 31.
Augmented Language Models: a Survey 0. Abstract해당 survey에서는 1) 추론 능력(reasoning skills)과 2) 외부 tool을 쓰는 능력이 향상된 **Augmented Language Models (ALMs)**를 다룬다. 추론 능력의 향상은 복잡한 문제를 여러 개의 단순한 문제로 쪼개는 것으로 정의되고, 외부 tool은 code interpreter와 같은 외부 모듈을 호출하는 것이다.ALMs은 기존의 Language Models(LMs)보다 많은 벤치마크에 대해 높은 성능을 보인다.1. IntroductionLLM을 통해 NLP에서 많은 발전이 있었지만 (ex. Copilot, 구글 검색엔진, ChatGPT), 여러 한계점들이 존재한다.사실이 아니지만 그럴싸한 예측을 내는 것 (non-factual but pla.. 2024. 12. 30.
반응형