본문 바로가기

728x90

AI39

[논문 리뷰] Steering Llama 2 via Contrastive Activation Addition 핵심 : 원하는 행동(behavior)의 프롬프트와 그 반대 행동의 프롬프트는 activation에서 차이가 난다. 그 둘을 빼서 steering vector로 사용하면 원하는 행동을 더 강화하거나 약화할 수 있다.0. Abstract해당 연구에서는 Contrastive Activation Addition(CAA)라는 방식을 소개한다. 긍정적인 input과 부정적인 input에 대해 residual stream activation의 차이값을 활용하여 유저의 프롬프트에 대해 language model을 조정할 수 있다. 파인튜닝이나 시스템 프롬프트 디자인보다 더 효과적임을 보인다. 또한, 추상적인 레벨의 컨셉들이 LLM에서 어떻게 표현되는지 엿볼 수 있다.1. IntroductionLLM의 성능이 좋아질수.. 2025. 2. 12.

[논문 리뷰] Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting 핵심 : CoT는 그럴싸해보이지만 정확하지 않은 경우도 있고, 모델의 실제 reasoning path가 아닐 수도 있다.0. AbstractChain-of-Thought (CoT) 방식을 사용하면서 모델이 추론하는 과정을 볼 수 있게 되었다. 하지만 CoT 설명들은 모델이 실제로 추론 과정의 실제 이유가 아닐 수도 있다. bias에 의해 영향을 많이 받는데, 오답을 합리화하는 설명을 생성할 수 있기 때문이다. bias가 추가됐을 때 그럴싸한 설명은 생성하지만 정확도는 떨어지는 양상은, CoT와 LLM 자체에 대한 신뢰성을 떨어트린다.1. IntroductionCoT 프롬프팅은 정확한 추론과정과 정확한 답을 내면서 여러 task에 대해 성능이 높아졌다. 하지만 그럴싸해 보이고 정확한 답변 자체도, 실제로 .. 2025. 2. 11.

[논문 리뷰] Towards Understanding Sycophancy in Language Models 핵심 : Sycophancy의 유형을 설명하며, 발생하는 원인인 human feedback의 구조에 대해서 설명한다.0. Abstract파인튜닝을 하는 과정에서 보통 human feedback을 사용한다. 하지만 human feedback을 사용하면 실제 사실보다 user belief를 선호하는 sycophancy의 경향을 증가시킬 수도 있다. human preference의 영향을 이해하기 위해 SOTA AI assistant들과 데이터셋을 확인한다. 응답이 user의 관점에 부합하는 것을 더 선호하며, 인간과 preference model들 또한 실제 사실을 담은 응답보다 설득력 있게 작성된 sycophantic 응답들을 더 선호하는 것을 보인다.1. IntroductionGPT-4와 같은 AI as.. 2025. 2. 7.

[논문 리뷰] Active Retrieval Augmented Generation (FLARE) 핵심 : 언제, 무엇을 retrieve할지 스스로 판단하는 RAG 0. AbstractLLM에서 부족한 부분을 Retrieval을 통해 보완하고자 RAG(Retrieve-and-Generate)가 나왔지만, 기존 RAG는 생성 전에 한번만 문서들을 가져온다. 이는 긴 텍스트를 생성하면서 여러번 문서들을 가져와야 되는 작업에는 부적절하다. 따라서 해당 연구에서는 Forward-Looking Active REtrieal augmented Generation (FLARE)을 소개한다. 생성 과정에서 언제, 어떤 것을 retrieve할지 스스로 결정하는 방식으로, retrieve할 때는 생성될 문장을 미리 본 다음에 불확실한 부분에 대한 정보를 가져온다.1. IntroductionLLM이 학습한 데이터만으로 대.. 2025. 2. 4.

[논문 리뷰] Large Language Models Cannot Self-Correct Reasoning Yet 핵심 : LLM이 만든 결과물을 동일한 LLM이 평가하고 더 개선시키는 것(Self-Correction)에는 한계가 있다.0. Abstract비록 LLM의 성능이 좋아졌지만, 생성 결과에 대한 정확도가 다소 떨어지는 경우도 존재한다. 이걸 해결하기 위해서 현재는 self-correction을 사용하지만, LLM이 자체적으로 수정하는 intrinsic self-correction은 실제로 효과가 없거나 한계가 있다는 점을 비판적으로 접근한다. (심지어 성능이 더 떨어지는 경우도 존재한다)1. IntroductionLLM이 처음 생성한 결과를 다시 수정했을 때 향상된다는 주장에서 근본적으로 나오는 질문은 “수정할 능력이 있으면 애초에 처음부터 잘하면 되지 않을까?”이다. 해당 논문에서는 모델의 내부 지식만을.. 2025. 1. 24.

[논문 리뷰] Decompose, Analyze and Rethink: Solving Intricate Problems with Human-like Reasoning Cycle 핵심 : 질문을 잘게 쪼개서 해결했을 때 얻는 정보를 활용해서 기존 답안을 수정한다.0. Abstract기존의 방식들은 단순하게 정보를 확장하거나 탐색을 했다면, 해당 논문에서 소개하는 DeAR 방식은 tree 형태로 문제를 쪼개고, 각 step마다 얻은 정보를 바탕으로 기존에 잘못 알고 있던 부분들은 업데이트한다. 정확도와 추론 시간에 있어서 ToT나 GoT보다 낫다1. IntroductionToT처럼 tree 형태로 전개하다보면, 구조가 유연하지 못하고 상위 branch에서 에러가 발생하면 그 에러가 계속해서 전파된다. 그리고 branch 개수가 정해져있으면 논리과정이 정확하지 못하거나 중복이 생길 수도 있다. 해당 논문에서는 **DeAR (Decompose-Analyze-Rethink)**라는 새로.. 2025. 1. 23.

이전 1 2 3 4 5 ··· 7 다음

티스토리툴바