본문 바로가기

728x90

전체 글113

AI agent vs. Agentic AI AI 에이전트 (AI Agents)- 모듈형 구조: 독립적인 구성 요소들로 이루어진 시스템 - 특정 태스크 전용: 명확하게 정의된 특정 작업에 특화 - LLM + 도구: LLM과 외부 도구들을 활용하여 작동- 단일 에이전트 중심: 개별적으로 작동하는 시스템 에이전틱 AI (Agentic AI)- 멀티 에이전트 협업: 여러 AI 에이전트들이 함께 협력하여 작업 - 동적 태스크 분해: 복잡한 작업을 상황에 따라 유연하게 나누어 처리 - Orchestrated 자율성: 각 에이전트가 자율적으로 동작하지만 전체적으로 조율됨 - 패러다임의 전환: 단일 에이전트에서 다중 에이전트 시스템으로의 발전 Paper 링크 : https://arxiv.org/abs/2505.10468 2025. 5. 28.

[논문 리뷰] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs 핵심 : Verification, Backtracking, Subgoal Setting, Backward Chaining 속성들이 강화학습을 더 효과적으로 만든다.0. Abstractlanguage model들이 복잡한 문제에서는 더 길게 생각을 하는 test-time inference는 성능을 높이는 효과적인 방법으로 입증되었다. 강화학습의 경우에는 self-improvement를 유도하는 효과를 보이는데, 어떤 모델들은 성능이 많이 좋아지고 어떤 모델들은 빠르게 정체되는 모습도 확인할 수 있었다. (e.g. Qwen이 Llama보다 훨씬 좋은 성능을 보인다)이러한 차이를 보이게 하는 이유를 4가지 인지 행동(Cognitive Behavior)을 기준으로 하여 분석한다.Verification = 검증B.. 2025. 5. 19.

[논문 리뷰] LLM Critics Help Catch LLM Bugs (CriticGPT) 핵심 : RLHF으로 학습하고 일부러 error를 넣는 tampering 과정을 거친 CriticGPT 모델은 버그를 잘 잡아낸다.0. AbstractRLHF는 결국 인간이 해야 한다는 점에서 양적으로나 질적으로나 제한이 된다. 따라서, 이 연구에서는 ‘Critic’ 모델 자체를 RLHF로 학습시켜 극복하고자 한다. 실제로 ChatGPT를 훈련시키는데 사용된 데이터 중에, 오류가 없다고 평가된 것들에서도 많은 오류를 발견하였다. 또한, 63%의 경우에 대해서 인간이 평가한 것보다 모델이 평가한 것을 선호하는 것도 확인하였다. LLM만으로는 hallucination이 발생하기도 하지만, human-machine이 같이 작업을 했을 때는 hallucination이 줄어들었다.1. IntroductionAI에.. 2025. 4. 6.

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning 핵심 : verbal한 피드백을 생성하고 저장하여, 여러 번 반복하는 과정을 통해 성능을 개선한다.0. AbstractLLM이 외부환경과 많이 상호작용하지만, 환경에 빠르게 적응하는 것은 쉽지 않다. 기존의 강화학습 같은 경우에는 많은 training sample이 필요하거나 파인튜닝을 해야만 했다. 해당 연구에서는 이러한 한계를 극복하는 Reflexion이라는 방법을 제안한다. weight을 업데이트하는 것이 아니라 언어로 된 피드백을 제공하는 방식으로, 메모리 버퍼에 reflective한 텍스트들을 저장하여 이후 행동들에 반영을 한다.1. IntroductionLLM의 능력을 바탕으로 decision-making agent들이 만들어졌다. 하지만 수많은 파라미터를 모두 조정할 수 는 없기 때문에, a.. 2025. 3. 7.

[논문 리뷰] Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models 핵심 : Backtracking하는 과정을 학습시켜 LLM의 성능을 높인다.0. Abstractslow-thinking mechanism을 LLM에 적용하는 방법은 Level 2 AGI Reasoner에 한층 가깝게 한다. 하지만 overthinking과 외부 모델의 과의존하는 문제가 존재한다. 이를 해결하기 위해서는 탐색하는 과정을 내재화해야 되고, 이는 backtracking을 통해 가능해진다고 해당 논문은 주장한다. self-backtracking을 통해 LLM이 train과정과 inference 과정에서 backtracking할 수 있도록 한다. slow-thinking을 fast-thinking으로 내재화하여 추론 능력이 크게 향상되는 것뿐만이 아니라 효율성도 높일 수 있었다.1. Introdu.. 2025. 2. 28.

Pruning (가지치기 기법) 배경 : 모델의 모든 파라미터들이 추론에 동일한 영향을 미치지 않는다.→ 상대적으로 중요하지 않은 뉴런들은 제거하여 모델의 파라미터를 줄인다.즉, 성능이 크게 저하되지 않는 선에서 weight들을 최대한 sparse하게 (대부분의 값이 0이도록) 만드는 방법이 Pruning이다. 설정해야 하는 것Pruning Granularity : 그룹을 지어서 pruning 할 것인지, 각 요소를 pruning 할 것인지Pruning Criteria : threshold를 설정해서 얼마나 작은 weight들을 pruning할 것인지Pruning Schedule : 학습을 한 다음에 pruning을 할 수 있듯이, 언제&얼마나&어떻게 pruning할 것인지 Sensitivity Analysis어떠한 weight나 la.. 2025. 2. 18.

이전 1 2 3 4 ··· 19 다음

티스토리툴바