728x90 AI/Paper Review25 Augmented Language Models: a Survey 0. Abstract해당 survey에서는 1) 추론 능력(reasoning skills)과 2) 외부 tool을 쓰는 능력이 향상된 **Augmented Language Models (ALMs)**를 다룬다. 추론 능력의 향상은 복잡한 문제를 여러 개의 단순한 문제로 쪼개는 것으로 정의되고, 외부 tool은 code interpreter와 같은 외부 모듈을 호출하는 것이다.ALMs은 기존의 Language Models(LMs)보다 많은 벤치마크에 대해 높은 성능을 보인다.1. IntroductionLLM을 통해 NLP에서 많은 발전이 있었지만 (ex. Copilot, 구글 검색엔진, ChatGPT), 여러 한계점들이 존재한다.사실이 아니지만 그럴싸한 예측을 내는 것 (non-factual but pla.. 2024. 12. 30. A Survey of Large Language Models 0. Abstract언어를 이해하고 생성하기 위해서 여러 단계의 모델 구조들이 있었다. 파라미터 수를 늘리다 보니 기존 모델에서는 존재하지 않았던 능력들이 발현되는 것을 보고, LLM이라는 새로운 용어를 사용하기 시작했다. 해당 survey에서는 LLM의 4가지 중요한 측면, ① pre-training, ② adaptation tuning, ③ utilization, ④ capacity evaluation를 다룬다.1. IntroductionLanguage Modeling은 크게 4가지 단계통계 언어 모델 (SLM, Statistical language model) → 신경 언어 모델 (NLM, Neural language model)→ 사전 훈련된 언어 모델 (PLM, Pre-trained langua.. 2024. 12. 26. [논문 리뷰] Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach (PlugIR) 0. Abstract이 논문에서 제안한 PlugIR은 dialogue 형태로 interactive한 Image Retrieval task를 수행한다. LLM을 활용하기 위해서 2가지 방법을 사용한다. 첫번째는 기존에 존재하는 retrieval model를 파인튜닝할 필요를 없애기 위해 미리 reformulation 과정을 거치는 것이다. 두번째는 LLM questioner를 통해 target image와 관련이 있고, 기존의 질문들과 중복되지 않는 질문을 생성한다. 그리고 해당 논문에서는 interactive retrieval system을 보다 효과적으로 평가할 수 있는 Best log Rank Integral(BRI)를 소개한다. 1. IntroductionText-to-image retrieva.. 2024. 12. 24. [논문 리뷰] ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) 0. Abstract흔히 AlexNet으로 불리는 이 모델은 ILSVRC-2012 (ImageNet Large Scale Visual Recognition Challenge)에 우승을 한 모델이다. top-5 error는 15.3%로 2등을 한 모델(26.2%)과 차이가 크게 벌어졌다. 간략하게 모델에 대해서 설명하자면, 약 6000만개의 학습 가능한 파라미터가 있고 65만개의 뉴런이 있으며, 총 8개의 layer(5개의 convolutional layer와 3개의 fully-connected layer)가 있다. 오버피팅을 줄이기 위해서 fully-connected layer에는 당시에 새롭게 나왔던 드롭아웃 기법을 활용한다. 1. IntroductionMNIST처럼 간단한 object recognit.. 2024. 9. 2. [논문 리뷰] A Generalist Agent (Gato) 0. AbstractLLM(Large-scale Language Modeling)에서 영감을 얻은 Gato는 동일한 네트워크와 동일한 weight로,multi-modal (이미지, 텍스트, 음성과 같이 여러 형식의 데이터 처리 가능),multi-task (다양한 과제 수행 가능),multi-embodiment (로봇처럼 실제로 물리적으로 구현이 필요한 과제)를 모두 수행 가능한 generalist agent이다. 1. Introduction모든 과제에 대해서 하나의 neural sequence 모델을 사용하는 것에는 많은 장점이 있다. 각 과제마다 직접 policy model을 설정하지 않아도 되고, flat sequence로 만들 수 있는 데이터라면 학습에 모두 넣을 수도 있다. 하나의 큰 trans.. 2024. 8. 1. [논문 리뷰] Attention Is All You Need (Transformer) 0. Abstract시퀀스 데이터(예: 시간에 따라 변화하는 데이터, 텍스트 데이터 등)를 다루는 기존의 모델은 대부분 encoder와 decoder를 가지는 RNN(Recurrent Neural Network, 순환 신경망)나 CNN(Convolutional Neural Network, 합성곱 신경망)이었다. 그리고 성능이 좋은 모델들은 Attention 기법을 사용해서 encodder와 decoder를 연결시켰다. 이 논문에서는 RNN과 CNN과는 달리, 순수하게 Attention 기법만을 사용한 새로운 아키텍쳐 Transformer를 소개한다. 1. IntroductionSequence modeling이나 특정 데이터셋 안에서 학습하는 Transductive 문제(언어 모델, 번역 )에 대해서는 .. 2024. 7. 29. 이전 1 2 3 4 5 다음 반응형