본문 바로가기
728x90

분류 전체보기111

[논문 리뷰] Toolformer: Language Models Can Teach Themselves to Use Tools 0. AbstractLanguage Model이 여러 task에서 뛰어난 성능을 보이지만 (특히 Scale-up할 수록), 비교적 간단한 사칙 연산이나 factual lookup을 어려워하는 것을 확인할 수 있다. 해당 논문에서는 이를 해결하기 위해서 LM이 외부 tool들을 사용하는 방법을 학습시킬 수 있음을 보여준다.Toolformer라는 모델을 소개하는데, 어떤 API를 언제 사용할지, 어떤 argument를 전달할지, 호출 결과를 어떻게 합칠지를 학습한다. Self-supervised이기 때문에 API마다 몇개의 예제만 작성해주면 된다.비교적 간단한 방법으로 여러 downstream task에서 좋은 성능을 보이며, 더 큰 모델과 성능이 비슷하고 가장 핵심인 language modeling 능력도.. 2024. 12. 31.
Augmented Language Models: a Survey 0. Abstract해당 survey에서는 1) 추론 능력(reasoning skills)과 2) 외부 tool을 쓰는 능력이 향상된 **Augmented Language Models (ALMs)**를 다룬다. 추론 능력의 향상은 복잡한 문제를 여러 개의 단순한 문제로 쪼개는 것으로 정의되고, 외부 tool은 code interpreter와 같은 외부 모듈을 호출하는 것이다.ALMs은 기존의 Language Models(LMs)보다 많은 벤치마크에 대해 높은 성능을 보인다.1. IntroductionLLM을 통해 NLP에서 많은 발전이 있었지만 (ex. Copilot, 구글 검색엔진, ChatGPT), 여러 한계점들이 존재한다.사실이 아니지만 그럴싸한 예측을 내는 것 (non-factual but pla.. 2024. 12. 30.
A Survey of Large Language Models 0. Abstract언어를 이해하고 생성하기 위해서 여러 단계의 모델 구조들이 있었다. 파라미터 수를 늘리다 보니 기존 모델에서는 존재하지 않았던 능력들이 발현되는 것을 보고, LLM이라는 새로운 용어를 사용하기 시작했다. 해당 survey에서는 LLM의 4가지 중요한 측면, ① pre-training, ② adaptation tuning, ③ utilization, ④ capacity evaluation를 다룬다.1. IntroductionLanguage Modeling은 크게 4가지 단계통계 언어 모델 (SLM, Statistical language model) → 신경 언어 모델 (NLM, Neural language model)→ 사전 훈련된 언어 모델 (PLM, Pre-trained langua.. 2024. 12. 26.
[논문 리뷰] Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach (PlugIR) 0. Abstract이 논문에서 제안한 PlugIR은 dialogue 형태로 interactive한 Image Retrieval task를 수행한다. LLM을 활용하기 위해서 2가지 방법을 사용한다. 첫번째는 기존에 존재하는 retrieval model를 파인튜닝할 필요를 없애기 위해 미리 reformulation 과정을 거치는 것이다. 두번째는 LLM questioner를 통해 target image와 관련이 있고, 기존의 질문들과 중복되지 않는 질문을 생성한다.  그리고 해당 논문에서는 interactive retrieval system을 보다 효과적으로 평가할 수 있는 Best log Rank Integral(BRI)를 소개한다.  1. IntroductionText-to-image retrieva.. 2024. 12. 24.
[ML] 선형 모델 정규화 (Regularization) 오버피팅을 줄이기 위해서 모델이 가지고 있는 파라미터/자유도를 고정(제한)하는 방법을 사용할 수 있다. 선형 모델에 대해서는 주로 사용되는 방법이 모델이 가지는 가중치(weight)를 제한하는 방식을 사용한다. 크게 3가지의 방법이 존재한다. ① Ridge ② Lasso ③ Elastic Net * 3가지 방법들을 적용하기 전에 중요한 것은 StandardScaler와 같은 Scaler를 사용하는 전처리 과정이 있어야 정규화의 효과가 더 좋아진다는 것1) Ridge Regression (L2 Regularization)Ridge Regression(a.k.a Tikhonov 정규화)은 linear regression에 다음과 같은 regularization term을 더하는 것이다.$\alpha$값이 의.. 2024. 9. 8.
[ML] 오차/오류의 종류 머신러닝 모델이 설정한 가설의 오류는 크게 두가지로 구분할 수 있다.1. Empirical Error (Training Error, 경험적 오차)2. Generalization Error (Test Error, 일반화 오) 1. Empirical ErrorEmpirical Error는 Training 데이터셋 내부에서 발생하는 오차를 말한다. 즉, 모델이 이미 한번 본 데이터에 대해서 예측을 했을 때 실제 값과의 차이를 말해준다. 보통의 경우 Training 과정에서 Empirical Error 값을 줄이기 위해 파라미터를 조정한다.  2. Generalization ErrorGeneralization Error는 모델이 한번도 보지 못한 데이터에 대해서 예측 값과 실제 값의 차이를 말한다. 주로 Tes.. 2024. 9. 6.
반응형