본문 바로가기
728x90

AI16

[ML] 데이터셋 준비 이번 글의 목차는 다음과 같다.- Test Set 만들기- Data Visualization - 상관관계 발견하기- 데이터 전처리 ◆ Test Set 만들기머신러닝 모델의 성능을 평가하기 위해서 train-test (주로 train-validation-test) 방식을 사용한다. 전체 데이터셋을 train용과 test 용으로 분리할 때 가장 단순한 방법은 랜덤하게 뽑는 것이다. 이 방법은 데이터셋이 충분히 크다면 대부분 괜찮지만, 그렇지 않다면 sampling bias가 발생할 수 있다.  ex) 전체 인구의 남녀 비율이 48.9:51.1이고 1000명을 sampling해야 할 때, 약 10.7%의 확률로 해당 여성 sample의 비율이 48.5% 이하이거나 53.5% 이상으로 test set이 편향(s.. 2024. 8. 13.
[논문 리뷰] A Generalist Agent (Gato) 0. AbstractLLM(Large-scale Language Modeling)에서 영감을 얻은 Gato는 동일한 네트워크와 동일한 weight로,multi-modal (이미지, 텍스트, 음성과 같이 여러 형식의 데이터 처리 가능),multi-task (다양한 과제 수행 가능),multi-embodiment (로봇처럼 실제로 물리적으로 구현이 필요한 과제)를 모두 수행 가능한 generalist agent이다.  1. Introduction모든 과제에 대해서 하나의 neural sequence 모델을 사용하는 것에는 많은 장점이 있다. 각 과제마다 직접 policy model을 설정하지 않아도 되고, flat sequence로 만들 수 있는 데이터라면 학습에 모두 넣을 수도 있다. 하나의 큰 trans.. 2024. 8. 1.
[논문 리뷰] Attention Is All You Need (Transformer) 0. Abstract시퀀스 데이터(예: 시간에 따라 변화하는 데이터, 텍스트 데이터 등)를 다루는 기존의 모델은 대부분 encoder와 decoder를 가지는 RNN(Recurrent Neural Network, 순환 신경망)나 CNN(Convolutional Neural Network, 합성곱 신경망)이었다. 그리고 성능이 좋은 모델들은 Attention 기법을 사용해서 encodder와 decoder를 연결시켰다. 이 논문에서는 RNN과 CNN과는 달리, 순수하게 Attention 기법만을 사용한 새로운 아키텍쳐 Transformer를 소개한다.  1. IntroductionSequence modeling이나 특정 데이터셋 안에서 학습하는 Transductive 문제(언어 모델, 번역 )에 대해서는 .. 2024. 7. 29.
[DL] Label Smoothing (라벨 스무딩) 기법 Label Smoothing (라벨 스무딩)은 딥러닝 모델의 Overfitting을 줄이는 정규화 기법 중 하나입니다. 개요라벨 스무딩은 Classification 문제에서 모델이 더 부드러운 확률 분포를 가지게 합니다. 모델의 일반화 성능을 향상됨에 따라, clustering과 같은 기법에서 넓게 분포된 요소들의 거리를 줄여서 더 tight한 그룹으로 만들어냅니다. Label Smoothing 작동 방식라벨 스무딩은 원래 0 또는 1을 가지던 기존 값을 0.05, 0.95처럼 조금 더 부드러운 값으로 조정합니다. 라벨 스무딩의 수학적 표현은 다음과 같습니다.\[  y_{smooth} = (1 - \varepsilon )\cdot y_{one-hot} + \varepsilon / K \]$y_{smoot.. 2024. 7. 28.
[DL] Drop-out (드롭아웃) 기법 Drop-out (드롭아웃)은 딥러닝 모델의 Overfitting을 방지하기 위한 정규화 기법 중 하나입니다.  개요훈련 과정에서는 랜덤하게 뉴런을 선택에서 학습에 제외함으로써 특정 뉴런이 학습 데이터에 Overfitting 되는 것을 방지합니다. 테스트과정에서는 모든 뉴런을 사용하지만, 드롭아웃 과정에서 학습에 제외되었던 비율을 고려하기 위해 각 모델이 만든 예측 값에 weight를 곱해줍니다.  Dropout 작동 방식 왼쪽의 (a)는 드롭아웃을 적용하지 않은 2개의 hidden layer가 있는 Neural Network이고, 오른쪽의 (b)는 드롭아웃을 적용한 Neural Network입니다.  학습 과정드롭아웃이라는 단어에서 알 수 있듯이, 학습 과정에서 뉴런들과 그 연결선들을 랜덤하게 선택해서.. 2024. 7. 27.
[ML] 모델의 평가와 검증 (Test, Evaluation) 모델이 새로운 데이터에 대해서 제대로 작동하는지 알기 위해서는 실제로 새로운 데이터에 대해서 작동시켜보아야 합니다. 배포를 하기 전에 새로운 데이터에 대한 정확도를 평가하기 위해서는,가지고 있는 데이터셋을 Training Set과 Test Set으로 나누어야 합니다. Training Set을 사용해서 모델을 학습시킨 다음에 Test Set에서 시험을 한번 해보는 것입니다.  새로운 데이터들에 대해서 발생하는 오차 값은 Generalization Error (out-of-sample error)라고 부르며, 이 값이 낮을수록 모델이 새로운 데이터에 대해서도 성능이 좋다는 것을 의미합니다. 만약 training error(Training Set에 대한 오류)는 낮은데 generalization error가 .. 2024. 7. 26.
반응형