본문 바로가기
728x90

전체 글89

[ML] 데이터셋 준비 이번 글의 목차는 다음과 같다.- Test Set 만들기- Data Visualization - 상관관계 발견하기- 데이터 전처리 ◆ Test Set 만들기머신러닝 모델의 성능을 평가하기 위해서 train-test (주로 train-validation-test) 방식을 사용한다. 전체 데이터셋을 train용과 test 용으로 분리할 때 가장 단순한 방법은 랜덤하게 뽑는 것이다. 이 방법은 데이터셋이 충분히 크다면 대부분 괜찮지만, 그렇지 않다면 sampling bias가 발생할 수 있다.  ex) 전체 인구의 남녀 비율이 48.9:51.1이고 1000명을 sampling해야 할 때, 약 10.7%의 확률로 해당 여성 sample의 비율이 48.5% 이하이거나 53.5% 이상으로 test set이 편향(s.. 2024. 8. 13.
[선형대수] 내적 (Dot Product) 내적(Dot Product)를 수치적으로 보면, 같은 차원의 두 벡터에서 같은 좌표의 값들을 짝지어 곱한 뒤 모두 더해주는 것이다. $$\begin{bmatrix} {\color{Red} 2} \\ {\color{Blue} 7} \\ {\color{Green} 1} \end{bmatrix} \cdot   \begin{bmatrix} {\color{Red} 8} \\ {\color{Blue} 2} \\ {\color{Green} 8} \end{bmatrix} = {\color{Red} 2} \cdot {\color{Red} 8}  + {\color{Blue} 7} \cdot  {\color{Blue} 2} + {\color{Green} 1} \cdot {\color{Green} 8}$$ 왼쪽 벡터와 오른쪽.. 2024. 8. 5.
[선형대수] 역행렬, 열공간, 계수, 영공간 키워드: 역행렬(Inverse Matrix), 열공간(Column Space), 계수(Rank), 영공간(Null Space) 이 개념들은 미지수인 변수들의 목록과 변수들과 관련된 방정식의 리스트를 표현하는 방정식계의 해를 찾을 때 사용할 수 있다. 특히, 변수에는 상수만 곱해져있고 각 변수들끼리는 더해지기만 하는 선형 방정식계 (linear system of equations)의 상황에서 유용하다.\begin{align*} 2x + 5y + 3z &= -3 \\ 4x + 0y + 8z &= 0 \\ 1x + 3y+ 0z &= 2 \end{align*}위와 같은 방정식계는 행렬-벡터 곱셈의 형식으로 표현할 수 있다.$$ \begin{bmatrix} 2 & 5 & 3 \\ 4 & 0 & 8 \\ 1 & 3.. 2024. 8. 4.
[논문 리뷰] A Generalist Agent (Gato) 0. AbstractLLM(Large-scale Language Modeling)에서 영감을 얻은 Gato는 동일한 네트워크와 동일한 weight로,multi-modal (이미지, 텍스트, 음성과 같이 여러 형식의 데이터 처리 가능),multi-task (다양한 과제 수행 가능),multi-embodiment (로봇처럼 실제로 물리적으로 구현이 필요한 과제)를 모두 수행 가능한 generalist agent이다.  1. Introduction모든 과제에 대해서 하나의 neural sequence 모델을 사용하는 것에는 많은 장점이 있다. 각 과제마다 직접 policy model을 설정하지 않아도 되고, flat sequence로 만들 수 있는 데이터라면 학습에 모두 넣을 수도 있다. 하나의 큰 trans.. 2024. 8. 1.
[논문 리뷰] Attention Is All You Need (Transformer) 0. Abstract시퀀스 데이터(예: 시간에 따라 변화하는 데이터, 텍스트 데이터 등)를 다루는 기존의 모델은 대부분 encoder와 decoder를 가지는 RNN(Recurrent Neural Network, 순환 신경망)나 CNN(Convolutional Neural Network, 합성곱 신경망)이었다. 그리고 성능이 좋은 모델들은 Attention 기법을 사용해서 encodder와 decoder를 연결시켰다. 이 논문에서는 RNN과 CNN과는 달리, 순수하게 Attention 기법만을 사용한 새로운 아키텍쳐 Transformer를 소개한다.  1. IntroductionSequence modeling이나 특정 데이터셋 안에서 학습하는 Transductive 문제(언어 모델, 번역 )에 대해서는 .. 2024. 7. 29.
[DL] Label Smoothing (라벨 스무딩) 기법 Label Smoothing (라벨 스무딩)은 딥러닝 모델의 Overfitting을 줄이는 정규화 기법 중 하나입니다. 개요라벨 스무딩은 Classification 문제에서 모델이 더 부드러운 확률 분포를 가지게 합니다. 모델의 일반화 성능을 향상됨에 따라, clustering과 같은 기법에서 넓게 분포된 요소들의 거리를 줄여서 더 tight한 그룹으로 만들어냅니다. Label Smoothing 작동 방식라벨 스무딩은 원래 0 또는 1을 가지던 기존 값을 0.05, 0.95처럼 조금 더 부드러운 값으로 조정합니다. 라벨 스무딩의 수학적 표현은 다음과 같습니다.\[  y_{smooth} = (1 - \varepsilon )\cdot y_{one-hot} + \varepsilon / K \]$y_{smoot.. 2024. 7. 28.
반응형