본문 바로가기
728x90

분류 전체보기115

[ML] 분류 (Classification) 분류(Classification)은 지도학습(Supervised Learning)의 대표적인 유형 중 하나로 클래스를 예측한다.(다른 유형은 값을 예측하는 회귀, Regression이다) 분류에는 여러 유형이 존재한다.- Binary Classifier : 가장 단순한 유형으로, 특정 클래스에 속하는지 아닌지만을 판단한다. (숫자 5인지 아닌지)- Multi-Class : 2개 이상의 클래스가 주어질 때, 어떤 클래스에 속하는지를 판단한다. (0~9 중 어떤 숫자인지)- Multi-Label : 하나의 요소가 여러 개의 라벨을 가지는 상황일 때 사용된다. (여러 인물이 있는 사진이 주어졌을 때, 어떤 인물이 나와있는지 각 라벨마다 True/False 값을 가짐)- Multi-Ouput : Multi-La.. 2024. 8. 16.
[ML] 모델 파인튜닝 가장 적합해보이는 모델 후보들을 여러개 선택했다면, 더 좋은 성능을 위해서 모델을 파인튜닝하는 과정을 거쳐야 한다. * 파인튜닝 (Fine-tuning) = 사전에 학습된 모델에 새로운 데이터를 훈련시켜 전이학습을 진행하는 방법 1. Grid SearchGrid Search는 어떤 hyperparameter들을 어떤 값들로 조정할지 정하면, cross-validation을 사용해서 모든 경우의 성능을 확인하는 기법이다.  # Grid Search 코드 예시from sklearn.model_selection import GridSearchCVfull_pipeline = Pipeline([ ("preprocessing", preprocessing), ("random_forest", RandomFo.. 2024. 8. 14.
[ML] 데이터셋 준비 이번 글의 목차는 다음과 같다.- Test Set 만들기- Data Visualization - 상관관계 발견하기- 데이터 전처리 ◆ Test Set 만들기머신러닝 모델의 성능을 평가하기 위해서 train-test (주로 train-validation-test) 방식을 사용한다. 전체 데이터셋을 train용과 test 용으로 분리할 때 가장 단순한 방법은 랜덤하게 뽑는 것이다. 이 방법은 데이터셋이 충분히 크다면 대부분 괜찮지만, 그렇지 않다면 sampling bias가 발생할 수 있다.  ex) 전체 인구의 남녀 비율이 48.9:51.1이고 1000명을 sampling해야 할 때, 약 10.7%의 확률로 해당 여성 sample의 비율이 48.5% 이하이거나 53.5% 이상으로 test set이 편향(s.. 2024. 8. 13.
[선형대수] 내적 (Dot Product) 내적(Dot Product)를 수치적으로 보면, 같은 차원의 두 벡터에서 같은 좌표의 값들을 짝지어 곱한 뒤 모두 더해주는 것이다. $$\begin{bmatrix} {\color{Red} 2} \\ {\color{Blue} 7} \\ {\color{Green} 1} \end{bmatrix} \cdot   \begin{bmatrix} {\color{Red} 8} \\ {\color{Blue} 2} \\ {\color{Green} 8} \end{bmatrix} = {\color{Red} 2} \cdot {\color{Red} 8}  + {\color{Blue} 7} \cdot  {\color{Blue} 2} + {\color{Green} 1} \cdot {\color{Green} 8}$$ 왼쪽 벡터와 오른쪽.. 2024. 8. 5.
[선형대수] 역행렬, 열공간, 계수, 영공간 키워드: 역행렬(Inverse Matrix), 열공간(Column Space), 계수(Rank), 영공간(Null Space) 이 개념들은 미지수인 변수들의 목록과 변수들과 관련된 방정식의 리스트를 표현하는 방정식계의 해를 찾을 때 사용할 수 있다. 특히, 변수에는 상수만 곱해져있고 각 변수들끼리는 더해지기만 하는 선형 방정식계 (linear system of equations)의 상황에서 유용하다.\begin{align*} 2x + 5y + 3z &= -3 \\ 4x + 0y + 8z &= 0 \\ 1x + 3y+ 0z &= 2 \end{align*}위와 같은 방정식계는 행렬-벡터 곱셈의 형식으로 표현할 수 있다.$$ \begin{bmatrix} 2 & 5 & 3 \\ 4 & 0 & 8 \\ 1 & 3.. 2024. 8. 4.
[논문 리뷰] A Generalist Agent (Gato) 0. AbstractLLM(Large-scale Language Modeling)에서 영감을 얻은 Gato는 동일한 네트워크와 동일한 weight로,multi-modal (이미지, 텍스트, 음성과 같이 여러 형식의 데이터 처리 가능),multi-task (다양한 과제 수행 가능),multi-embodiment (로봇처럼 실제로 물리적으로 구현이 필요한 과제)를 모두 수행 가능한 generalist agent이다.  1. Introduction모든 과제에 대해서 하나의 neural sequence 모델을 사용하는 것에는 많은 장점이 있다. 각 과제마다 직접 policy model을 설정하지 않아도 되고, flat sequence로 만들 수 있는 데이터라면 학습에 모두 넣을 수도 있다. 하나의 큰 trans.. 2024. 8. 1.
반응형