본문 바로가기
728x90

AI/ML10

[ML] 모델의 평가와 검증 (Test, Evaluation) 모델이 새로운 데이터에 대해서 제대로 작동하는지 알기 위해서는 실제로 새로운 데이터에 대해서 작동시켜보아야 합니다. 배포를 하기 전에 새로운 데이터에 대한 정확도를 평가하기 위해서는,가지고 있는 데이터셋을 Training Set과 Test Set으로 나누어야 합니다. Training Set을 사용해서 모델을 학습시킨 다음에 Test Set에서 시험을 한번 해보는 것입니다.  새로운 데이터들에 대해서 발생하는 오차 값은 Generalization Error (out-of-sample error)라고 부르며, 이 값이 낮을수록 모델이 새로운 데이터에 대해서도 성능이 좋다는 것을 의미합니다. 만약 training error(Training Set에 대한 오류)는 낮은데 generalization error가 .. 2024. 7. 26.
[ML] 머신 러닝의 성능 저하 요인 이번 글에서는 머신 러닝의 성능을 저하시킬 수 있는 요인들, 머신 러닝의 Main Challenges에 대해서 설명하겠습니다. 문제가 될 수 있는 요인들은 크게 두가지로, 1) Bad Data와 2) Bad Model입니다. 1) Bad Data먼저 다룰 상황은, 주어진 데이터셋이 문제를 가지고 있는 경우입니다.- 부족한 Training 데이터의 양인간과 달리 머신 러닝은 제대로 작동하기 위해서 많은 양의 데이터가 필요합니다. 단순한 문제를 해결하기 위해서도 1000개 이상의 데이터가 필요한 경우가 대부분이고, 이미지, 음성 분석과 같이 문제가 복잡해질 수록 필요한 양의 데이터는 매우 커집니다.  또한 2009년에 발표된 논문 에서는 모델이 어떻게 설계되었는지에 따라서 성능의 차이가 있지만, 데이터의 .. 2024. 7. 24.
[ML] 머신 러닝 유형 머신 러닝은 크게 3가지의 기준으로 분류를 할 수 있습니다. 각 기준에 따라 머신 러닝의 특징을 붙일 수 있습니다. 1. Supervision 유형 기준2. 실시간으로 새롭게 들어오는 데이터 접근 방식3. 모델의 추론 방식  1) Training Supervision학습 과정에서 머신 러닝 시스템이 어떻게 관리되는지에 따라 다르게 구분할 수 있습니다.  - Supervised Learning (지도학습)알고리즘에 문제와 정답(라벨)을 모두 제공하는 것은 지도학습에 속하게 됩니다. 지도학습을 사용하는 대표적인 경우는 1) 어떠한 카테고리에 속하는지를 결정하는 classification 문제와, 2) 주어진 특징(features)들을 바탕으로 값을 추론해내는 regression 문제가 있습니다. * 값을 기.. 2024. 7. 23.
[ML] 머신 러닝 소개 머신러닝 정의Machine learning is the science (and art) of programming computers so they can learn from data.머신 러닝은 컴퓨터가 데이터로부터 학습할 수 있게 만드는 것입니다. 머신 러닝을 활용한 대표적인 예시로 스팸 필터가 있습니다.스팸 필터를 만약 머신러닝 없이 하드코딩한다면 스팸에 자주 나오는 단어들을 찾아보고 규칙을 정의해서 필터링하게 해야 합니다. 이 경우에는 만약 스팸에 기존의 스팸 메일에 자주 나왔던 키워드들이 변형되면(스팸 메일을 보내는 사람이 규칙을 알아채거나, 사용되는 단어의 트렌드가 바뀔 수도 있기 때문), 규칙을 일일이 업데이트해야 되기 때문에 비효율적이고 어렵습니다 하지만 머신 러닝은 스스로 데이터를 보고 학.. 2024. 7. 21.
반응형