데이터의 양
충분하지 않은 양의 훈련 데이터로 모델을 학습할 경우, 일반적으로 성능이 떨어진다.
Example
그 예시로 아주 복잡한 음성 인식 태스크의 경우를 보면 아래와 같다.
Microsoft 연구자 Michele Banko와 Eric Brill은 2001년 한 논문에서 충분한 데이터가 주어지면 아주 간단한 모델을 포함한 머신러닝 알고리즘이 복잡한 자연어 중의성 해소 문제를 거의 비슷하게 잘 처리한다는 사실을 보여주었다.
시간과 돈이 소요되는 알고리즘 개발과 말뭉치(copus) 개발 사이의 trade-off, 알고리즘 대비 데이터의 중요성을 시사한다.
데이터의 대표성
어떠한 태스크를 수행하기 위해 머신러닝 모델을 학습 할 때에는 그 태스크에 대한 데이터를 대표할 수 있는 데이터로 학습해야 한다.
대표성이 없는 훈련 데이터로 학습할 경우, 모델의 일반화 성능이 저하된다.
Example
GDP에 따른 삶은 만족도를 예측하는 Task가 있다고 가정해보자.
위 그림과 같이 국한된 범위($23,500 < GDP < $62,500)의 데이터만 놓고 본다면 대표성이 없다고 할 수 있다.
이 데이터만을 학습할 경우, 파란 점선과 같이 회귀선이 형성되어, 다른 새로운 데이터에 대해 예측 성능이 떨어지는 것을 볼 수 있다.
이와 같은 경우를 샘플링 편향(Sampling bias)라고 부른다.
데이터 정제(전처리)의 중요성
오류, 이상치, 결측치, 잡음이 많은 데이터로 모델을 학습시킨다면 당연히 모델의 성능은 저하될 수 밖에 없다.
따라서 모델을 학습하기 전, 데이터 정제(전처리) 과정과 적절한 특성(feature)를 사용하는 것은 매우 중요하다!
특성 공학(Feature engineering)
적절한 특성(feature)들을 찾는 과정
- feature selection (특성 선택): 갖고 있는 feature들 중, 유용한 것들만 선택
- feature extraction (특성 추출): feature들을 결합해, 더 유용한 feature를 추출
'Data Science > 핸즈온 머신러닝' 카테고리의 다른 글
[핸즈온 머신러닝] 학습 방식에 따른 머신러닝: 지도 학습, 비지도 학습, 준지도 학습, 자기지도 학습, 강화 학습 (0) | 2025.03.11 |
---|