728x90
지도학습은 입력과 출력 샘플 데이터가 있고, 주어진 입력으로부터 출력을 예측하고자 할 때 사용한다.
이런 입력/출력 샘플 데이터, 즉 훈련 세트로부터 머신러닝 모델을 만든다.
분류
분류는 미리 정의된 가능성이 있는 여러 클래스 레이블 중 하나를 예측하는 것이다.
- 이진 분류: 딱 두개의 클래스로 분류
- 다중 분류: 셋 이상의 클래스로 분류
이진 분류는 질문의 답이 예/아니오만 나올 수 있도록 하는 것이라고 생각할 수 있다.
이메일에서 스팸을 분류하는 것이 이진 분류 문제의 한 예이다.
이 경우 예/아니오 대답에 대한 질문은 "이 이메일이 스팸인가요?"이다.
붓꽃데이터 같은 경우는 다중 분류에 속한다.
다른 예로 웹 사이트의 글로부터 어떤 언어의 웹 사이트인지를 예측하는 것이 있다.
회귀
회귀는 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(실수)를 예측하는 것이다.
어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것이 회귀 문제의 한 예이다.
정리...
출력 값에 연속성이 있는지 질문해보면 회귀와 분류 문제를 쉽게 구분할 수 있다.
예상 출력 값 사이에 연속성이 있다면 회귀 문제이다.
연소득을 예측하는 경우 1년에 40,000,000원 또는 40,000,001원을 벌 수 있다.
그 양은 분명 다르지만 큰 차이는 없기때문에 크게 문제가 되지 않는다.
반대로 웹사이트가 어떤 언어로 되어 있는지 인식하는 작업에는 어느 정도란 것이 없다.
즉 웹사이트 언어는 한 언어가 아니면 다른 언어이다.
언어들 사이에는 어떤 연속성도 없다.
728x90
'머신러닝&딥러닝' 카테고리의 다른 글
[ML] 일반화, 과대 적합, 과소 적합 (0) | 2023.09.15 |
---|---|
[ML] 붓꽃 데이터로 알아보는 머신러닝 (0) | 2023.08.30 |
[ML] NumPy, SciPy, matplotlib, pandas 개념 정리 (0) | 2023.08.27 |