본문 바로가기
머신러닝&딥러닝

[ML] 지도학습의 분류와 회귀 개념 정리

by IT 정복가 2023. 8. 30.
728x90

지도학습은 입력과 출력 샘플 데이터가 있고, 주어진 입력으로부터 출력을 예측하고자 할 때 사용한다. 

이런 입력/출력 샘플 데이터, 즉 훈련 세트로부터 머신러닝 모델을 만든다.

 

분류

분류는 미리 정의된 가능성이 있는 여러 클래스 레이블 중 하나를 예측하는 것이다.

  • 이진 분류: 딱 두개의 클래스로 분류
  • 다중 분류: 셋 이상의 클래스로 분류

이진 분류는 질문의 답이 예/아니오만 나올 수 있도록 하는 것이라고 생각할 수 있다.

이메일에서 스팸을 분류하는 것이 이진 분류 문제의 한 예이다.

이 경우 예/아니오 대답에 대한 질문은 "이 이메일이 스팸인가요?"이다.

 

붓꽃데이터 같은 경우다중 분류에 속한다.

다른 예로 웹 사이트의 글로부터 어떤 언어의 웹 사이트인지를 예측하는 것이 있다.

 


회귀

회귀는 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(실수)를 예측하는 것이다.

어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것이 회귀 문제의 한 예이다.

 


정리...

출력 값에 연속성이 있는지 질문해보면 회귀와 분류 문제를 쉽게 구분할 수 있다.

예상 출력 값 사이에 연속성이 있다면 회귀 문제이다. 

연소득을 예측하는 경우 1년에 40,000,000원 또는 40,000,001원을 벌 수 있다. 

그 양은 분명 다르지만 큰 차이는 없기때문에 크게 문제가 되지 않는다.

 

반대로 웹사이트가 어떤 언어로 되어 있는지 인식하는 작업에는 어느 정도란 것이 없다.

즉 웹사이트 언어는 한 언어가 아니면 다른 언어이다.

언어들 사이에는 어떤 연속성도 없다.

https://opentutorials.org/module/4916/28942

 

728x90