본문 바로가기

머신러닝&딥러닝4

[ML] 일반화, 과대 적합, 과소 적합 지도 학습에서는 훈련 데이터로 학습한 모델이 훈련 데이터와 특성이 같다면 처음 보는 새로운 데이터가 주어져도 정확히 예측할 거라 기대한다. 모델이 처음보는 데이터에 대해 정확하게 예측할 수 있으면 훈련세트에서 테스트 세트로 일반화 되었다고 한다. 그래서 모델을 만들 때는 가능한 정확하게 일반화되도록 해야 한다. 과대적합(Overfitting) 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하 너무 상세하고 복잡한 모델링을 하여 훈련데이터에만 과도하게 정확히 동작하는 모델 과소적합(Underfitting) 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않는 모델 해결방법 주어진 훈련 데이터의 다양성 보장 → 다양한 .. 2023. 9. 15.
[ML] 지도학습의 분류와 회귀 개념 정리 지도학습은 입력과 출력 샘플 데이터가 있고, 주어진 입력으로부터 출력을 예측하고자 할 때 사용한다. 이런 입력/출력 샘플 데이터, 즉 훈련 세트로부터 머신러닝 모델을 만든다. 분류 분류는 미리 정의된 가능성이 있는 여러 클래스 레이블 중 하나를 예측하는 것이다. 이진 분류: 딱 두개의 클래스로 분류 다중 분류: 셋 이상의 클래스로 분류 이진 분류는 질문의 답이 예/아니오만 나올 수 있도록 하는 것이라고 생각할 수 있다. 이메일에서 스팸을 분류하는 것이 이진 분류 문제의 한 예이다. 이 경우 예/아니오 대답에 대한 질문은 "이 이메일이 스팸인가요?"이다. 붓꽃데이터 같은 경우는 다중 분류에 속한다. 다른 예로 웹 사이트의 글로부터 어떤 언어의 웹 사이트인지를 예측하는 것이 있다. 회귀 회귀는 연속적인 숫자.. 2023. 8. 30.
[ML] 붓꽃 데이터로 알아보는 머신러닝 붓꽃 데이터는 붓꽃의 꽃잎, 꽃받침의 폭과 길이를 센티미터 단위로 측정한 것과 setosa, versicolor, virginica 종으로 분류한 데이터도 가지고 있다. 이 값들을 가지고 붓꽃이 어떤 품종인지 구분해 보자. ※ 붓꽃의 품종을 정확하게 분류한 데이터를 가지고 있으므로 이 문제는 지도학습에 속한다. 또한, 몇 가지 선택사항 중 하나를 선택하는 문제이므로 분류 문제에 해당한다. 1. 데이터 적재 이 데이터는 사이킷런의 datasets 모듈에 포함되어 있다. load_iris 함수를 사용해서 데이터를 적재할 수 있다. #붓꽃 데이터 예제 import numpy as np import pandas as pd import matplotlib.pyplot as plt.. 2023. 8. 30.
[ML] NumPy, SciPy, matplotlib, pandas 개념 정리 scikit-learn은 파이썬 과락 라이브러리인 numPy와 SciPy를 기반으로 만들었다. scikit-learn을 잘 활용할 수 있도록 NumPy, SciPy, matplotlib, pandas, mglearn들의 개념을 알아보자. NumPy 넘파이는 다차원 배열을 위한 기능과 선형 대수 연산과 푸리에 변환같은 고수준 수학 함수와 유사 난수 생성기를 포함한다. 사용 다차원 배열을 위한 기능 선형 대수 연산 푸리에 변환 고수준 수학 함수와 유사 난수 생성기 scikit-learn에서 넘파이 배열은 기본 데이터 구조이다. scikit-learn은 넘파이 배열 형태의 데이터를 입력으로 받는다. 그렇기 때문에 우리가 사용할 데이터는 모두 넘파이 배열로 변환되어야 한다. NumPy의 핵심 기능 다차원(n-차.. 2023. 8. 27.