본문 바로가기

Data Science/Machine Learning9

[Machine Learning] 평가 지표 - 분류(Classification) 분류는 머신러닝의 대표적인 기법 중 하나이다. 정말 다양한 분류 알고리즘이 있고, 아직 데이터분석을 시작한 지 얼마 안 된 초보자 입장이지만, 현재까지 웬만한 문제들은 분류 알고리즘 기반으로 풀렸다. 그러나 머신러닝 모델링을 했어도 모델의 성능을 측정할 수 없다면 아무 쓸모가 없을 것이다. 실제 테스트 데이터에 대해서 잘 작동하는지 평가를 해봐야 할 것이다. 일반적으로 평가를 한다면 정확도를 가지고 평가를 할 테지만, 분류에서는 다른 측정 방법들을 사용한다. 분류에서 정확도를 맹신하지 않는 이유는 나중에 정리하여 포스팅하겠다. 분류에서 이 평가를 하는 방법이 존재한다. 1. 오차 행렬 (confusion matrix) 첫 번째는 바로 오차 행렬이다. 오차 행렬은 실제 값과 예측 값을 비교하여 잘못 비교된.. 2023. 2. 7.
[Machine Learning] 손실 함수 (loss function) 머신러닝에서 모델 학습을 시키면 평가지표로써 손실 함수가 등장한다. 손실 함수의 값은 모델이 실제값에 대해서 얼마나 잘 예측했냐를 판가름하는 좋은 지표가 된다. 손실 함수의 값이 작아지면 작아질수록, 모델은 더욱더 예측을 잘하게 된다. 따라서 머신러닝에서 성능을 향상시키기 위해 손실함수를 최소화시키는 방안을 찾게 된다. 손실 함수는 측정 방법에 따라 여러 가지가 존재하게 된다. 사용하는 함수는 각 함수의 특성에 따라 상황에 적절한 함수를 사용한다. 1. MSE (Mean Squared Error) 이름에서 알 수 있듯이 평균제곱오차이다. MSE는 가장 기본적이고 간단한 손실 함수이다. 손실함수의 값은 전체 데이터셋에 대해서 실제값과 예측값의 차이를 제곱한 후 평균을 낸 값이다. 통계학에서의 분산과 비슷한.. 2023. 1. 31.
[Machine Learning] 분류 알고리즘 머신러닝 알고리즘 중에서 분류는 직관적이면서 가장 기초적인 알고리즘이다. 분류로 해결할 수 있는 대표적인 문제들을 예로 들자면, 타이타닉 데이터셋으로부터 생존자 예측하기 (생존 or 사망) 고객들의 금융 데이터셋으로부터 대출 가능 여부 예측하기 (가능 or 불가능) 1~10까지의 숫자 이미지가 들어있는 MNIST 데이터셋으로부터 해당 숫자가 몇인지 분류하기 이처럼 데이터셋으로부터 특징들을 파악하여 모델을 학습시키고, 분류 결과를 도출해낸다. 분류 알고리즘은 어떤 것들이 있을까? 아래는 머신러닝에서 주로 사용하는 알고리즘들이다. 1. Logistic Regression (로지스틱 회귀모형) 첫 번째로 자주 사용하는 분류 모델은 Logistic Regression이다. 이름에 회귀라는 말이 들어가있어서 처음.. 2023. 1. 29.
[Machine Learning] 지도 학습 vs 비지도 학습 vs 강화 학습 머신러닝을 공부하다 보면 쉽게 지도 학습, 비지도 학습, 강화 학습과 같은 말들을 찾아볼 수 있다. 이름만 얼핏 들으면 지도 학습과 비지도 학습은 서로 반대되는 개념이고, 강화 학습은 점점 학습으로 인해 알고리즘이 강화되어가는 느낌이 든다. 하지만 나는 '지도'라는 단어 자체의 뜻이 헷갈렸다. 지도 학습에서의 지도는 다음과 같다. 지도(Supervised) : 어떤 목적이나 방향으로 가르쳐 이끌어 가는 것. 처음에 나는 어떤 지도(Map)가 있어서 그 방향으로 학습을 진행해나간다는 뜻인줄 알았지만, 누군가가 이끌어준다는 뜻의 지도였다. 지도 학습, 비지도 학습, 강화 학습 간의 차이는 다음과 같다. 1. 지도 학습(Supervised Learning) 지도 학습은 정답이 있는 데이터(labelled da.. 2023. 1. 19.