본문 바로가기

Confusion matrix2

[Machine Learning] 데이터 전처리(2) - Imbalanced class(1) 데이터 전처리(1): https://insighted-h.tistory.com/16 [Machine Learning] 데이터 전처리(1) - 결측치 처리(1) 데이터 분석을 하기 위해서 데이터의 전처리는 필수적이다. 데이터들을 수집해서 나온 가공되지 않은 데이터는 분석을 바로 할 수가 없는 상태이다. (결측치의 존재, 이상치의 존재, 여러 데이 insighted-h.tistory.com 이전 포스팅에서는 결측치를 다루는 방법에 대해서 알아보았다. 현실 데이터에서는 우리가 예측하고자 하는 클래스가 불균형할 때가 흔하다. 대표적인 예로 다음과 같은 상황이 있다. 신용카드 사기 탐지: 신용카드 거래에서 사기 거래는 정상적인 거래에 비해 매우 드문 케이스 스팸 메일 분류하기: 스팸 메일 vs 정상 메일 불량품 .. 2023. 8. 18.
[Machine Learning] 평가 지표 - 분류(Classification) 분류는 머신러닝의 대표적인 기법 중 하나이다. 정말 다양한 분류 알고리즘이 있고, 아직 데이터분석을 시작한 지 얼마 안 된 초보자 입장이지만, 현재까지 웬만한 문제들은 분류 알고리즘 기반으로 풀렸다. 그러나 머신러닝 모델링을 했어도 모델의 성능을 측정할 수 없다면 아무 쓸모가 없을 것이다. 실제 테스트 데이터에 대해서 잘 작동하는지 평가를 해봐야 할 것이다. 일반적으로 평가를 한다면 정확도를 가지고 평가를 할 테지만, 분류에서는 다른 측정 방법들을 사용한다. 분류에서 정확도를 맹신하지 않는 이유는 나중에 정리하여 포스팅하겠다. 분류에서 이 평가를 하는 방법이 존재한다. 1. 오차 행렬 (confusion matrix) 첫 번째는 바로 오차 행렬이다. 오차 행렬은 실제 값과 예측 값을 비교하여 잘못 비교된.. 2023. 2. 7.