본문 바로가기

Data Science14

[Machine Learning] 데이터 전처리(2) - Imbalanced class(2) 데이터 전처리(2): https://insighted-h.tistory.com/20 [Machine Learning] 데이터 전처리(2) - Imbalanced class(1) 데이터 전처리(1): https://insighted-h.tistory.com/16 [Machine Learning] 데이터 전처리(1) - 결측치 처리(1) 데이터 분석을 하기 위해서 데이터의 전처리는 필수적이다. 데이터들을 수집해서 나온 가공되지 않 insighted-h.tistory.com 이전 포스팅에서 imbalanced class 문제를 해결하는 이론적 방법에 대해서 알아보았다. 이번 포스팅에서는 실제 데이터를 가지고 방법에 따라 과연 어느 정도 효과가 있는지 알아보려고 한다. Credit Card Fraud Detec.. 2023. 8. 19.
[Machine Learning] 데이터 전처리(2) - Imbalanced class(1) 데이터 전처리(1): https://insighted-h.tistory.com/16 [Machine Learning] 데이터 전처리(1) - 결측치 처리(1) 데이터 분석을 하기 위해서 데이터의 전처리는 필수적이다. 데이터들을 수집해서 나온 가공되지 않은 데이터는 분석을 바로 할 수가 없는 상태이다. (결측치의 존재, 이상치의 존재, 여러 데이 insighted-h.tistory.com 이전 포스팅에서는 결측치를 다루는 방법에 대해서 알아보았다. 현실 데이터에서는 우리가 예측하고자 하는 클래스가 불균형할 때가 흔하다. 대표적인 예로 다음과 같은 상황이 있다. 신용카드 사기 탐지: 신용카드 거래에서 사기 거래는 정상적인 거래에 비해 매우 드문 케이스 스팸 메일 분류하기: 스팸 메일 vs 정상 메일 불량품 .. 2023. 8. 18.
[Machine Learning] 데이터 전처리(1) - 결측치 처리(2) [Machine Learning] 데이터 전처리(1) - 결측치 처리(1) 데이터 분석을 하기 위해서 데이터의 전처리는 필수적이다. 데이터들을 수집해서 나온 가공되지 않은 데이터는 분석을 바로 할 수가 없는 상태이다. (결측치의 존재, 이상치의 존재, 여러 데이 insighted-h.tistory.com 앞에서 결측치 처리 방법으로 크게 3가지 방법을 학습하였다. 그래서 실제로 얼마나 유의미한 차이가 있을까? 앞에서의 3가지 방법을 다음 데이터셋에 적용해서 비교해보았다. https://www.kaggle.com/c/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 위 데이터셋은 승객들이 정상적으로 다른 차원의 공간으로 보내졌을지(보내졌다면 True.. 2023. 6. 26.
[EDA Practice] Seaborn 설정 (rc) 데이터 시각화에 대해서 더 공부하다가 rc 설정을 알게 되었다. rc 설정은 사용자가 그래프 스타일을 커스터마이징할 수 있도록 하는 파라미터이다. 지금까지는 시각화를 위해서 적절한 그래프와 데이터를 선택했다면 rc 설정은 그래프 자체에 대한 스타일을 설정하여 결과적으로 가독성을 높여준다. sns.axes_style()을 통해 현재 그래프 스타일 설정을 확인해볼 수 있다. import seaborn as sns sns.axes_style() => {'axes.facecolor': '#EAEAF2', 'axes.edgecolor': 'white', 'axes.grid': True, 'axes.axisbelow': True, 'axes.labelcolor': '.15', 'figure.facecolor': '.. 2023. 6. 23.