본문 바로가기

사이킷런2

[Machine Learning] 데이터 전처리(1) - 결측치 처리(2) [Machine Learning] 데이터 전처리(1) - 결측치 처리(1) 데이터 분석을 하기 위해서 데이터의 전처리는 필수적이다. 데이터들을 수집해서 나온 가공되지 않은 데이터는 분석을 바로 할 수가 없는 상태이다. (결측치의 존재, 이상치의 존재, 여러 데이 insighted-h.tistory.com 앞에서 결측치 처리 방법으로 크게 3가지 방법을 학습하였다. 그래서 실제로 얼마나 유의미한 차이가 있을까? 앞에서의 3가지 방법을 다음 데이터셋에 적용해서 비교해보았다. https://www.kaggle.com/c/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 위 데이터셋은 승객들이 정상적으로 다른 차원의 공간으로 보내졌을지(보내졌다면 True.. 2023. 6. 26.
[Machine Learning] scikit-learn에 대하여 scikit-learn은 파이썬의 대표적인 머신러닝 패키지이다. 오픈소스 라이브러리이기 때문에 당연히 사용자도 많고 그만큼 관련 글도 쉽게 찾아볼 수 있다. 현재 시점으로, 가장 최근 버전인 1.2.0은 release date가 2022/12/08일 정도로 버전 업데이트도 자주 되는 편이다. 사이킷런 공식 홈페이지: https://scikit-learn.org/ 사이킷런 웹페이지에서 API를 누르면 다양한 라이브러리들을 볼 수 있다. 카테고리 별로 회귀, 분류, SVM, 클러스터링 등 머신러닝 기법부터 측정 지표에 관한 함수들까지 그 양이 매우 방대하다. 또한 공식문서의 API에 파라미터들부터 시작해서 활용할 수 있는 method들, 사용 예시까지 자세히 적혀있기 때문에 상당히 편리하고 친절하다. 사이킷.. 2023. 1. 18.