본문 바로가기

컴퓨터/IT3

[EDA Practice] EDA란? EDA(Explanatory Data Analysis, 탐색적 데이터 분석) : 통계 그래픽 및 기타 데이터 시각화 방법을 사용하여 주요 특성을 요약하기 위해 데이터 세트를 분석하는 접근 방식 처음 원본 데이터를 보면 무엇부터 시작해야 할지 막막하다. 원본 데이터는 생각보다 난잡하기 때문에, 데이터를 보자마자 바로 분석 기법을 정하고 데이터 분석에 들어가는 사람은 없을 것이다. 데이터 분석에 들어가기 앞서서, 어떤 특성(column)이 중요한 특성인지, 특성들끼리의 관계는 어떤지, 데이터의 분포는 어떤지 등등 데이터를 이해하며 인사이트를 얻는 과정이 필요하다. 데이터에 대한 이해를 잘할수록, 즉 EDA를 잘할수록 데이터 분석 프로젝트를 더 수월하게, 그리고 더 좋은 분석 결과물을 얻어낼 수 있을 거라는 .. 2023. 1. 20.
[Machine Learning] 지도 학습 vs 비지도 학습 vs 강화 학습 머신러닝을 공부하다 보면 쉽게 지도 학습, 비지도 학습, 강화 학습과 같은 말들을 찾아볼 수 있다. 이름만 얼핏 들으면 지도 학습과 비지도 학습은 서로 반대되는 개념이고, 강화 학습은 점점 학습으로 인해 알고리즘이 강화되어가는 느낌이 든다. 하지만 나는 '지도'라는 단어 자체의 뜻이 헷갈렸다. 지도 학습에서의 지도는 다음과 같다. 지도(Supervised) : 어떤 목적이나 방향으로 가르쳐 이끌어 가는 것. 처음에 나는 어떤 지도(Map)가 있어서 그 방향으로 학습을 진행해나간다는 뜻인줄 알았지만, 누군가가 이끌어준다는 뜻의 지도였다. 지도 학습, 비지도 학습, 강화 학습 간의 차이는 다음과 같다. 1. 지도 학습(Supervised Learning) 지도 학습은 정답이 있는 데이터(labelled da.. 2023. 1. 19.
[Machine Learning] scikit-learn에 대하여 scikit-learn은 파이썬의 대표적인 머신러닝 패키지이다. 오픈소스 라이브러리이기 때문에 당연히 사용자도 많고 그만큼 관련 글도 쉽게 찾아볼 수 있다. 현재 시점으로, 가장 최근 버전인 1.2.0은 release date가 2022/12/08일 정도로 버전 업데이트도 자주 되는 편이다. 사이킷런 공식 홈페이지: https://scikit-learn.org/ 사이킷런 웹페이지에서 API를 누르면 다양한 라이브러리들을 볼 수 있다. 카테고리 별로 회귀, 분류, SVM, 클러스터링 등 머신러닝 기법부터 측정 지표에 관한 함수들까지 그 양이 매우 방대하다. 또한 공식문서의 API에 파라미터들부터 시작해서 활용할 수 있는 method들, 사용 예시까지 자세히 적혀있기 때문에 상당히 편리하고 친절하다. 사이킷.. 2023. 1. 18.