본문 바로가기

데이터분석6

[Pandas] 판다스 결측치 처리 데이터 분석 전처리에서 가장 중요한 작업 중 하나는 바로 결측치를 처리하는 일이다. 데이터셋에는 결측치가 포함되어 있는 경우가 많은데, 판다스는 결측치 처리를 위해 여러 가지 편리한 함수들을 제공하고 있다. 1. NaN 판다스에서는 결측치를 다음과 같이 NaN으로 표시한다. df = pd.DataFrame( np.random.randn(5, 3), index=["a", "c", "e", "f", "h"], columns=["one", "two", "three"], ) df["four"] = "bar" df["five"] = df["one"] > 0 df => onetwothreefourfive a-0.4058251.266212-0.629770barFalse c0.897918-1.657066-0.66026.. 2023. 6. 19.
[Pandas] 판다스 기본 함수들 판다스에는 Series와 Dataframe에 모두 적용되는 기본 함수들이 있다. 1. head() & tail() head와 tail 메서드는 샘플을 뽑아 보여주는 쉬운 메서드이다. head()는 앞에서부터 n개만큼의 샘플을, tail()은 뒤에서부터 n개만큼의 샘플을 보여준다. 매개변수를 전달하지 않는다면 default 값은 5개이다. 다음은 head()와 tail()의 예시이다. d = {"one": range(20), "two": np.random.randn(20)} df = pd.DataFrame(d) df.head() => onetwo 00-0.262533 111.097868 220.627424 33-0.150713 44-0.656796 df.tail(1) => onetwo 1919-1.3971.. 2023. 2. 3.
[Pandas] 판다스(Pandas)와 데이터 구조 데이터 분석을 할 때 항상 빠지지 않는 삼대장 패키지가 있다. 바로 NumPy, Pandas, Matplotlib이다. 그 중 판다스는 데이터 조작 및 분석 작업을 매우 편리하게 만들어주는 패키지이다. 판다스의 공식문서는 아래 링크를 통해 들어갈 수 있다. User Guide와 API 모두 상당히 친절하고 자세하다. 판다스 공식문서: https://pandas.pydata.org/ pandas - Python Data Analysis Library pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programmi.. 2023. 1. 31.
[Machine Learning] 분류 알고리즘 머신러닝 알고리즘 중에서 분류는 직관적이면서 가장 기초적인 알고리즘이다. 분류로 해결할 수 있는 대표적인 문제들을 예로 들자면, 타이타닉 데이터셋으로부터 생존자 예측하기 (생존 or 사망) 고객들의 금융 데이터셋으로부터 대출 가능 여부 예측하기 (가능 or 불가능) 1~10까지의 숫자 이미지가 들어있는 MNIST 데이터셋으로부터 해당 숫자가 몇인지 분류하기 이처럼 데이터셋으로부터 특징들을 파악하여 모델을 학습시키고, 분류 결과를 도출해낸다. 분류 알고리즘은 어떤 것들이 있을까? 아래는 머신러닝에서 주로 사용하는 알고리즘들이다. 1. Logistic Regression (로지스틱 회귀모형) 첫 번째로 자주 사용하는 분류 모델은 Logistic Regression이다. 이름에 회귀라는 말이 들어가있어서 처음.. 2023. 1. 29.