본문 바로가기

분류 전체보기20

[Pandas] 판다스 기본 함수들 판다스에는 Series와 Dataframe에 모두 적용되는 기본 함수들이 있다. 1. head() & tail() head와 tail 메서드는 샘플을 뽑아 보여주는 쉬운 메서드이다. head()는 앞에서부터 n개만큼의 샘플을, tail()은 뒤에서부터 n개만큼의 샘플을 보여준다. 매개변수를 전달하지 않는다면 default 값은 5개이다. 다음은 head()와 tail()의 예시이다. d = {"one": range(20), "two": np.random.randn(20)} df = pd.DataFrame(d) df.head() => onetwo 00-0.262533 111.097868 220.627424 33-0.150713 44-0.656796 df.tail(1) => onetwo 1919-1.3971.. 2023. 2. 3.
[Pandas] 판다스(Pandas)와 데이터 구조 데이터 분석을 할 때 항상 빠지지 않는 삼대장 패키지가 있다. 바로 NumPy, Pandas, Matplotlib이다. 그 중 판다스는 데이터 조작 및 분석 작업을 매우 편리하게 만들어주는 패키지이다. 판다스의 공식문서는 아래 링크를 통해 들어갈 수 있다. User Guide와 API 모두 상당히 친절하고 자세하다. 판다스 공식문서: https://pandas.pydata.org/ pandas - Python Data Analysis Library pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programmi.. 2023. 1. 31.
[Machine Learning] 손실 함수 (loss function) 머신러닝에서 모델 학습을 시키면 평가지표로써 손실 함수가 등장한다. 손실 함수의 값은 모델이 실제값에 대해서 얼마나 잘 예측했냐를 판가름하는 좋은 지표가 된다. 손실 함수의 값이 작아지면 작아질수록, 모델은 더욱더 예측을 잘하게 된다. 따라서 머신러닝에서 성능을 향상시키기 위해 손실함수를 최소화시키는 방안을 찾게 된다. 손실 함수는 측정 방법에 따라 여러 가지가 존재하게 된다. 사용하는 함수는 각 함수의 특성에 따라 상황에 적절한 함수를 사용한다. 1. MSE (Mean Squared Error) 이름에서 알 수 있듯이 평균제곱오차이다. MSE는 가장 기본적이고 간단한 손실 함수이다. 손실함수의 값은 전체 데이터셋에 대해서 실제값과 예측값의 차이를 제곱한 후 평균을 낸 값이다. 통계학에서의 분산과 비슷한.. 2023. 1. 31.
[Machine Learning] 분류 알고리즘 머신러닝 알고리즘 중에서 분류는 직관적이면서 가장 기초적인 알고리즘이다. 분류로 해결할 수 있는 대표적인 문제들을 예로 들자면, 타이타닉 데이터셋으로부터 생존자 예측하기 (생존 or 사망) 고객들의 금융 데이터셋으로부터 대출 가능 여부 예측하기 (가능 or 불가능) 1~10까지의 숫자 이미지가 들어있는 MNIST 데이터셋으로부터 해당 숫자가 몇인지 분류하기 이처럼 데이터셋으로부터 특징들을 파악하여 모델을 학습시키고, 분류 결과를 도출해낸다. 분류 알고리즘은 어떤 것들이 있을까? 아래는 머신러닝에서 주로 사용하는 알고리즘들이다. 1. Logistic Regression (로지스틱 회귀모형) 첫 번째로 자주 사용하는 분류 모델은 Logistic Regression이다. 이름에 회귀라는 말이 들어가있어서 처음.. 2023. 1. 29.