본문 바로가기

분류 전체보기20

[EDA Practice] Figure, Axes 객체 Matplotlib은 데이터 시각화에 필수적인 패키지이다. 이러한 그래프를 그릴 수 있는 이유는 Matplotlib만의 특별한 클래스들이 존재하기 때문이다. 바로 Figure와 Axes 클래스이다. Matplotlib의 그래프를 담을 수 있는 Figure 클래스와 Axes 클래스를 알아보자. 1. Figure 클래스 일반적인 방식으로 plt.figure()를 수행하고 객체 타입을 확인한 결과이다. fig = plt.figure() type(fig) => matplotlib.figure.Figure 코드에서 볼 수 있듯이 matplotlib.figure.Figure 객체가 생성되는 것을 볼 수 있다. Figure 객체는 그래프 요소를 담을 수 있는 최상위 컨테이너이다. 그래프를 담을 수 있는 직사각형의 객.. 2023. 2. 9.
[Machine Learning] 평가 지표 - 분류(Classification) 분류는 머신러닝의 대표적인 기법 중 하나이다. 정말 다양한 분류 알고리즘이 있고, 아직 데이터분석을 시작한 지 얼마 안 된 초보자 입장이지만, 현재까지 웬만한 문제들은 분류 알고리즘 기반으로 풀렸다. 그러나 머신러닝 모델링을 했어도 모델의 성능을 측정할 수 없다면 아무 쓸모가 없을 것이다. 실제 테스트 데이터에 대해서 잘 작동하는지 평가를 해봐야 할 것이다. 일반적으로 평가를 한다면 정확도를 가지고 평가를 할 테지만, 분류에서는 다른 측정 방법들을 사용한다. 분류에서 정확도를 맹신하지 않는 이유는 나중에 정리하여 포스팅하겠다. 분류에서 이 평가를 하는 방법이 존재한다. 1. 오차 행렬 (confusion matrix) 첫 번째는 바로 오차 행렬이다. 오차 행렬은 실제 값과 예측 값을 비교하여 잘못 비교된.. 2023. 2. 7.
[Pandas] 판다스 데이터프레임 합치기 (merge, concatenate) 판다스에서는 시리즈나 데이터프레임을 다루기 편하게 하기 위해 여러 함수들을 제공하고 있다. 그 중, 여러 개의 데이터프레임이나 시리즈를 합치는 기능은 빈번히 사용되는 기능들 중 하나이다. 1. concat() 첫 번째는 concat() 메서드이다. concat() 메서드는 이름 그대로 데이터프레임 또는 시리즈를 연결하는 기능이다. 아래 예시처럼 서로 다른 두 데이터프레임을 합칠 수 있다. df1 = pd.DataFrame( { "A": ["A0", "A1", "A2", "A3"], "B": ["B0", "B1", "B2", "B3"], "C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"], }, index=[0,1,2,3] } df2 = pd.Dat.. 2023. 2. 7.
[Pandas] 판다스 인덱싱 (loc, iloc) 판다스의 Series와 Dataframe 데이터 구조는 각각 1차원과 2차원이다. 각각은 Python의 [] 기호를 통해서 인덱싱도 가능하지만 .loc과 .iloc을 사용하여 인덱싱 하는 것이 훨씬 편리하다. Python에서 리스트 객체에 사용하는 일반적인 [] 인덱싱은 Series와 Dataframe에서는 오류가 날 가능성이 있기 때문에 loc과 iloc을 사용하는 것이 좋다. 자세한 사례는 stackoverflow에 올라온 질문을 통해 확인해 볼 수 있다. https://stackoverflow.com/questions/38886080/python-pandas-series-why-use-loc Python: Pandas Series - Why use loc? Why do we use 'loc' for.. 2023. 2. 4.