본문 바로가기

분류 전체보기20

[EDA Practice] Seaborn 설정 (rc) 데이터 시각화에 대해서 더 공부하다가 rc 설정을 알게 되었다. rc 설정은 사용자가 그래프 스타일을 커스터마이징할 수 있도록 하는 파라미터이다. 지금까지는 시각화를 위해서 적절한 그래프와 데이터를 선택했다면 rc 설정은 그래프 자체에 대한 스타일을 설정하여 결과적으로 가독성을 높여준다. sns.axes_style()을 통해 현재 그래프 스타일 설정을 확인해볼 수 있다. import seaborn as sns sns.axes_style() => {'axes.facecolor': '#EAEAF2', 'axes.edgecolor': 'white', 'axes.grid': True, 'axes.axisbelow': True, 'axes.labelcolor': '.15', 'figure.facecolor': '.. 2023. 6. 23.
[Machine Learning] 데이터 전처리(1) - 결측치 처리(1) 데이터 분석을 하기 위해서 데이터의 전처리는 필수적이다. 데이터들을 수집해서 나온 가공되지 않은 데이터는 분석을 바로 할 수가 없는 상태이다. (결측치의 존재, 이상치의 존재, 여러 데이터 타입의 혼재, ...) 만약 이러한 데이터를 가지고 바로 모델링을 한다면 데이터의 잡음으로 인해 우리가 모델의 결과가 굉장히 안 좋을 것이다. 혹은 모델이 아예 학습을 하지 못할 수도 있을 것이다. 그러면 가장 선행되어야 하는 전처리 작업은 무엇일까? 그것은 바로 결측치 (Missing values)를 처리하는 것이다. 결측치는 다음과 같이 크게 세 가지 유형으로 나눌 수 있다. 1. MCAR(Missing Completely At Random) 데이터가 missing난 이유가 데이터와 무관하게 발생한 것을 말한다. .. 2023. 6. 22.
[Pandas] 판다스 결측치 처리 데이터 분석 전처리에서 가장 중요한 작업 중 하나는 바로 결측치를 처리하는 일이다. 데이터셋에는 결측치가 포함되어 있는 경우가 많은데, 판다스는 결측치 처리를 위해 여러 가지 편리한 함수들을 제공하고 있다. 1. NaN 판다스에서는 결측치를 다음과 같이 NaN으로 표시한다. df = pd.DataFrame( np.random.randn(5, 3), index=["a", "c", "e", "f", "h"], columns=["one", "two", "three"], ) df["four"] = "bar" df["five"] = df["one"] > 0 df => onetwothreefourfive a-0.4058251.266212-0.629770barFalse c0.897918-1.657066-0.66026.. 2023. 6. 19.
[EDA Practice] Subplot 그리기 이전 포스팅에서 matplotlib이나 seaborn을 통해서 그래프를 생성하면 자동으로 AxesSubplot 객체가 생성되었다. AxesSubplot은 Figure 객체에 포함된 객체이지만, 일반적으로는 하나밖에 생성이 안된다. 그러나, 데이터 시각화를 진행하다 보면, 아래처럼 여러 개의 그래프를 한 눈에 비교하고 싶을 때가 있다. matplotlib에서는 서브플롯을 그리기 위해 몇 가지의 메서드를 제공한다. 1. add_subplot() 첫 번째는 바로 Figure 객체의 add_subplot() 메서드이다. add_subplot()은 파라미터로 row, col, index를 받는다. index는 서브플롯이 생성되는 위치로, 왼쪽 위에서부터 1이다. 아래 코드는 nrows=3, ncols=2의 빈 서.. 2023. 2. 9.