본문 바로가기

파이썬9

[Pandas] 판다스 기본 함수들 판다스에는 Series와 Dataframe에 모두 적용되는 기본 함수들이 있다. 1. head() & tail() head와 tail 메서드는 샘플을 뽑아 보여주는 쉬운 메서드이다. head()는 앞에서부터 n개만큼의 샘플을, tail()은 뒤에서부터 n개만큼의 샘플을 보여준다. 매개변수를 전달하지 않는다면 default 값은 5개이다. 다음은 head()와 tail()의 예시이다. d = {"one": range(20), "two": np.random.randn(20)} df = pd.DataFrame(d) df.head() => onetwo 00-0.262533 111.097868 220.627424 33-0.150713 44-0.656796 df.tail(1) => onetwo 1919-1.3971.. 2023. 2. 3.
[Pandas] 판다스(Pandas)와 데이터 구조 데이터 분석을 할 때 항상 빠지지 않는 삼대장 패키지가 있다. 바로 NumPy, Pandas, Matplotlib이다. 그 중 판다스는 데이터 조작 및 분석 작업을 매우 편리하게 만들어주는 패키지이다. 판다스의 공식문서는 아래 링크를 통해 들어갈 수 있다. User Guide와 API 모두 상당히 친절하고 자세하다. 판다스 공식문서: https://pandas.pydata.org/ pandas - Python Data Analysis Library pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programmi.. 2023. 1. 31.
[EDA Practice] 2023/W4 EDA Practice Data Source: 'https://query.data.world/s/h4cgvavgdnxywxbbjnnlztdahzzidg' EDA 연습을 위한 첫 번째 데이터셋은 Makeover Monday 웹사이트의 23년 넷째주 데이터셋인 'National Highway Traffic Safety Administration Automobile Recalls'이다. 미국의 자동차 리콜에 대한 데이터셋이고, 1966년부터의 리콜 정보를 담고 있다. 데이터셋에 대한 구체적인 정보는 아래의 링크를 통해 확인해볼 수 있다. National Highway Traffic Safety Administration : https://datahub.transportation.gov/Automobiles/Recalls-Data/6.. 2023. 1. 27.
[EDA Practice] EDA란? EDA(Explanatory Data Analysis, 탐색적 데이터 분석) : 통계 그래픽 및 기타 데이터 시각화 방법을 사용하여 주요 특성을 요약하기 위해 데이터 세트를 분석하는 접근 방식 처음 원본 데이터를 보면 무엇부터 시작해야 할지 막막하다. 원본 데이터는 생각보다 난잡하기 때문에, 데이터를 보자마자 바로 분석 기법을 정하고 데이터 분석에 들어가는 사람은 없을 것이다. 데이터 분석에 들어가기 앞서서, 어떤 특성(column)이 중요한 특성인지, 특성들끼리의 관계는 어떤지, 데이터의 분포는 어떤지 등등 데이터를 이해하며 인사이트를 얻는 과정이 필요하다. 데이터에 대한 이해를 잘할수록, 즉 EDA를 잘할수록 데이터 분석 프로젝트를 더 수월하게, 그리고 더 좋은 분석 결과물을 얻어낼 수 있을 거라는 .. 2023. 1. 20.