헤맨 만큼 내 땅이다

pandas 3

Pandas 결측 데이터 처리하기

3) 결측 데이터 처리하기 isna(), isnull() - 결측데이터 여부 확인 lemonade.isna().tail(20) #sum을 통해 결측 데이터 확인 가능 lemonade.isna( ).sum( ) Date 1 Location 0 Lemon 0 Orange 0 Temperature 0 Leaflets 1 Price 0 Sold 0 Revenue 0 dtype: int64 lemonade.isnull( ) #isna와 동일한 결과 fillna( ) - Missing 데이터 대체하기 # 주의! 아래처럼하면 어떻게 될까? lemonade['Date'].fillna(0) #일시적으로만 변한다 --> 결측치가 바뀌지 않음 #방법1. 원본에 덮어쓴다. lemonade['Date'] = lemonade['..

카테고리 없음 2023.10.27

Pandas 데이터 전처리

1) sort_values() - 데이터 정렬 lemonade.sort_values(by=['Temperature']) #Temperature 가 오름차순으로 정렬됨 - 내림차순으로 하고 싶다면? ascending= False 'by'는 생략해도 됨 inplace = True --> 정렬한 값이 lemonade에 바로 저장 inplace = True 없이 실행한 경우 1회성으로 결과만 보여줄뿐 lemonade의 실제 내용은 바뀌지 않음 lemonade.sort_values(by=['Temperature'], inplace = True) #원본을 바꾸고 싶으면 Inplace를 사용한다. 2) groupby() - 데이터 그룹핑 lemonade.groupby(by='Location') # lemonade.g..

카테고리 없음 2023.10.27

Pasndas Library (판다스 라이브러리)

Pandas Library 란 데이터 처리를 위한 라이브러리 Wes MaKinney (월스트리트 금융분석 전문가)가 개발 https://pandas.pydata.org/docs/index.html 리스트, 컬렉션, 넘파이 등의 파이썬 내부 데이터뿐만 아니라 CSV 등의 파일을 쉽게 DataFrame으로 변경 편리하게 데이터 가공/분석 1. 판다스 라이브러리 불러오기 import pandas as pd 2. Pandas의 데이터 타입 1) Series - 1차원 배열 - 배열의 인덱스(index)와 값(values)으로 구성 - 생성시에는 index=, data=로 설정 - 조회시에는 sr.index, sr.value로 사용 # data는 반드시 설정해야함, 인덱스는 생략가능 pd.Series(data=[..

카테고리 없음 2023.10.27