전체 글
-
Python Seaborn 라이브러리카테고리 없음 2023. 10. 27. 13:20
[Seaborn 라이브러리] 다양한 통계 그래프 작성에 용이 https://seaborn.pydata.org/examples/index.html 실습 데이터 세트 (seaborn에 있는 데이터 사용) flights: 월별 비행기 탑승객 수 데이터 tips : 팁관련 데이터 mpg: 자동차 연비관련 데이터 그래프의 종류 (Seaborn) 1.선그래프 (sns.lineplot) 2.막대그래프 (sns.barplot/sns.countplot) 3.산점도 (sns.scatterplot) 4.히스토그램 (sns.histplot, displot) 5.박스플롯 (sns.boxplot) 6.히트맵 (sns.heatmap) import numpy as np import pandas as pd import matplotl..
-
Pandas 결측 데이터 처리하기카테고리 없음 2023. 10. 27. 11:26
3) 결측 데이터 처리하기 isna(), isnull() - 결측데이터 여부 확인 lemonade.isna().tail(20) #sum을 통해 결측 데이터 확인 가능 lemonade.isna( ).sum( ) Date 1 Location 0 Lemon 0 Orange 0 Temperature 0 Leaflets 1 Price 0 Sold 0 Revenue 0 dtype: int64 lemonade.isnull( ) #isna와 동일한 결과 fillna( ) - Missing 데이터 대체하기 # 주의! 아래처럼하면 어떻게 될까? lemonade['Date'].fillna(0) #일시적으로만 변한다 --> 결측치가 바뀌지 않음 #방법1. 원본에 덮어쓴다. lemonade['Date'] = lemonade['..
-
Pandas 데이터 전처리카테고리 없음 2023. 10. 27. 11:19
1) sort_values() - 데이터 정렬 lemonade.sort_values(by=['Temperature']) #Temperature 가 오름차순으로 정렬됨 - 내림차순으로 하고 싶다면? ascending= False 'by'는 생략해도 됨 inplace = True --> 정렬한 값이 lemonade에 바로 저장 inplace = True 없이 실행한 경우 1회성으로 결과만 보여줄뿐 lemonade의 실제 내용은 바뀌지 않음 lemonade.sort_values(by=['Temperature'], inplace = True) #원본을 바꾸고 싶으면 Inplace를 사용한다. 2) groupby() - 데이터 그룹핑 lemonade.groupby(by='Location') # lemonade.g..
-
Pandas 인덱싱과 슬라이싱카테고리 없음 2023. 10. 27. 11:06
1) 특정 행만 조회 - selection연산자 df[시작인덱스:끝인덱스+1] 연속되는 일정구간의 행을 조회할 때 # 0~4행 indexing lemonade[0:5] #연속되지 않는 1,3,5행을 indexing하고 싶다면? lemonade[1,3,5] # 안됨! #한행만 indexing하고 싶다면? lemonade[1] # 역시안됨! 2) 특정 열만 조회 df[['col1'],['col2']..] (이중 괄호임에 주의!) 연속/불연속, 한개/여러개 상관없이 가능 # 두 열만 조회: Dataframe으로 출력 lemonade[['Date', 'Location']] # 한 열만 조회: Dataframe으로 출력 lemonade[['Date']] #이중괄호 - DataFrame으로 출력 # 이렇게 하면 어..
-
Pandas 데이터 다뤄보기카테고리 없음 2023. 10. 27. 10:14
1) column 선택하기 # column 선택 - 'Lemon' 컬럼 선택하기 lemonade['Lemon'] # column 선택 - 'Price' 컬럼 선택하기 lemonade['Price'] # Row 조건걸기 # price가 0.4 이상인 row 보여주기 lemonade[lemonade['Price']>0.4] 2) 조건별 row 선택하기 lemonade['Price'] > 0.4 3) 새로운 열(column) 추가하기 #'Sold' 열 추가하기 & 값을 '0'으로 입력하기 lemonade['Sold'] = 0 lemonade.head(3) #'Sold' 컬럼 생성하기 lemonade['Sold'] = lemonade['Lemon'] + lemonade['Orange'] lemonade.head..
-
DataFrame 조회하기카테고리 없음 2023. 10. 27. 10:02
DataFrame 조회하기 head(): 데이터프레임의 앞 5행을 보여줌 tail(): 데이터프레임의 맨 뒤의 5행을 보여줌 info(): 데이터 정보제공(총 데이터 건수, 데이터 타입, 변수의 숫자 등) describe(): 기술통계데이터 제공 lemonade.head() lemonade.tail() lemonade.info() RangeIndex: 32 entries, 0 to 31 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Date 31 non-null object 1 Location 32 non-null object 2 Lemon 32 non-null int64 3 Or..
-
Dataframe카테고리 없음 2023. 10. 27. 09:50
2) Dataframe 행과 열을 가지는 2차원 자료구조 행방향 이름: index 열방향 이름: column 생성시에는 index=, columns=, data= 로 설정 조회시에는 df.index, df.columns=, df.value로 사용 [참고] 시리즈와 데이터프레임의 구조를 비교하면 시리즈: 인덱스(index)와 값(values)으로 구성 데이터프레임: 인덱스(index), 열(columns) 값(values)으로 구성 index = ['one', 'two', 'three'] columns = ['A', 'B', 'C'] values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] # 2d-array df = pd.DataFrame(data=values, index=index,..
-
Pasndas Library (판다스 라이브러리)카테고리 없음 2023. 10. 27. 09:36
Pandas Library 란 데이터 처리를 위한 라이브러리 Wes MaKinney (월스트리트 금융분석 전문가)가 개발 https://pandas.pydata.org/docs/index.html 리스트, 컬렉션, 넘파이 등의 파이썬 내부 데이터뿐만 아니라 CSV 등의 파일을 쉽게 DataFrame으로 변경 편리하게 데이터 가공/분석 1. 판다스 라이브러리 불러오기 import pandas as pd 2. Pandas의 데이터 타입 1) Series - 1차원 배열 - 배열의 인덱스(index)와 값(values)으로 구성 - 생성시에는 index=, data=로 설정 - 조회시에는 sr.index, sr.value로 사용 # data는 반드시 설정해야함, 인덱스는 생략가능 pd.Series(data=[..