헤맨 만큼 내 땅이다

python 11

Python Seaborn 라이브러리

[Seaborn 라이브러리] 다양한 통계 그래프 작성에 용이 https://seaborn.pydata.org/examples/index.html 실습 데이터 세트 (seaborn에 있는 데이터 사용) flights: 월별 비행기 탑승객 수 데이터 tips : 팁관련 데이터 mpg: 자동차 연비관련 데이터 그래프의 종류 (Seaborn) 1.선그래프 (sns.lineplot) 2.막대그래프 (sns.barplot/sns.countplot) 3.산점도 (sns.scatterplot) 4.히스토그램 (sns.histplot, displot) 5.박스플롯 (sns.boxplot) 6.히트맵 (sns.heatmap) import numpy as np import pandas as pd import matplotl..

카테고리 없음 2023.10.27

Pandas 결측 데이터 처리하기

3) 결측 데이터 처리하기 isna(), isnull() - 결측데이터 여부 확인 lemonade.isna().tail(20) #sum을 통해 결측 데이터 확인 가능 lemonade.isna( ).sum( ) Date 1 Location 0 Lemon 0 Orange 0 Temperature 0 Leaflets 1 Price 0 Sold 0 Revenue 0 dtype: int64 lemonade.isnull( ) #isna와 동일한 결과 fillna( ) - Missing 데이터 대체하기 # 주의! 아래처럼하면 어떻게 될까? lemonade['Date'].fillna(0) #일시적으로만 변한다 --> 결측치가 바뀌지 않음 #방법1. 원본에 덮어쓴다. lemonade['Date'] = lemonade['..

카테고리 없음 2023.10.27

Pandas 데이터 전처리

1) sort_values() - 데이터 정렬 lemonade.sort_values(by=['Temperature']) #Temperature 가 오름차순으로 정렬됨 - 내림차순으로 하고 싶다면? ascending= False 'by'는 생략해도 됨 inplace = True --> 정렬한 값이 lemonade에 바로 저장 inplace = True 없이 실행한 경우 1회성으로 결과만 보여줄뿐 lemonade의 실제 내용은 바뀌지 않음 lemonade.sort_values(by=['Temperature'], inplace = True) #원본을 바꾸고 싶으면 Inplace를 사용한다. 2) groupby() - 데이터 그룹핑 lemonade.groupby(by='Location') # lemonade.g..

카테고리 없음 2023.10.27

Pandas 데이터 다뤄보기

1) column 선택하기 # column 선택 - 'Lemon' 컬럼 선택하기 lemonade['Lemon'] # column 선택 - 'Price' 컬럼 선택하기 lemonade['Price'] # Row 조건걸기 # price가 0.4 이상인 row 보여주기 lemonade[lemonade['Price']>0.4] 2) 조건별 row 선택하기 lemonade['Price'] > 0.4 3) 새로운 열(column) 추가하기 #'Sold' 열 추가하기 & 값을 '0'으로 입력하기 lemonade['Sold'] = 0 lemonade.head(3) #'Sold' 컬럼 생성하기 lemonade['Sold'] = lemonade['Lemon'] + lemonade['Orange'] lemonade.head..

카테고리 없음 2023.10.27

DataFrame 조회하기

DataFrame 조회하기 head(): 데이터프레임의 앞 5행을 보여줌 tail(): 데이터프레임의 맨 뒤의 5행을 보여줌 info(): 데이터 정보제공(총 데이터 건수, 데이터 타입, 변수의 숫자 등) describe(): 기술통계데이터 제공 lemonade.head() lemonade.tail() lemonade.info() RangeIndex: 32 entries, 0 to 31 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Date 31 non-null object 1 Location 32 non-null object 2 Lemon 32 non-null int64 3 Or..

카테고리 없음 2023.10.27

Dataframe

2) Dataframe 행과 열을 가지는 2차원 자료구조 행방향 이름: index 열방향 이름: column 생성시에는 index=, columns=, data= 로 설정 조회시에는 df.index, df.columns=, df.value로 사용 [참고] 시리즈와 데이터프레임의 구조를 비교하면 시리즈: 인덱스(index)와 값(values)으로 구성 데이터프레임: 인덱스(index), 열(columns) 값(values)으로 구성 index = ['one', 'two', 'three'] columns = ['A', 'B', 'C'] values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] # 2d-array df = pd.DataFrame(data=values, index=index,..

카테고리 없음 2023.10.27

Pasndas Library (판다스 라이브러리)

Pandas Library 란 데이터 처리를 위한 라이브러리 Wes MaKinney (월스트리트 금융분석 전문가)가 개발 https://pandas.pydata.org/docs/index.html 리스트, 컬렉션, 넘파이 등의 파이썬 내부 데이터뿐만 아니라 CSV 등의 파일을 쉽게 DataFrame으로 변경 편리하게 데이터 가공/분석 1. 판다스 라이브러리 불러오기 import pandas as pd 2. Pandas의 데이터 타입 1) Series - 1차원 배열 - 배열의 인덱스(index)와 값(values)으로 구성 - 생성시에는 index=, data=로 설정 - 조회시에는 sr.index, sr.value로 사용 # data는 반드시 설정해야함, 인덱스는 생략가능 pd.Series(data=[..

카테고리 없음 2023.10.27

Python Round 반올림 수 구하기

파이썬 내장 함수 round()는 입력된 숫자의 반올림한 값을 리턴 round()는 두 개의 숫자를 인자로 받음 첫 번째 인자는 반올림할 값 두 번째 인자는 반올림 자릿수: 1, 2, 3일 때는 각각 소수점 둘째 자리, 소수점 셋째 자리, 소수점 넷째 자리에서 반올림합니다. -1, -2이면 1의 자리, 10의 자리에서 반올림 참고로, 두 번째 인자가 입력되지 않을 때는 숫자의 소수점 첫째 자리에서 반올림한 수를 리턴 예제코드 # 18.8을 소수점 첫째 자리에서 반올림한 값을 출력합니다. print(round(18.8)) # 1332를 1의 자리에서 반올림한 값을 출력합니다. print(round(1332, -1)) # 1.554를 소수점 셋째 자리에서 반올림한 값을 출력합니다. print(round(1...

Python 기본 문법(객체, 변수, 리스트, 딕셔너리)

1. 파이썬 기본 객체 타입 - 정수 : 7 - 실수 : 7.0 - 문자열 : '7' (+, * 연산이 가능하다) 2. 데이터를 재사용 하기 위한 변수 지정 - variable1 = 7 (#variable에 정수 7 데이터 할당) - variable2 = 7.0 (#variable에 실수 7.0 데이터 할당) - variable3 = '7' (#variable에 문자열 '7' 데이터 할당) 3. 리스트 : 순서가 있다는 것이 중요하다 - 리스트 생성 fruit = ['apple', 'banana', 'mango', 'melon'] - 리스트에서 데이터 가져오기 fruit[0] - 슬라이싱 fruit[ 1 : 4 ] → Output : 'banana', 'mango', 'melon' - 리스트에 데이터 추..