빅분기 준비 코드
python 오류 종류
1. unexpected indent : 들여쓰기 오류
[py] T1-2. 이상치를 찾아라(소수점 나이) Expected Questions
원래 숫자의 소수점이하 부분을 찾는 코드
df = df[(df['age']-np.floor(df['age']))!= 0]
np.floor는 내림을 의미함 age의 내림으로 정수를 만들었음
!= : 같지않다라고 쓰임, != 0 은 0과 같이 않다를 뜻함
# 올림
m_ceil = np.ceil(df['age']).mean()
#반올림
m_round
# 내림 (반내림)
m_floor = np.floor(df['age']).mean()
# 버림
m_trunc = np.trunc(df['age']).mean()
## 결측치 처리
df['f1'] = df['f1'].fillna(df['city'].map({'서울':s,'경기':k,'부산':b,'대구':d}))
df.isnull().sum()
#결측 비율 확인
df.isnull().sum()/df.shape[0]
## 조건에 맞는 데이터 표준편차 구하기
# 조건에 맞는 f1의 표준편차 (ENFJ, INFP)
a = df[df['f4']=='ENFJ']['f1'].std() - std : Standard Deviation(표준편차)
# 두 표준편차 차이 절대값 출력
print(np.abs(a-b))
=isnull , dropna 차이
- isnull(): 결측치가 어디에 있는지 확인하는 함수
- dropna(): 결측치가 포함된 데이터를 제거하는 함수입
▶ DataFrame 행/열 전체 보는 코드
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
▶ DataFrane 보는 방법 다시 되돌리는 코드
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
▶ top10 = df['f1'].sort_values(ascending = False).iloc[9]
이 코드는 Pandas DataFrame df에서 'f1'이라는 이름의 열(column)을 선택한 후, 그 열의 값들을 내림차순으로 정렬하고, 정렬된 결과에서 10번째 위치에 있는 값을 추출하여 top10이라는 변수에 할당하는 코드입니다.
-
.sort_values(ascending = False):
- 앞서 선택된 'f1' Series의 값들을 정렬합니다.
- ascending = False 옵션은 값을 내림차순(큰 값부터 작은 값 순서로)으로 정렬하라는 의미입니다.
- 결과는 'f1' 열의 값들이 내림차순으로 정렬된 새로운 Series가 됩니다.
-
.iloc[9]:
- 내림차순으로 정렬된 Series에서 특정 위치(index)의 값을 선택합니다.
- .iloc[]는 정수 기반 위치 인덱싱을 사용합니다.
- [9]는 0부터 시작하는 인덱스에서 9번째 위치를 의미합니다. 즉, 정렬된 Series의 10번째 요소(값)를 선택합니다.
- 내림차순으로 정렬되었으므로, 10번째 요소는 'f1' 열의 값들 중에서 10번째로 큰 값이 됩니다.