헤맨 만큼 내 땅이다

Python/빅데이터분석기사 실기

빅분기 실기 11회 대비 정리(작업형 1유형)

mm대장 2025. 11. 26. 23:52

주요 핵심 코드

 

1. 컬럼별 그룹화 : groupby('column')['column'] (~별 ~의)

 

2. 데이터 정렬 : sort_values(ascending = False) ← 내림차순

 

3. 날짜 데이터 처리 :

yyyy = pd.to_datetime(df['column'], format = '%Y %m %d).dt.strftime('%Y')

Ex)

“Jan 3, 2018” → %b %d, %Y
“March 3, 2018” → %B %d, %Y

 

4. 결측치 처리 :

1) 최빈값 : df['column'] = df['column'].fillna(df['column'].mode()[0])

2) 결측값 삭제 : df = df.dropna(subset = ['column'])

 

5. 최소- 최대 정규화 : MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df['Salary_norm'] = scaler.fit_transform(df[['Salary']])

 

6. 통계량 확인 : 표준편차(str()), 평균(mean()), 합(sum()), 최빈값(mode), 등

 

7. 사분위수 연산 및 이상치 추출 : df['column'].quantile(.25)_ 1분위수

 

8. 멀티 인덱스 구조 : unstack() _ 9회 기출

 

9. 텍스트의 공백 개수 추출 : str.count(' ')

 

10. 상관관계 계산 : corr_df = df.corr()

 

11. 단어 수 계산 : df['word_count'] = df['content'].apply(lambda x : len(x.split()))

 

출처도 공유 드립니다.

https://youtu.be/GnVJ6AEwfVo?si=FsQ4wbdVaGj8Q9I6