헤맨 만큼 내 땅이다

Python/빅데이터분석기사 실기

(2015.11.16) 빅데이터분석기사 실기 체험 문제

mm대장 2025. 11. 16. 10:12

# 출력을 원할 경우 print() 함수 활용
# 예시) print(df.head())

# getcwd(), chdir() 등 작업 폴더 설정 불필요
# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가

import pandas as pd
import numpy as np

df = pd.read_csv("data/employee_performance.csv")

# 사용자 코딩

# 해당 화면에서는 제출하지 않으며, 문제 풀이 후 답안제출에서 결괏값 제출
df['고객만족도'] = df['고객만족도'].fillna(df['고객만족도']).mean()
df = df.dropna(subset = ['근속연수'])

print(df.info())

#3
ans_3 = df['고객만족도'].quantile(.75)
ans_3_1 = np.floor(ans_3).astype(int)
print(ans_3_1)

#4
ans_4 = df.groupby('부서')['연봉'].mean()
ans_4_1 = ans_4.sort_values(ascending = False).iloc[0]
ans_4_2 = np.floor(ans_4_1).astype(int)
print(ans_4_2)

정답01 : 5

정답02 : 75460

 

 

import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv("data/bcc.csv")

# 사용자 코딩
#print(df.head())
#print(df.info())
# 해당 화면에서는 제출하지 않으며, 문제 풀이 후 답안제출에서 결괏값 제출

df['Log_Resistin'] = np.log(df['Resistin'])
#print(df)

group1 = df[df['Classification'] == 1]['Log_Resistin'] # Classification 이 1 인행인 값의 log resistin 열만 선택
group2 = df[df['Classification'] == 2]['Log_Resistin']

var1 = group1.var(ddof=1)
var2 = group2.var(ddof=1)

#F통계량
F_stat = max(var1, var2) / min(var1, var2)
print(round(F_stat,3))

#합동 분산 추정량, 두 그룹 이상의 분산을 하나로 합쳐서 계산한 값
n1 = len(group1)
n2 = len(group2)

pooled_var = ((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2)
print(round(pooled_var,3))

#3
t_stat, p_value = stats.ttest_ind(group1, group2, equal_var = True)

print("t통계량", round(t_stat, 3))
print("p-value", round(p_value, 3))