헤맨 만큼 내 땅이다

Python/빅데이터분석기사 실기 9

빅분기 실기 체험문제 1유형

1유형은 아래 세가지 함수를 꼭 마스터 하도록 하자 groupbysort_values()value_counts() import pandas as pdimport mathdf = pd.read_csv("data/employee_performance.csv")#print(df.head())#print(df.info())#print(df.isnull().sum())df['고객만족도'] = df['고객만족도'].fillna(df['고객만족도'].mean())df = df.dropna(subset=['근속연수'])#print(df.info())#print(df.isnull().sum())#a = df['고객만족도'].quantile(0.75)#a_trunc = math.trunc(a)#print(a_trunc)#..

6/17 빅분기 코드 확인

.value_counts(): 앞 단계에서 계산된 10년 단위 연령대 시작 값들의 빈도를 계산합니다. 각 연령대(0, 10, 20, 30 등)가 데이터에 몇 번 나타나는지 세어줍니다. 결과는 각 연령대와 그 빈도를 담고 있는 Series 형태로 반환되며, 기본적으로 빈도가 높은 순서대로 정렬됩니다. .sort_values() 함수는 데이터프레임의 행을 하나 이상의 열 값을 기준으로 오름차순 또는 내림차순으로 정렬하는 데 사용됩니다. df.sort_values(by, ascending=True)

Pandas DataFrame 기호 역할 정리

저처럼 기초가 없는 상태에서 빅분기 실기를 준비하는 분들을 위해 올립니다.기호이름주 요 역할사용 예시설명 이 세 가지 기호의 역할을 명확히 이해하시면 좋습니다. 기호이름주요 역할사용 예시설명.속성 접근 연산자객체의 속성(데이터) 또는 메서드(기능)에 접근df.shape객체 내부의 특정 요소를 가리킴( )메서드 호출.으로 접근한 메서드를 실행df.head()특정 기능을 수행하도록 객체에 명령[ ]인덱싱/선택 연산자DataFrame의 특정 데이터(열/행/부분) 선택df['Column']데이터프레임 내에서 원하는 데이터 부분을 지정하고 추출 + 추가로 { } 연산자도 있다.{ } 연산자 : 파이썬에서 딕셔너리(Dictionary)와 세트(Set)를 정의할 때 사용되는 기호입니다. 1. 딕셔너리(Diction..

빅데이터 분석기사 실기 체험 문제 3유형 3번 문제 (25.6/7)

③ 2번 문제에서 구한 합동 분산 추정량을 이용하여, 두 집단의 로그 리지스턴 값에 유의미한 차이가 있는지 독립표본 t-검정을 수행하고, p-값을 구하여라 scipy.stats 이용# 독립표본 t-검정 수행# 검정 가설:# 귀무 가설 (H0): 두 집단 로그 리지스틴 값의 평균에는 차이가 없다.# 대립 가설 (H1): 두 집단 로그 리지스틴 값의 평균에는 차이가 있다.# equal_var=True로 설정하여 두 집단의 분산이 같다고 가정하고 (합동 분산 사용) 검정 수행ttest_result = stats.ttest_ind(group1_data['Log_Resistin'], group2_data['Log_Resistin'], ..

빅데이터 분석기사 실기 체험 문제 3유형 2번 문제 (25.6/7)

② 두 집단 로그 리지스틴 값에 대한 합동 분산 추정량을 구하여라 합동 분산 추정량 : 두 집단의 모분산이 같다고 가정하고, 두 집단의 표본분산을 이용하여 모분산을 추정하는 방식입니다. 즉, 두 집단의 표본분산을 각 집단의 표본 크기를 고려하여 가중평균하여 추정 # 합동 분산 추정량 계산# 공식: sp^2 = [(n1 - 1)*s1^2 + (n2 - 1)*s2^2] / [n1 + n2 - 2]# 분모: n1 + n2 - 2den = n1 + n2 - 2# 분자: (n1 - 1)*s1^2 + (n2 - 1)*s2^2num = (n1 - 1) * var1 + (n2 - 1) * var2print(den, num)pooled_var = num / denresult_pooled_var = round(poole..

빅데이터 분석기사 실기 체험 문제 3유형 1번 문제 (25.6/7)

이번에 빅데이터 분석기사 실기 체험 문제가 변경되어서 풀어보고 있다. 사실 잘 못하는데 인터넷에 풀이해놓은 사람이 없어서 내 방식대로 해보았다.이상한게 있으면 댓글달아 주세요.. ① F-검정 검정통계량 값을 구하여라. F검정통계량 = 두 분산의 비율 근데 scipy로 구할 수는 없나요? chatGPT는 안된다던데... 아는 분 있나요?# 출력을 원할 경우 print() 함수 활용# 예시) print(df.head())import numpy as npimport pandas as pd#import scipy.stats as stats # scipy.stats 라이브러리 임포트# 제공된 데이터df = pd.read_csv("data/bcc.csv")print("원본 데이터:")print(df)# Class..

빅데이터 분석기사 실기 작업형 2(회귀) 예제

코드의 출처는 님의 코드를 보고 공부했습니다. 이런저런 실기 2유형 코드들을 봤는데 이분께서 해주신게 제가 평소에 알건 Baseline 과 가장 유사하고깔끔하여 이 코드로 실기 공부 중입니다.https://youtu.be/NzYS2Npasnw?si=wVLcPzAdllLlJuUb 공부하면서 따라한 코드 공유 드립니다. #회귀 평가 모델: 모델 평가 지표는 RMSE 할 것 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/JEunJin/BigData_python/refs/heads/master/bigdata_csvfile/used_cars_price_data.csv")#print(df.head())#데이터 전처리(결측값, 라..

빅데이터 분석기사 실기 작업형 2 체험문제(분류) 풀기

빅데이터 분석기사 실기 공부를 시작하면서 어떤거부터 해야하는지 감이 잡히지 않았다.이것 저것(퇴근후딴짓, 기타 강의) 들을 찾아보다가작업형2번을 가장 잘 설명해주고 베이스라인도 깔끔한 강의를 만났다. 강의 코드를 기록하면서 링크도 남깁니다.다른 분들도 도움이 많이 되었으면 합니다. 빅분기 실기 작업형 2유형(분류) 이 영상 하나로 끝내세요! 분류 : 종속(목표변스) - ex)남,여 / 생존,사망, - accuracy_score, f1_score, roc_auc_score회귀 : 종속(목표변수) - ex) 가격, 수치, -RMSE, 결정계수 독립변수(x), 종속변수(y)x_train, y_trainx_test, y_test 문제 풀이 순서 요약 (확 -> 라 -> 모 -> 학 -> 평 -> ..