헤맨 만큼 내 땅이다

Python 24

빅분기 실기 유형 2 마지막 정리

시험장 가기전까지 볼 용도로 마지막 정리합니다. 결정계수 코드 외우기r2_score, mae, mse, rmse >> 회귀 결정계수평가지표범위좋은 값MSE0 ~ ∞작을수록 좋음RMSE0 ~ ∞작을수록 좋음MAE0 ~ ∞작을수록 좋음R²-∞ ~ 1클수록 좋음 Accuracy, Precision, Recall, roc_auc_score, f1_score >> 분류평가지표범위좋은 값Accuracy0 ~ 1클수록 좋음Precision0 ~ 1클수록 좋음Recall0 ~ 1클수록 좋음ROC-AUC0 ~ 1클수록 좋음F1-score 0 ~ 1클수록 좋음

6/17 빅분기 코드 확인

.value_counts(): 앞 단계에서 계산된 10년 단위 연령대 시작 값들의 빈도를 계산합니다. 각 연령대(0, 10, 20, 30 등)가 데이터에 몇 번 나타나는지 세어줍니다. 결과는 각 연령대와 그 빈도를 담고 있는 Series 형태로 반환되며, 기본적으로 빈도가 높은 순서대로 정렬됩니다. .sort_values() 함수는 데이터프레임의 행을 하나 이상의 열 값을 기준으로 오름차순 또는 내림차순으로 정렬하는 데 사용됩니다. df.sort_values(by, ascending=True)

Pandas DataFrame 기호 역할 정리

저처럼 기초가 없는 상태에서 빅분기 실기를 준비하는 분들을 위해 올립니다.기호이름주 요 역할사용 예시설명 이 세 가지 기호의 역할을 명확히 이해하시면 좋습니다. 기호이름주요 역할사용 예시설명.속성 접근 연산자객체의 속성(데이터) 또는 메서드(기능)에 접근df.shape객체 내부의 특정 요소를 가리킴( )메서드 호출.으로 접근한 메서드를 실행df.head()특정 기능을 수행하도록 객체에 명령[ ]인덱싱/선택 연산자DataFrame의 특정 데이터(열/행/부분) 선택df['Column']데이터프레임 내에서 원하는 데이터 부분을 지정하고 추출 + 추가로 { } 연산자도 있다.{ } 연산자 : 파이썬에서 딕셔너리(Dictionary)와 세트(Set)를 정의할 때 사용되는 기호입니다. 1. 딕셔너리(Diction..

빅데이터 분석기사 실기 체험 문제 3유형 3번 문제 (25.6/7)

③ 2번 문제에서 구한 합동 분산 추정량을 이용하여, 두 집단의 로그 리지스턴 값에 유의미한 차이가 있는지 독립표본 t-검정을 수행하고, p-값을 구하여라 scipy.stats 이용# 독립표본 t-검정 수행# 검정 가설:# 귀무 가설 (H0): 두 집단 로그 리지스틴 값의 평균에는 차이가 없다.# 대립 가설 (H1): 두 집단 로그 리지스틴 값의 평균에는 차이가 있다.# equal_var=True로 설정하여 두 집단의 분산이 같다고 가정하고 (합동 분산 사용) 검정 수행ttest_result = stats.ttest_ind(group1_data['Log_Resistin'], group2_data['Log_Resistin'], ..

빅데이터 분석기사 실기 체험 문제 3유형 2번 문제 (25.6/7)

② 두 집단 로그 리지스틴 값에 대한 합동 분산 추정량을 구하여라 합동 분산 추정량 : 두 집단의 모분산이 같다고 가정하고, 두 집단의 표본분산을 이용하여 모분산을 추정하는 방식입니다. 즉, 두 집단의 표본분산을 각 집단의 표본 크기를 고려하여 가중평균하여 추정 # 합동 분산 추정량 계산# 공식: sp^2 = [(n1 - 1)*s1^2 + (n2 - 1)*s2^2] / [n1 + n2 - 2]# 분모: n1 + n2 - 2den = n1 + n2 - 2# 분자: (n1 - 1)*s1^2 + (n2 - 1)*s2^2num = (n1 - 1) * var1 + (n2 - 1) * var2print(den, num)pooled_var = num / denresult_pooled_var = round(poole..

빅데이터 분석기사 실기 체험 문제 3유형 1번 문제 (25.6/7)

이번에 빅데이터 분석기사 실기 체험 문제가 변경되어서 풀어보고 있다. 사실 잘 못하는데 인터넷에 풀이해놓은 사람이 없어서 내 방식대로 해보았다.이상한게 있으면 댓글달아 주세요.. ① F-검정 검정통계량 값을 구하여라. F검정통계량 = 두 분산의 비율 근데 scipy로 구할 수는 없나요? chatGPT는 안된다던데... 아는 분 있나요?# 출력을 원할 경우 print() 함수 활용# 예시) print(df.head())import numpy as npimport pandas as pd#import scipy.stats as stats # scipy.stats 라이브러리 임포트# 제공된 데이터df = pd.read_csv("data/bcc.csv")print("원본 데이터:")print(df)# Class..

빅데이터 분석기사 실기 작업형 2(회귀) 예제

코드의 출처는 님의 코드를 보고 공부했습니다. 이런저런 실기 2유형 코드들을 봤는데 이분께서 해주신게 제가 평소에 알건 Baseline 과 가장 유사하고깔끔하여 이 코드로 실기 공부 중입니다.https://youtu.be/NzYS2Npasnw?si=wVLcPzAdllLlJuUb 공부하면서 따라한 코드 공유 드립니다. #회귀 평가 모델: 모델 평가 지표는 RMSE 할 것 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/JEunJin/BigData_python/refs/heads/master/bigdata_csvfile/used_cars_price_data.csv")#print(df.head())#데이터 전처리(결측값, 라..

빅데이터 분석기사 실기 작업형 2 체험문제(분류) 풀기

빅데이터 분석기사 실기 공부를 시작하면서 어떤거부터 해야하는지 감이 잡히지 않았다.이것 저것(퇴근후딴짓, 기타 강의) 들을 찾아보다가작업형2번을 가장 잘 설명해주고 베이스라인도 깔끔한 강의를 만났다. 강의 코드를 기록하면서 링크도 남깁니다.다른 분들도 도움이 많이 되었으면 합니다. 빅분기 실기 작업형 2유형(분류) 이 영상 하나로 끝내세요! 분류 : 종속(목표변스) - ex)남,여 / 생존,사망, - accuracy_score, f1_score, roc_auc_score회귀 : 종속(목표변수) - ex) 가격, 수치, -RMSE, 결정계수 독립변수(x), 종속변수(y)x_train, y_trainx_test, y_test 문제 풀이 순서 요약 (확 -> 라 -> 모 -> 학 -> 평 -> ..

Python integer 실수형-정수형 자료 변환하기

코드를 작성하다 보면 종종 정수형 자료를 사용한 연산이 필요 파이썬 내장함수 int()는 실수형 자료를 정수형 자료로 변환 int()는 인자로 받은 값의 소수 부분은 버리고, 정수 부분만 취합 예제코드 # 1.3을 정수형 자료로 변환합니다. num1 = int(1.3) print(num1) # -4.77을 정수형 자료로 변환합니다. num2 = int(-4.77) print(num2) 실행결과 1 -4