헤맨 만큼 내 땅이다

Python 24

빅데이터 분석기사 실기 체험 문제 유형 2번 풀이(26.6/8)

25년도 실기 유형 반영해서두가지 모델(RandomForest, LGBM)로 풀이를 하는 코드를 추가합니다. import pandas as pdimport numpy as np # RMSE 계산을 위해 위로 올렸습니다.train = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩train1 = train.copy()test1 = test.copy()# 결측치 제거train1['환불금액'] = train1['환불금액'].fillna(train1['환불금액'].mode()[0])test1['환불금액'] = test1['환불금액'].fillna(test1['환불금액'].mode()[0])# 라벨..

빅분기 실기 11회 대비 정리(작업형 1유형)

주요 핵심 코드 0.각 값이 몇 번 나왔는지 계산 : value_counts() 1. 컬럼별 그룹화 : groupby('column')['column'] (~별 ~의)- groupby('column').size : 컬럼별 횟수 구할 수 있음 2. 데이터 정렬 : sort_values(ascending = False) ← 내림차순 3. 날짜 데이터 처리 :yyyy = pd.to_datetime(df['column'], format = '%Y %m %d).dt.strftime('%Y')Ex)“Jan 3, 2018” → %b %d, %Y“March 3, 2018” → %B %d, %Y ordf['주문월'] = df['주문시간'].dt → .dt.year # 연도 추출 (2025) ..

빅데이터 분석기사 실기 체험 문제 유형 2번 풀이(25.11/21)

25년 11월 21일 기준으로 되어있는 빅데이터 분석기사 실기 체험 문제 유형 2번 풀이 드립니다. # 출력을 원하실 경우 print() 함수 활용# 예시) print(df.head())# getcwd(), chdir() 등 작업 폴더 설정 불필요# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#print(test)#회귀 모델# 사용자 코딩train1 = train.copy()test1 = test.copy()#print(test1)#결측치 제거train1['환불금액'] = train1['환불금액'].f..

(2015.11.16) 빅데이터분석기사 실기 체험 문제

# 출력을 원할 경우 print() 함수 활용# 예시) print(df.head())# getcwd(), chdir() 등 작업 폴더 설정 불필요# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가import pandas as pdimport numpy as npdf = pd.read_csv("data/employee_performance.csv")# 사용자 코딩# 해당 화면에서는 제출하지 않으며, 문제 풀이 후 답안제출에서 결괏값 제출df['고객만족도'] = df['고객만족도'].fillna(df['고객만족도']).mean()df = df.dropna(subset = ['근속연수'])print(df.info())#3ans_3 = df['고객만족도'].quantile(.75)ans_3_1 = np...

Python Pandas 기초(loc, iloc)

1) .loc는 판다스에서 가장 중요한 인덱싱 방법 .loc는 라벨(label) 기반 인덱싱이야.즉 행과 열의 이름을 이용해서 데이터를 선택숫자 위치(index 위치) 기반이 아님df.loc[행_라벨, 열_라벨] 행_라벨 = 선택하고 싶은 행의 이름(index)열_라벨 = 선택하고 싶은 열 이름(column)둘 다 생략 가능, 콜론(:)으로 범위 지정 가능예시 Dataframeimport pandas as pddf = pd.DataFrame({ 'Glucose':[120, 140, 130], 'BMI':[30.1, 25.2, 28.5], 'Age':[45, 50, 38], 'Outcome':[1, 0, 0]}, index=['A', 'B', 'C'])print(df) Glu..

빅분기 실기 유형 3 정리 (가설 검정 및 통계 분석)

두 집단이 정말 차이가 있는 걸까? 아니면 우연일까?t-검정이나 카이제곱 검정 등을 활용해 데이터의 의미를 통계적으로 확인하는 방법에 대한 유형입니다. 가. 가설검정 1. T-검정1) 일표본 평균 검정: 모분산을 모르는 경우 (단일표본 t 검정)from scipy import statsstatistic, pvalue = stats.ttest_1samp(sample_data, popmean=기준값) 2) 이표본 독립표본 평균 검정(독립표본 t 검정, 대응표본 t 검정)statistic, pvalue = stats.ttest_ind(male_data, female_data, equal_var=False)3) 대응 표본statistic, pvalue = stats.ttest_rel(before, after) ..

빅분기 실기 유형 1 기출문제 코드 (to_datetime, strftime, astype)

df['yyyy'] = pd.to_datetime(df['release_date']).dt.strftime('%Y').astype(int)# 대소문자 y 구분 이 코드는 pandas에서 문자열 형태의 날짜(release_date)를 처리해서 연도만 숫자 형태로 추출하는 방법 1) pd.to_datetime(df['release_date]) : 열에 들어 있는 문자열 날짜를 datetime(날짜형)으로 변경release_date (원래 데이터) 변환 결과"2023-05-10"Timestamp('2023-05-10 00:00:00')"2021-11-02"Timestamp('2021-11-02 00:00:00') 2) .dt.strftime('%Y')strftime은 날짜를 문자열 포맷으로 변환 하는 함수- ..

빅분기 실기 체험문제 1유형

1유형은 아래 세가지 함수를 꼭 마스터 하도록 하자 groupbysort_values()value_counts() import pandas as pdimport mathdf = pd.read_csv("data/employee_performance.csv")#print(df.head())#print(df.info())#print(df.isnull().sum())df['고객만족도'] = df['고객만족도'].fillna(df['고객만족도'].mean())df = df.dropna(subset=['근속연수'])#print(df.info())#print(df.isnull().sum())#a = df['고객만족도'].quantile(0.75)#a_trunc = math.trunc(a)#print(a_trunc)#..