헤맨 만큼 내 땅이다

2025/11 10

빅분기 실기 11회 대비 정리(작업형 1유형)

주요 핵심 코드 1. 컬럼별 그룹화 : groupby('column')['column'] (~별 ~의) 2. 데이터 정렬 : sort_values(ascending = False) ← 내림차순 3. 날짜 데이터 처리 :yyyy = pd.to_datetime(df['column'], format = '%Y %m %d).dt.strftime('%Y')Ex)“Jan 3, 2018” → %b %d, %Y“March 3, 2018” → %B %d, %Y 4. 결측치 처리 :1) 최빈값 : df['column'] = df['column'].fillna(df['column'].mode()[0])2) 결측값 삭제 : df = df.dropna(subset = ['column']) 5. 최소- 최대 정규화 : MinMa..

빅데이터 분석기사 실기 체험 문제 유형 2번 풀이(25.11/21)

25년 11월 21일 기준으로 되어있는 빅데이터 분석기사 실기 체험 문제 유형 2번 풀이 드립니다. # 출력을 원하실 경우 print() 함수 활용# 예시) print(df.head())# getcwd(), chdir() 등 작업 폴더 설정 불필요# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#print(test)#회귀 모델# 사용자 코딩train1 = train.copy()test1 = test.copy()#print(test1)#결측치 제거train1['환불금액'] = train1['환불금액'].f..

(2015.11.16) 빅데이터분석기사 실기 체험 문제

# 출력을 원할 경우 print() 함수 활용# 예시) print(df.head())# getcwd(), chdir() 등 작업 폴더 설정 불필요# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가import pandas as pdimport numpy as npdf = pd.read_csv("data/employee_performance.csv")# 사용자 코딩# 해당 화면에서는 제출하지 않으며, 문제 풀이 후 답안제출에서 결괏값 제출df['고객만족도'] = df['고객만족도'].fillna(df['고객만족도']).mean()df = df.dropna(subset = ['근속연수'])print(df.info())#3ans_3 = df['고객만족도'].quantile(.75)ans_3_1 = np...

Python Pandas 기초(loc, iloc)

1) .loc는 판다스에서 가장 중요한 인덱싱 방법 .loc는 라벨(label) 기반 인덱싱이야.즉 행과 열의 이름을 이용해서 데이터를 선택숫자 위치(index 위치) 기반이 아님df.loc[행_라벨, 열_라벨] 행_라벨 = 선택하고 싶은 행의 이름(index)열_라벨 = 선택하고 싶은 열 이름(column)둘 다 생략 가능, 콜론(:)으로 범위 지정 가능예시 Dataframeimport pandas as pddf = pd.DataFrame({ 'Glucose':[120, 140, 130], 'BMI':[30.1, 25.2, 28.5], 'Age':[45, 50, 38], 'Outcome':[1, 0, 0]}, index=['A', 'B', 'C'])print(df) Glu..

빅분기 실기 유형 3 정리 (가설 검정 및 통계 분석)

두 집단이 정말 차이가 있는 걸까? 아니면 우연일까?t-검정이나 카이제곱 검정 등을 활용해 데이터의 의미를 통계적으로 확인하는 방법에 대한 유형입니다. 가. 가설검정 1. T-검정1) 일표본 평균 검정: 모분산을 모르는 경우 (단일표본 t 검정)from scipy import statsstatistic, pvalue = stats.ttest_1samp(sample_data, popmean=기준값) 2) 이표본 독립표본 평균 검정(독립표본 t 검정, 대응표본 t 검정)statistic, pvalue = stats.ttest_ind(male_data, female_data, equal_var=False)3) 대응 표본statistic, pvalue = stats.ttest_rel(before, after) ..

빅분기 실기 유형 1 기출문제 코드 (to_datetime, strftime, astype)

df['yyyy'] = pd.to_datetime(df['release_date']).dt.strftime('%Y').astype(int)# 대소문자 y 구분 이 코드는 pandas에서 문자열 형태의 날짜(release_date)를 처리해서 연도만 숫자 형태로 추출하는 방법 1) pd.to_datetime(df['release_date]) : 열에 들어 있는 문자열 날짜를 datetime(날짜형)으로 변경release_date (원래 데이터) 변환 결과"2023-05-10"Timestamp('2023-05-10 00:00:00')"2021-11-02"Timestamp('2021-11-02 00:00:00') 2) .dt.strftime('%Y')strftime은 날짜를 문자열 포맷으로 변환 하는 함수- ..

빅분기 실기 유형 1 기출문제 코드 (apply)

df['word_count'] = df['content'].apply(lambda x : len(x.split())) content 컬럼의 내용을 뛰어쓰기 기준으로 나누어 단어 수를 계산하고, word_count 라는 새로운 컬럼을 만들어 보자. df['content']를 통해 기존 컬럼을 가져온다..apply 함수 적용 : Series의 각 원소 (행마다) 함수를 적용하는 메서드 'content' 열의 각 문장에 대해 괄호안의 함수를 하나씩 적용lambda x : len(x.split())- lambda는 짧은 함수를 만드는 문법- x 각 행의 문자열- x.split() : 문자열을 공백 기준으로 나눔- len : 리스트의 길이 계산 결과content word_count"I love machine ..

카테고리 없음 2025.11.09

빅분기 실기 유형 1 기출문제 코드(groupby, sort_values)

1. groupby : 데이터프레임을 특정 기준으로 묶는 함수예시)ans_1 = df.groupby('subtopic')['is_correct].mean() ┗기준 ┗어떤 열을 묶을 것인가- mean(), sum(), count(), size() 같은 집계함수를 붙여야 완성 ※ 집계함수 차이.size() = 그룹별 전체 행수 (결측치 포함).count() = 그룹별 "결측치가 아닌 값"만 생성.nunique() = 중복 제거 후 고유값 개수 import pandas as pddf = pd.DataFrame({ 'subtopic': ['문법', '문법', '독해', '어휘', '독해', '문법']})print(df['subtopic'..

카테고리 없음 2025.11.02