'한국복지패널데이터' 분석 준비하기
RLab01
# 데이터분석(EDA) 준비하기
# 1) 패키지 준비 -- foreign패키지 설치
install.packages("foreign")
# 2) 패키지 로드
library(foreign)
library(dplyr)
library(ggplot2)
# 3) 데이터 불러오기
# - 복지패널데이터 로드드
# raw_welfare <- read.spss("Koweps_hpc10_2015_beta1.sav", to.data.frame = T)
raw_welfare <- read.spss("data_spss_Koweps2014.sav", to.data.frame = T)
# 4) 데이터 copy
welfare <- raw_welfare
# 5) 데이터 검토하기
head(welfare)
tail(welfare)
View(welfare)
dim(welfare)
str(welfare)
summary(welfare)
# 6) 변수명 바꾸기
# welfare <- rename(welfare,
# sex = h10_g3, #성별
# birth = h10_g4, #태어난 연도
# income = h10_din #가쳐분 소득
# )
welfare <- rename(welfare,
sex = h0901_4, #성별
birth = h0901_5, #태어난 연도
income = h09_din #가쳐분 소득
)
# 7) 변수 확인
class(welfare$sex)
summary(welfare$sex)
table(welfare$sex)
class(welfare$birth)
summary(welfare$birth)
table(welfare$birth)
class(welfare$income)
summary(welfare$income)
table(welfare$income)
RLab02
# 정제 - 이상치 확인 및 결측처리
# 성별 이상치 : 모름/무응답 ==> 9 표기
# 이상치 확인
table(welfare$sex)
# 이상치 결측 처리
welfare$sex <- ifelse(welfare$sex == 9, NA, welfare$sex)
# 결측치 확인
table(is.na(welfare$sex))
# 변수값 변경 --항목 이름 부여
welfare$sex <- ifelse(welfare$sex == 1, "male", "female")
table(welfare$sex)
qplot(welfare$sex)
RLab03
# 정제 - 이상치 확인 및 결측처리 - 소득
# 변수 검토 및 수정
class(welfare$income)
summary(welfare$income)
qplot(welfare$income) + xlim(0,10000)
# 성별, 소득 평균 분석
# 성별 소득 평균표 생성
sex_income <- welfare %>%
group_by(sex) %>%
summarise(mean_income = mean(income))
sex_income
# 그래프 생성
ggplot(data = sex_income, aes(x = sex, y=mean_income))+geom_col()