lab01
# 단일변수(범주형, 연속형)에 대한 북석을 해보고 그래프로 데이터시각화를 한번 해보자.
favorite <- c("WINTER","SUMMER","SPRING","SUMMER","SUMMER","SPRING","FALL","FALL","SUMMER","FALL")
class(favorite)
favorite
length(favorite)
# 범주형 데이터에서 빈도수를 출력할때 table()사용함
table(favorite)
# 비율계산
table(favorite)/length(favorite)
ds <- table(favorite)
ds
class(ds)
str(ds)
# 막대그래프 : 집단 간 차이를 확인하고자 할때 유용함.
barplot(ds, main = "선호하는 계절")
# 품종별 꽃잎 길이의 평균을 구함함
x <- aggregate(Petal.Length ~ Species, iris, mean)
barplot(x$Petal.Length, names = x$Species)
# 원그래프 : 데이터 비율 표현하는데 유용함
pie(ds, main = "선호하는 계절")
# 품종별 꽃잎 길이의 합산을 구함함
x <- aggregate(Petal.Length ~ Species, iris, sum)
pie(x$Petal.Length, labels = x$Species)
c <- c("green","red","yellow","black")
barplot(ds,main = "좋아하는 계절",col=c)
pie(ds,main="선호하는 계절",col=c)
favoritecolor <- c(2,3,1,1,1,3,1,1,1,2,1)
length(favoritecolor)
table(favoritecolor)
ds <- table(favoritecolor)
barplot(ds,main = "선호하는 색상",col=c)
c <- c("green","red","blue")
barplot(ds,main = "선호하는 색상",col=c)
names(ds) <- c
ds
barplot(ds,main = "선호하는 색상",col=c)
# name() 이용하여 자료값 1,2,3을
# green, red, blue로 변경함.
pie(ds,main="선호하는 색상",col=c)
city <- c("서울","부산","대구","인천","광주","대전","구미")
pm25 <- c(10, 21, 21, 17, 8, 11, 10)
colors <- c("red","orange","yellow","green","lightblue","blue","violet")
pie(pm25, labels = city, col=colors, main = "지역별 초 미세먼지 농도",init.angle=90, clockwise="T")
# 막대그래프에 속성을 최대한 이용함
hight <- c(9,15,20,6)
name <- c("영업 1팀", "영업 2팀", "영업 3팀", "영업 4팀")
barplot(hight, names.arg = name, main = "부서별 영업 실적")
barplot(hight, names.arg = name, main = "부서별 영업 실적", col = rainbow(length(hight)),xlab = "부서",ylab="영업실적(억원)")
# 원그래프에 속성을 최대한 이용함함
x <- c(9,15,20,6)
label <- c("영업 1팀", "영업 2팀", "영업 3팀", "영업 4팀")
pie(x, main = "부서별 영업실적")
pie(x, init.angle = 90, labels = label, main ="부서별 영업 실적")
pct <- x/sum(x)
pct <- round(x/sum(x)*100) #각 항목의 비율 구함
pct
pie(x, init.angle = 90, labels = label, main ="부서별 영업 실적",col = rainbow(length(x)))
label <- paste(label, pct)
label
label <- paste(label ,"%")
label
pie(x, init.angle =90, labels = label , main ="부서별 영업 실적 ",col = rainbow(length(x)))
lab02
# 단일변수의 연속형 자료에 대한 분석
# 1. 평균과 중앙값
weight <- c(60,62,64,65,68,69)
weightheavy <- c(weight,120)
weight
weightheavy
# 평균값 비교
# 평균값은 하나의 값이 특이값으로 들어오게되면 평균이 확올라가거나 내려간다.
mean(weight)
mean(weightheavy)
# 중앙값 비교교
# 중앙값은 데이터를 일렬로 나열할때, 가운데 있는 값이기 떄문에 영향을 덜 받는다.
median(weight)
median(weightheavy)
# 절사평균
# trim이라는 속성을 상하위 20%제외
# 나머지값을 가지고 평균구함.
mean(weight, trim = 0.2)
mean(weightheavy, trim = 0.2)
# 사분위수에 대한 이해하기
data <- c(60,62,64,65,68,69,120)
# 사분위수를 구하는 함수
quantile(data) # 25%단위로 끊어서 출력을 한다.
quantile(x=data, probs = (0:10/10)) # 10%단위로 끊어서 출력을 한다.
# summary() 함수를 이용해서 출력하면 6개의 값이 산출이 된다.
# 최소값, 1사분위수, 중앙값(2사분위수), 평균, 3사분위수, 최대값이 순서대로 출력이 된다.
summary(object = data)
mydata <- c(1:10)
mean(x = mydata)
# 표준편차가 작다. 작다는 것은 바로 평균과 가까이 모여있다.
# 표준편차가 크다. 크다는 것은 바로 평균과 멀리 떨어져 있다.
var(x = mydata)
sd(x = mydata)
mydata <- c(1,1,1,1,1)
mean(x = mydata)
var(x = mydata)
sd(x = mydata)
mydata2 <- c(60,100,64,101,150,115,120)
mean(x = mydata2)
#값의 범위를 알아내는 함수
range(mydata2)
# diff()통해서 값이 크면 클수록 평균과 많이 관측값들이 떨어져있다라고 해석을 하면됨.
diff(x = range(mydata2))