lab01

    # 단일변수(범주형, 연속형)에 대한 북석을 해보고 그래프로 데이터시각화를 한번 해보자.
    
    favorite <- c("WINTER","SUMMER","SPRING","SUMMER","SUMMER","SPRING","FALL","FALL","SUMMER","FALL")
    class(favorite)
    favorite
    length(favorite)
    # 범주형 데이터에서 빈도수를 출력할때 table()사용함
    table(favorite)
    # 비율계산
    table(favorite)/length(favorite)
    
    ds <- table(favorite)
    ds
    class(ds)
    str(ds)
    
    # 막대그래프 : 집단 간 차이를 확인하고자 할때 유용함.
    barplot(ds, main = "선호하는 계절")
    
    # 품종별 꽃잎 길이의 평균을 구함함
    x <-  aggregate(Petal.Length ~ Species, iris, mean)
    barplot(x$Petal.Length, names = x$Species)
    
    # 원그래프 : 데이터 비율 표현하는데 유용함
    pie(ds, main = "선호하는 계절")
    
    # 품종별 꽃잎 길이의 합산을 구함함
    x <-  aggregate(Petal.Length ~ Species, iris, sum)
    pie(x$Petal.Length, labels = x$Species)
    
    c <- c("green","red","yellow","black")
    barplot(ds,main = "좋아하는 계절",col=c)
    pie(ds,main="선호하는 계절",col=c)
    
    favoritecolor <- c(2,3,1,1,1,3,1,1,1,2,1)
    length(favoritecolor)
    table(favoritecolor)
    ds <- table(favoritecolor)
    barplot(ds,main = "선호하는 색상",col=c)
    c <- c("green","red","blue")
    barplot(ds,main = "선호하는 색상",col=c)
    names(ds) <- c
    ds
    barplot(ds,main = "선호하는 색상",col=c)
    # name() 이용하여 자료값 1,2,3을
    # green, red, blue로 변경함.
    pie(ds,main="선호하는 색상",col=c)
    
    city <- c("서울","부산","대구","인천","광주","대전","구미")
    pm25 <- c(10, 21, 21, 17, 8, 11, 10)
    colors <- c("red","orange","yellow","green","lightblue","blue","violet")
    pie(pm25, labels = city, col=colors, main = "지역별 초 미세먼지 농도",init.angle=90, clockwise="T")
    
    # 막대그래프에 속성을 최대한 이용함
    hight <- c(9,15,20,6)
    name <- c("영업 1팀", "영업 2팀", "영업 3팀", "영업 4팀")
    barplot(hight, names.arg = name, main = "부서별 영업 실적")
    barplot(hight, names.arg = name, main = "부서별 영업 실적", col = rainbow(length(hight)),xlab = "부서",ylab="영업실적(억원)")
    
    # 원그래프에 속성을 최대한 이용함함
    x <- c(9,15,20,6)
    label <- c("영업 1팀", "영업 2팀", "영업 3팀", "영업 4팀")
    pie(x, main = "부서별 영업실적")
    pie(x, init.angle = 90, labels = label, main ="부서별 영업 실적")
    pct <- x/sum(x)
    pct <- round(x/sum(x)*100) #각 항목의 비율 구함
    pct
    pie(x, init.angle = 90, labels = label, main ="부서별 영업 실적",col = rainbow(length(x)))
    
    label <- paste(label, pct)
    label
    label <- paste(label ,"%")
    label
    
    pie(x, init.angle =90, labels = label , main ="부서별 영업 실적 ",col = rainbow(length(x)))
    
    

     

    lab02

     

    # 단일변수의 연속형 자료에 대한 분석
    # 1. 평균과 중앙값
    
    weight <- c(60,62,64,65,68,69)
    weightheavy <- c(weight,120)
    weight
    weightheavy
    
    # 평균값 비교
    # 평균값은 하나의 값이 특이값으로 들어오게되면 평균이 확올라가거나 내려간다.
    mean(weight)
    mean(weightheavy)
    
    # 중앙값 비교교
    # 중앙값은 데이터를 일렬로 나열할때, 가운데 있는 값이기 떄문에 영향을 덜 받는다.
    median(weight)
    median(weightheavy)
    
    # 절사평균
    # trim이라는 속성을 상하위 20%제외
    # 나머지값을 가지고 평균구함.
    mean(weight, trim = 0.2)
    mean(weightheavy, trim = 0.2)
    
    # 사분위수에 대한 이해하기
    data <- c(60,62,64,65,68,69,120)
    
    # 사분위수를 구하는 함수
    quantile(data) # 25%단위로 끊어서 출력을 한다.
    quantile(x=data, probs = (0:10/10)) # 10%단위로 끊어서 출력을 한다.
    
    # summary() 함수를 이용해서 출력하면 6개의 값이 산출이 된다.
    # 최소값, 1사분위수, 중앙값(2사분위수), 평균, 3사분위수, 최대값이 순서대로 출력이 된다.
    summary(object = data)
    
    mydata <- c(1:10)
    mean(x = mydata)
    # 표준편차가 작다. 작다는 것은 바로 평균과 가까이 모여있다.
    
    # 표준편차가 크다. 크다는 것은 바로 평균과 멀리 떨어져 있다.
    var(x = mydata)
    sd(x = mydata)
    
    mydata <- c(1,1,1,1,1)
    mean(x = mydata)
    var(x = mydata)
    sd(x = mydata)
    
    mydata2 <- c(60,100,64,101,150,115,120)
    mean(x = mydata2)
    
    #값의 범위를 알아내는 함수
    range(mydata2)
    
    # diff()통해서 값이 크면 클수록 평균과 많이 관측값들이 떨어져있다라고 해석을 하면됨.
    diff(x = range(mydata2))
    
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기
    loading