데이터 분석 (27) 썸네일형 리스트형 Part Ⅶ: 데이터 정제(결측치 / 이상치) is.na() !is.na() na.omit() na.rm = T 결측치(NA) 확인 결측치 제외 모든 변수에서 결측치 없는 데이터 추출 함수의 결측치 제외 기능 결측치를 포함한 상태로 분석을 진행하는 경우 통계값은 NA가 반환이 된다. ∴ 결측치 정제가 중요 [ ⅰ. 결측치 (Missing Value) 정제하기 pg. 170 ] mpg 데이터 원본에는 결측치가 없습니다. 우선 mpg 데이터를 불러와 몇 개의 값을 결측치로 만들겠습니다. 아래 코드를 실행하면 다섯 행의 hwy 변수에 NA가 할당됩니다. mpg % arrange(desc(mean_hwy)) # Q2-2 mpg %>% group_by(drv) %>% summarise(mean_hwy = mean(hwy, na.rm = T)) %>% arra.. Part Ⅵ: 데이터 전처리 filter() select() arrange() mutate() 행 추출 열(변수) 추출 정렬 변수 추가 summarise() group_by() left_join() bind_rows() 통계치 산출 집단별로 나누기 데이터 합치기(열) 데이터 합치기(행) [ ⅰ. 조건별 추출 pg.133 ] mpg 데이터를 이용해 분석 문제를 해결해 보세요. Q1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 합니다. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 알아보세요. Q2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 합니다. "audi"와 "toyota" 중 어느 manufacturer(자동차 제조 회사)의 .. Part Ⅴ: 데이터 분석 기초 Q1. ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요 Q2. poptotal 변수를 total로, popasian 변수를 asian으로 수정하세요 Q3. total, asian 변수를 이용해 '전체 인구 대비 아시아 인구 백분율' 파생변수를 만들고 히스토그램을 만들어 도시들이 어떻게 분포하는지 살펴보세요 Q4. 아시아 인구 백분율 전체 평균을 구하고, 평균을 초과하면 "large", 그 외에는 "small"을 부여하는 파생변수를 만들어 보세요 Q5. "large"와 "small"에 해당하는 지역이 얼마나 되는지 빈도표와 빈도 막대 그래프를 만들어 확인해보세요. # Q1 library(ggplot2) df 이전 1 2 3 4 다음