데이터 분석/R (7) 썸네일형 리스트형 Part ⅩⅠ: 지도 시각화 [ ⅰ. 미국 주별 범죄율 단계 구분도 ] 패키지 준비 → 데이터 준비 미국 주(state) 지도 데이터 준비 단계 구분도 작성 인터랙티브 단계 구분도 ggChropleth() data aes(fill= ) aes(map_id= ) map interactive 표현할 데이터 색으로 표현할 변수 지역 기준 변수 지도 데이터 마우스 움직임에 반응하는 구분도 더보기 ### Step 1: install.packages("mapproj") install.packages("ggiraphExtra") library(ggiraphExtra) library(tibble) str(USArrests) head(USArrests) # 변수로 처리되지 않은 지역명 → state로 변수화 crime Part Ⅹ: 텍스트 마이닝 [ ⅰ. 데이터 마이닝 준비하기 ] 데이터 마이닝 작업을 하기 위해서는 한국어 자연어 패키지(KoNLP)를 활용해야 한다. R에서 이 패키지를 다운로드하는 방법이 제법 까다로워졌는데 교재에 기재된 다운로드 순서는 다음과 같다. * JDK가 이미 설치되어 있다는 가정하에 진행하였다. Rtools를 설치한다 아래 코드를 R Studio에서 차례대로 실행한다 더보기 install.packages("rJava") install.packages("memoise") install.packages("multilinguer") install.packages(c("stringr", "hash", "tau", "Sejong", "RSQLite", "devtools"), type = "binary") install.pack.. Part Ⅸ: 한국 복지 패널 데이터 분석 [ 0. 데이터 읽어오기] Package 설치/로드 데이터 로드/검토 변수명 rename 작업 더보기 library(foreign) library(dplyr) library(readxl) library(ggplot2) raw_welfare % group_by(age, sex) %>% summarise(mean_income = mean(income)) income_by_sex_age # 여러개의 그래프 시각화 ggplot(data = income_by_sex_age, aes(x=age, y=mean_income, col=sex)) + geom_line() [ ⅴ. 직업별 월급 차이 ] 직업 변수 검토 및 전처리 left_join 활용 직업별 월급 차이 분석 → 시각화 더보기 # Step 1: 직업 변수 검.. Part Ⅷ: 데이터 시각화 geom_point() geom_col() geom_bar() geom_line() geom_boxplot() 산점도 데이터 가공 → 평균 막대 그래프 데이터 원자료 → 빈도 막대 그래프 시계열 자료 표현 데이터 분포 표현 Cheatsheet : 패키지 사용법을 요약한 매뉴얼 참고. R Studio → Help → Cheatsheet → Data Visualization wiht ggplot The R Graph Gallery ggplot() vs qplot() qplot() : 전처리 단계 데이터 확인용 ggplot() : 최종 보도용. 색, 크기, 폰트 등 세부 조작 가능 ggplot_syntax & layer structure [ ⅰ. 산점도 pg. 188 ] Q1. mpg 데이터의 cty(도시 연.. Part Ⅶ: 데이터 정제(결측치 / 이상치) is.na() !is.na() na.omit() na.rm = T 결측치(NA) 확인 결측치 제외 모든 변수에서 결측치 없는 데이터 추출 함수의 결측치 제외 기능 결측치를 포함한 상태로 분석을 진행하는 경우 통계값은 NA가 반환이 된다. ∴ 결측치 정제가 중요 [ ⅰ. 결측치 (Missing Value) 정제하기 pg. 170 ] mpg 데이터 원본에는 결측치가 없습니다. 우선 mpg 데이터를 불러와 몇 개의 값을 결측치로 만들겠습니다. 아래 코드를 실행하면 다섯 행의 hwy 변수에 NA가 할당됩니다. mpg % arrange(desc(mean_hwy)) # Q2-2 mpg %>% group_by(drv) %>% summarise(mean_hwy = mean(hwy, na.rm = T)) %>% arra.. Part Ⅵ: 데이터 전처리 filter() select() arrange() mutate() 행 추출 열(변수) 추출 정렬 변수 추가 summarise() group_by() left_join() bind_rows() 통계치 산출 집단별로 나누기 데이터 합치기(열) 데이터 합치기(행) [ ⅰ. 조건별 추출 pg.133 ] mpg 데이터를 이용해 분석 문제를 해결해 보세요. Q1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 합니다. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 알아보세요. Q2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 합니다. "audi"와 "toyota" 중 어느 manufacturer(자동차 제조 회사)의 .. Part Ⅴ: 데이터 분석 기초 Q1. ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요 Q2. poptotal 변수를 total로, popasian 변수를 asian으로 수정하세요 Q3. total, asian 변수를 이용해 '전체 인구 대비 아시아 인구 백분율' 파생변수를 만들고 히스토그램을 만들어 도시들이 어떻게 분포하는지 살펴보세요 Q4. 아시아 인구 백분율 전체 평균을 구하고, 평균을 초과하면 "large", 그 외에는 "small"을 부여하는 파생변수를 만들어 보세요 Q5. "large"와 "small"에 해당하는 지역이 얼마나 되는지 빈도표와 빈도 막대 그래프를 만들어 확인해보세요. # Q1 library(ggplot2) df 이전 1 다음