분류 전체보기 (85) 썸네일형 리스트형 Martin's Bookshelf_Part 2 : ERD & Database MVC 모델의 기반이 될 ERD 작업을 시작한다. 작업을 하는 PC에 erwin을 설치하였지만 평가판이 만료되어 수기로 ERD를 진행했다. 책의 기본적인 정보와 사진을 리스트로 확인할 수 있는 페이지를 만든 것이 우선의 계획이다. 나중에 게시판의 기능을 활용하여 각 책의 초록을 기록하는 기능을 추가적으로 구현할 예정이다.(아마 Bulletin 테이블을 추가해서 기존 테이블을 참조하는 방식으로..?) 따라서 우선의 계획을 따른 ERD로 SQL을 활용하여 테이블을 만든다. Book 테이블은 Member 테이블에서 외래키를 참조해야 하기 때문에 Member 테이블을 우선적으로 작업한다. [ ⅰ: MEMBER Table SQL ] 로그인 기능 구현과 주소 찾기 API 활용을 위한 테이블을 작성하기 위한 SQL문.. Martin's Bookshelf_Part 1 : Project Preset [ Stepⅰ: Preset 적용 ] 프로젝트를 본격적으로 시작하기 앞서 학원 수업에서 배웠던 Spring DB Preset 진행한다. 이 Spring DB Preset을 설명하자면 이렇다. src/main/resources에 수업시간 동안 진행했던 db의 프로퍼티, MyBatis의 매퍼 세팅 등이 적용된 소스들로 구성되어 있다. 특히 config.spring.context에는 xml 파일들이 세부적으로 나뉘어져 있는데, 나중에 빈 인젝션 작업을 할 때 순차적으로 구분해주는 역할을 해주어 초보자들이 개발하는데 혼란을 덜어준다. web.xml에는 UTF-8 encoding Filter와 *.do 형식으로 호출하는 classpath가 설정되어 있다. pom.xml에는 게시판 형식을 구현하게 해주는 라이브러리.. 조사방법론Ⅰ: 자료수집 방법 [ ⅰ. 자료의 종류 ] 1. 1차 자료 의미 : 현재 수행 중인 의사결정 문제를 해결하기 위해 직접 수집하는 자료 유용성 : 연구 목적에 최적화된 원자료를 수집가능 한계: 2차 자료가 충분할 時, 해당 자료들을 사용하는 것이 시간/비용적으로 경제적이다 오류/오차 : 불포함오류 : 표본체계가 완전하지 않아 발생하는 오류 무응답오류 : 조사현장에서의 오류 : 면접/관찰 과정에서 발생하는 오류 자료 기록 및 처리에서의 오류 : 2. 2차 자료 의미 : 다른 목적을 위해 이미 수집되고 정리된 자료 (= 기성자료) 유용성 : 수집의 용이성 = 경제적 한계 : 시의성 / 신뢰도 & 자료의 수집 목적, 조작적 정의 등이 현재 연구와 이질적인 문제 2차 자료 수집 시.. Part Ⅸ: 한국 복지 패널 데이터 분석 [ 0. 데이터 읽어오기] Package 설치/로드 데이터 로드/검토 변수명 rename 작업 더보기 library(foreign) library(dplyr) library(readxl) library(ggplot2) raw_welfare % group_by(age, sex) %>% summarise(mean_income = mean(income)) income_by_sex_age # 여러개의 그래프 시각화 ggplot(data = income_by_sex_age, aes(x=age, y=mean_income, col=sex)) + geom_line() [ ⅴ. 직업별 월급 차이 ] 직업 변수 검토 및 전처리 left_join 활용 직업별 월급 차이 분석 → 시각화 더보기 # Step 1: 직업 변수 검.. Part Ⅷ: 데이터 시각화 geom_point() geom_col() geom_bar() geom_line() geom_boxplot() 산점도 데이터 가공 → 평균 막대 그래프 데이터 원자료 → 빈도 막대 그래프 시계열 자료 표현 데이터 분포 표현 Cheatsheet : 패키지 사용법을 요약한 매뉴얼 참고. R Studio → Help → Cheatsheet → Data Visualization wiht ggplot The R Graph Gallery ggplot() vs qplot() qplot() : 전처리 단계 데이터 확인용 ggplot() : 최종 보도용. 색, 크기, 폰트 등 세부 조작 가능 ggplot_syntax & layer structure [ ⅰ. 산점도 pg. 188 ] Q1. mpg 데이터의 cty(도시 연.. Part Ⅶ: 데이터 정제(결측치 / 이상치) is.na() !is.na() na.omit() na.rm = T 결측치(NA) 확인 결측치 제외 모든 변수에서 결측치 없는 데이터 추출 함수의 결측치 제외 기능 결측치를 포함한 상태로 분석을 진행하는 경우 통계값은 NA가 반환이 된다. ∴ 결측치 정제가 중요 [ ⅰ. 결측치 (Missing Value) 정제하기 pg. 170 ] mpg 데이터 원본에는 결측치가 없습니다. 우선 mpg 데이터를 불러와 몇 개의 값을 결측치로 만들겠습니다. 아래 코드를 실행하면 다섯 행의 hwy 변수에 NA가 할당됩니다. mpg % arrange(desc(mean_hwy)) # Q2-2 mpg %>% group_by(drv) %>% summarise(mean_hwy = mean(hwy, na.rm = T)) %>% arra.. Part Ⅵ: 데이터 전처리 filter() select() arrange() mutate() 행 추출 열(변수) 추출 정렬 변수 추가 summarise() group_by() left_join() bind_rows() 통계치 산출 집단별로 나누기 데이터 합치기(열) 데이터 합치기(행) [ ⅰ. 조건별 추출 pg.133 ] mpg 데이터를 이용해 분석 문제를 해결해 보세요. Q1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 합니다. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 알아보세요. Q2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 합니다. "audi"와 "toyota" 중 어느 manufacturer(자동차 제조 회사)의 .. Part Ⅴ: 데이터 분석 기초 Q1. ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요 Q2. poptotal 변수를 total로, popasian 변수를 asian으로 수정하세요 Q3. total, asian 변수를 이용해 '전체 인구 대비 아시아 인구 백분율' 파생변수를 만들고 히스토그램을 만들어 도시들이 어떻게 분포하는지 살펴보세요 Q4. 아시아 인구 백분율 전체 평균을 구하고, 평균을 초과하면 "large", 그 외에는 "small"을 부여하는 파생변수를 만들어 보세요 Q5. "large"와 "small"에 해당하는 지역이 얼마나 되는지 빈도표와 빈도 막대 그래프를 만들어 확인해보세요. # Q1 library(ggplot2) df 이전 1 ··· 7 8 9 10 11 다음