3. 1. 주제선정
1-1. 목적
1-2. 과제선정
2. 추진일정
2-1. WBS
2-2. 모임 및 활동
2-2. 주별 주요 진행사항
3. 사용기술
3-1. 주요기술
3-2. 환경구축
4. 과제수행
4-1. 데이터 수집
4-2. 데이터 정제, 통합
4-3. 데이터 분석
5. 수행결과
5-1. 분석결과
5-2. 향후 과제
6. 과정 리뷰
5-1. 분석 애로사항
5-2. 조별 활동 상세
4. “이번에 이사를 가야
하는데 우리 아이들
교육 환경이 좋은
곳으로 가고 싶은데
어디로 가야 할까?”
2조 조장님
1-1 목적 1. 주제선정
5. 1-2 과제선정
1. 지리정보를 이용한 상권 분석
2. 학부모를 위한 자녀의 교육 특구 찾기
3. Flume을 이용한 대국민 인식관련 System 구축
1. 주제선정
7. • 정기 모임 : 매주 화요일 저녁 7시 이후 DB진흥원
• 온라인 : Nave Café 빅데이터 기술전문가 8기 2조
• 기타 : 메신저(카카오톡), 유선 전화 등
2-2 모임 및 활동 2. 추진일정
강남 스터디룸
네이버 카페
카카오톡 대화방
8. • 데이터 수집
• 각 조원들 업무 분장
• 시스템 구성
• 테이블 구성 및 필요한 데이터 수집
• 분석에 관한 의견 수렴
• 시각화 작업에 관한 의견 수렴 등
2-3 주별 주요 행사 2. 추진일정
9. 3-1 주요 기술 2. 사용기술
데이타 수집변환 분석 시각화
통계정보표시
1. R shiny
2. tableau
위치정보표시
1. Tableau
2. Google API
기타
데이터
초등학교
데이타
아파트
데이타
병원
데이타
xls csv
위경도추가
xls csv
위경도추가
xls csv
위경도추가
저장소
…
10. 분석 툴 비고 시각화 툴 비고
기본 빈도 및 통계
분석함
Shiny Package를
사용하여 시각화
결과물 추출 시도
함.
Hive에서 쿼리 사
용하여 결과 추출
Splunk를 이용하
여 Map을 그리려
시도함
Mysql 거리계산
함수를 이용하여
결과물을 추출
Tableau를 사용하
여 기본 그래프와
Map 결과물을 추
출함
3-1 주요 기술 2. 사용기술
Map 결과물 추출
14. DB Source 사이트명 사이트 주소 비고
http://www.dbstore.or.kr/
http://www.apistore.co.kr/
https://www.data.go.kr/
• DB Store 및 공공데이터, 구글링 등 포탈 사이트에서 검색함
4-1 데이터 수집 4. 과제수행
15. 5 Hive로 저장
2 csv file 변환
1. Low data(exell file)
Java source file
Hive/Mysql
4 csv file로 저장
6 sqoop을 통해
Mysql로 저장
3 KATEC 좌표를
위•경도로 변환하여
컬럼 추가
기본테이블
설계
7 위•경도를 이용한
거리계산
(Mysql 함수 이용)
8 최종 통합테이블
4-2 데이터 정재, 통합 4. 과제수행
각 컬럼명
통일화 작업
16. ② Exel로 변환
③ 각 파일들의 컬럼명을 통일화 작업
① DB Store에서 수집한 데이터
4-2 데이터 정재, 통합 4. 과제수행
17. ④ Hive에 데이터 파일 생성 ⑤ Sqoop을 통해 MySQL 테이블 생성
4-2 데이터 정재, 통합 4. 과제수행
18. 4-2 데이터 정재, 통합 4. 과제수행
• 경도/위도 정보를 가진 두 지점 사이의 거리 계산 : Mysql 이용
mysql> insert into elementary_distance
select a.city_name,a.school_name,"bank",b.city_name,b.bank_name
,b.x_axis_latitude,b.y_axis_longitude,1
,round(6371 *acos(cos(radians(a.x_axis_latitude))*cos(radians(b.x_axis_latitude))
*cos(radians(b.y_axis_longitude)-radians(a.y_axis_longitude))+sin(radians(a.x_axis_latitude))
*sin(radians(b.x_axis_latitude))),2) as dist
from elementaryschool a, bank b
here a.mega_name='서울특별시'
and b.mega_name='서울특별시';
Query OK, 1521825 rows affected (12.14 sec)
Records: 1521825 Duplicates: 0 Warnings: 0
(예) 학교와 은행 사이의 거리 계산
19. 4-2 데이터 정재, 통합 4. 과제수행
학원현황 데이터 변환 – 주소 -> 위경도
• CSV 형태(주소)의 학원현황 데이터: 99,277건
• Geocoder 를 이용하여 위경도 변환
20. 4-2 데이터 정재, 통합 4. 과제수행
No 테이블명 한글 테이블명 레코드 갯수
1 highschool_rank 고등학교 순위 237
2 elementaryschool_rank 초등학교 순위 591
3 highschool 고등학교 위치 정보 2,286
4 retail 리테일 3,143
5 bus_stop 버스정류장 위치 정보 45,895
6 hospital 병원 위치 정보 23,995
7 apartment 아파트 위치 정보 61,029
8 daycare_center 어린이집 위치 정보 39,309
9 kindergarten 유치원 위치 정보 6,983
10 bank 은행 위치 정보 7,273
11 living_population 시, 군, 구별 인구 정보 959,660
12 middle_school 중학교 위치 정보 3,205
13 worker_population 직장인 정보 421,515
14 elementaryschool 초등학교 위치 정보 6,296
15 estimation_income 추정 소득분위 959,661
16 land 토지 정보 400,997
17 convenience_store 편의점 위치 정보 10,823
• [1단계] 기초테이블 생성 : 학교, 아파트 등의 이름, KATEC좌표, 지역구명 등 수집
21. 4-2 데이터 정재 및 통합 4. 과제수행
• [2단계] 통합테이블 구성 : 학교 기준 주변 시설의 거리를 계산하여 데이터화
학교지역명,학교명/주변시설구분자,주변시설명,주변시설지역명,주변시설경도,주변시설위도/거리
(1) 테이블 레이아웃 (2) 주변시설별 건수
22. 4-2 데이터 정재, 통합 4. 과제수행
• [2단계] 통합테이블별 건수
No 테이블명 한글 테이블명 레코드 갯수
1 elementary_distance
학교 ↔ 은행,정류장,편의점,유치원,어린이
집, 고등학교, 상점 과의 거리
13,351,872
2 elementary_distance_apt 학교 ↔ 아파트 의 거리 5,671,827
3 e_school_dist_income 학교 ↔ 주변지역 인구의 평균소득 별 거리 17,527,878
4 e_school_dist_land 학교 ↔ 주변지역 토지 금액별 거리 10,421,694
5 e_school_dist_living_pop 학교 ↔ 주변지역 주거 인구별 거리 25,637,843
6 e_school_dist_worker_pop 학교 ↔ 주변지역 직장 인구별 거리 17,527,483
90,138,597
23. • 분석을 위하여 포탈 검색하여 초등학교 (평가) 기준으로 등급이 기제된 데이터 확보함
• 서울 초등학교 591개를 1~100위 학교 101~200위 학교 등으로 등급으로 나누어 그룹화함
• 생활권과 연계하여 중앙지역과 동, 서, 남, 북으로 나눔
• Hive와 Mysql에 동일한 환경으로 만들어 데이터 분석함
4-3 데이터 분석 4. 과제수행
지역 구1 구2 구3 구4 구5 구6 구7 구8
중앙지역 종로구 용산구 중구
강동지역 광진구 동대문구 중랑구 성동구 강동구 송파구
강서지역 은평구 서대문구 마포구 금천구 강서구 양천구 영등포구 구로구
강남지역 관악구 동작구 강남구 서초구
강북지역 성북구 노원구 강북구 도봉구
24. • 서울 초등학교 개수는 총 591개 이며 노원구가 42개로 가장 많음
• 서울시내 구별 초등학교 평균 개수는 23.6개로 나타남
• 초등학교가 가장 많은 노원구와 가장적은 중구의 개수 차이는 30개로 나타남
노원구
송파구
강서구
은평구
강남구
성북구
양천구
강동구
구로구
도봉구
영등포구
관악구
광진구
마포구
서초구
중랑구
동대문구
동작구
성동구
금천구
서대문구
용산구
강북구
종로구
중구
42
37 36
31 30 29 29
26
23 23 23 22 22 22 22 22 21 20 20
18 18
15 14 14
12
서울시 구별 초등학교 수
4-3 데이터 분석 4. 과제수행
25. • 서울시내 초등학교 상위 5위 학교가 있는 구는 노원구, 동작구, 서초구, 동대문구,
강북구에 각각 1개씩 위치함
• 강북지역 2개 학교, 강남지역 2개 학교, 중앙지역 1개 학교가 있음
구명 구순위 시순위 학교명
노원구 1 1청원초등학교
동작구 1 2중앙대학교사범대학부속초등학교
서초구 1 3계성초등학교
동대문구 1 4서울삼육초등학교
강북구 1 5영훈초등학교
4-3 데이터 분석 서울시 전체 초등학교 상위 5
26. • 서울시내 초등학교 하위 5위 학교가 있는 구는 마포, 관악구, 중랑구, 구로구, 은평구에
각각 1개씩 위치함
• 강서지역 3개 학교, 강남지역 1개 학교, 강동지역에 1개 학교가 있음
구명 구순위 시순위 학교명
마포구 22 587 서울한서초등학교
관악구 22 588 서울원당초등학교
중랑구 22 589 서울면북초등학교
구로구 23 590 서울영일초등학교
은평구 31 591 알로이시오초등학교
서울시 전체 초등학교 하위 54-3 데이터 분석
27. • 서울 초등학교 상위 5개 학교와 하위 5개 학교를 비교함
• 상위 5순위 내에 있는 초등학교가 강북지역 2개, 강남지역 2개, 중앙지역에
1개학교가 있음
• 중앙지역과 강북지역은 상위 학교는 포함되어 있지만 하위 학교는 포함 안됨
• 강서지역은 상위 학교가 없는 반면 하위 학교가 지역 내에 3개 학교가 있음
초등학교 상위 5/하위 5 지역비교
1
0 0
2 2
중앙지역 강동지역 강서지역 강남지역 강북지역
서울 초등학교 상위 5개 학교 지역위치
0
1
3
1
0
중앙지역 강동지역 강서지역 강남지역 강북지역
서울 초등학교 하위 5개 학교 지역위치
4-3 데이터 분석
28. • 공립 초등학교 상위 5위 학교가 있는 구는 강남구 2개, 송파구 2개, 서초구 2개가 위치함
• 공립 초등학교 상위 5개 학교는 모두 강남에 위치함
구명 구순위 시순위 학교명
서초구 2 9서울원명초등학교
송파구 1 15서울잠실초등학교
송파구 2 16서울오륜초등학교
강남구 1 18서울대곡초등학교
강북구 2 20서울대모초등학교
서울시 공립 초등학교 상위 54-3 데이터 분석
29. • 서울시내 초등학교 하위 5위 학교가 있는 구는 마포, 관악구, 중랑구, 구로구, 은평구에
각각 1개씩 위치함
• 강서에 2개 학교, 강북에 3개 학교가 있음
구명 구순위 시순위 학교명
마포구 22 587서울한서초등학교
관악구 22 588서울원당초등학교
중랑구 22 589서울면북초등학교
구로구 23 590서울영일초등학교
은평구 31 591알로이시오초등학교
서울시 공립 초등학교 하위 54-3 데이터 분석
42. • 서울 초등학교 상위 3개 학교와 하위 3개 학교를 비교함
• 주변 시설물등 환경적인 부분에는 큰 영향이 없음.
• 다만, 상위 학교들 주변에는 대규모 아파트 단지들이 위치함.
• 반면, 하위 학교들 주변에는 대규모 아파트 단지가 멀리 있음.
• 학교 주변 시설물 보다는 주변 아파트 단지 즉, 주거 환경이 학교수준에 영향을
줌.
도보 2Km 이내
서울시 전체 초등학교 상위 3/하위 3 비교4-3 데이터 분석
43. • 앞서 학교 순위별 상위 3개/하위 3개만 분석하여 특이사항 및 의미 있는 결과를
도출할 수 없었음
• 분석을 다른 각도로 재 분석이 필요했음……
• 전체 591개 학교를 순위로 1~100, 101~200, 201~300,…으로 분류하여 총 6개
등급으로 나눔
• 주변 현황은 학교를 기준으로 2Km내에 시설물들을 검색하여 동일한 주재별로
SUM한 결과물로 분석함
등급분류의 필요성4-3 데이터 분석
44. 학교등급 구별 분포현황4-3 데이터 분석
1등급
2등급
3등급
4등급
5등급
6등급
• Tableau 시각화 화면
45. 학교등급 구별 분포현황4-3 데이터 분석
등급
강남
구
강동
구
강북
구
강서
구
관악
구
광진
구
구로
구
금천
구
노원
구
도봉
구
동대
문구
동작
구
마포
구
서대
문구
서초
구
성동
구
성북
구
송파
구
양천
구
영등
포구
용산
구
은평
구
종로
구
중구 중랑구 총합
1등급 12 1 1 3 0 3 1 0 7 4 2 3 4 4 12 3 6 13 12 1 2 4 1 2 1 102
2등급 8 8 1 6 3 6 7 1 8 2 0 2 2 2 9 4 3 5 1 6 4 5 1 2 2 98
3등급 5 6 1 10 4 2 5 0 10 6 7 8 6 3 1 3 5 8 3 1 1 1 3 0 1 100
4등급 4 8 2 7 3 2 3 3 4 3 4 4 4 7 0 3 7 4 7 5 3 7 3 2 1 100
5등급 1 2 5 5 4 6 5 4 8 5 4 3 5 2 0 4 3 5 1 4 3 6 3 3 9 100
6등급 0 1 4 6 7 3 4 8 5 3 4 0 1 0 0 3 5 2 5 6 2 8 3 3 8 91
합계 30 26 14 37 21 22 25 16 42 23 21 20 22 18 22 20 29 37 29 23 15 31 14 12 22 591
• 강남구, 서초구, 송파구, 양천구 상위 등급의 학교들이 많음
• 노원구는 다른 지역과 달리 등급이 골고루 분포되어 있음
49. • mysql 연동 위치 정보 분석 데이터 • Splunk Google Maps 를 이용한 위치 정보 표시
4-3 데이터 분석 Splunk 작업화면
50. 7,692.67
10,521
8,334
7,514 6,748 6,971
6,068
평균 1등급 2등급 3등급 4등급 5등급 6등급
등급별 주변 시설현황4-3 데이터 분석
• 등급별 주변 버스 정류장 현황을 보면,
높은 등급과 낮은 등급간의 차이를 안보임
• 단, 등급별 은행 현황에서는 높은 등급과 낮은 등급간의 은행현황 개수가 눈에
띄게 차이가 나는데 대단위 아파트 단지와 주변시설에 영향을 받았을 것으로
추정함
[단위 : 개][단위 : 개]
81,405
82,399
73,590
80,014
83,905
86,490
82,031
평균 1등급 2등급 3등급 4등급 5등급 6등급
등급별 주변 버스정류장 현황 등급별 주변 은행 현황
51. 9,861
8,225
8,598
7,871
8,400
7,376
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 편의시설 현황
• 주변 소매점 현황에서는 앞선 은행 현황과 같은 결과가 나타남
• 주변 편의시설 현황은 1등급과 4등급, 6등급간의 차이가 크지만 2등급, 3등급,
5등급 간의 개수는 크게 차이가 나지 않으며 높은 등급학교 주변 환경에
영향을 준다고 보기가 어려움
등급별 주변 시설현황4-3 데이터 분석
1,341
1,149
1,201
1,080
1,043
996
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 소매점 현황
[단위 : 개][단위 : 개]
52. • 등급별 주변 중학교와 고등학교를 분석해본 결과,
등급별로 차이가 나타나는 결과를 보이지 않음
등급별 주변 시설현황4-3 데이터 분석
1,006
956
950
1,000
980
923
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 고등학교 현황
1,231
1,149
1,234
1,217
1,249
1,169
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 중학교 현황
[단위 : 개][단위 : 개]
53. • 등급별 주변 유아원 현황을 보면,
1~3등급 주변 유아원 현황 보다 4~6등급 유아원 현황 결과가 다소 높게 나타남
해석 : 1~3등급의 지역보다 4~6등급 지역에 어린 자녀들을 둔 부모들이
맞벌이나 어린 자녀를 돌볼 여력이 없는 것으로 보임
등급별 주변 시설현황4-3 데이터 분석
2,700
2,514
2,949
2,866
3,018
2,822
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 유치원 현황
18,625
17,590
19,916
20,643
21,884
21,837
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 유아원 현황
[단위 : 개] [단위 : 개]
54. 등급별 주변 시설현황4-3 데이터 분석
17,588,557
15,941,618
14,316,225
13,476,327
12,191,483
11,300,531
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 아파트 평단가 현황
223,271,793,377
194,232,870,466
183,770,368,233
184,682,075,237
194,370,763,877
178,055,369,534
1등급
2등급
3등급
4등급
5등급
6등급
등급별 주변 토지 공시지가 현황
[단위 : 개][단위 : 개]
• 등급별 토지 공시지가 현황과 아파트 평단가 현황을 보면,
1~3등급이 주변 현황 보다 4~6등급 가격 현황이 높게 나타남
55. 등급별 주변 시설현황4-3 데이터 분석
390,653
453,431
391,114 394,195 385,252 378,749 341,175
평균 1등급 2등급 3등급 4등급 5등급 6등급
• 등급별 소득평가 백분위를 보면,
1~3등급이 4~6등급 보다 다소 높은 수준을 보임
[단위 : 원]
등급별 주변 소득평가 백분위
56. • 등급별 분석 결과 상위 등급학교와 하위 등급학교의 주변 편의 시설 중
은행 수와 공시지가, 아파트 평당단가가 상위 등급일 수로 높은 결과를 보임
• 어린이집과 유치원은 등급이 낮을 수록 많게 나타남
인사이트5-1 분석결과
58. 결론5-1 분석결과
• 현재 수집 가공된 데이터를 통해 각 학교별, 등급별로 주변환경 요소와 상관관계
분석을 통해 모델을 개발 하여 향후 서비스까지 가능할 것으로 예측됨
59. • 하둡 System을 이용하여 Mysql에 있는 거리계산 함수 같은 지원되지 않은
것들을 사용할 기술력이 필요
• 시각화 툴의 사용법 숙지 (다양하게 시도 하였으나 완벽하게 하지는 못함)
분석모델 상세화5-2 향후과제
60. • 구성된 데이터와 시스템을 이용하여 Web UI 개발
• 알고 싶은 지역 혹은 Map에 위치를 클릭하면 주변 학교 등급별 세부 내용 출력
• 주변 현황 (아파트 시세, 거주 인구, 편의 시설 등.) 정보 제공
프로그램화5-2 향후 과제
61. • 데이터 찾기 난항
• 2주간 집체 교육을 받고 실제 프로젝트와 공부의 병행 한계
• 경험 없이 기반구축 진행방향 제시 힘듬
• 데이터 분석 시 다양한 각도에서 볼 수 있는 훈련 필요
• 분석 전 과정에서 빅 데이터 플랫폼을 다 쓰는 것이 아님
• 기본 분석 툴로 많은 부분 구현 가능
분석의 어려움6-1 분석 애로사항
62. • 김은희 : 조장으로 전체 프로젝트 진두 지휘 (데이터베이스 쿼리,PT 등)
• 김성표 : 놀고 먹으면서 막판 PT작업 투입(성공적인 프로젝트를 위한 숨은 공로자)
• 노병희 : Data Search 및 스플렁크 작업 투입
• 전성종 : 회의 진행 및 Java 좌표변환 소스 개발
• 최혁근 : Hadoop 설치 및 System 관련 작업 투입
• 노태상 : 회의 때 마다 늘 조원들 마음속에 투입
개인별 주요 수행내용6-2 조별 활동 상세
63. • 김성표 : 빅데이터 기술은 머리가 지끈 하지만 조원들을 생각하면 가슴이 뜨끈~
• 최혁근 : 데이터 전달에서 데이터에 눈을 뜨다~~^^~~
• 전성종 : 나는 개근상 줘야해~! 꼬박꼬박 회의 참석 ^^
• 노병희 : 나는 세종시~ 그래도 마음은 서울시~!!!
• 김은희 : 인프라는 본능으로 구축하고, 데이터는 마음으로 이해하자.
조원들의 한마디6-2 조별 활동 상세