2. 목차
1. 개요
2. 개발 일정별 진도
3. Eco system의 설치 및 설정
4. Node별 서비스 구성
5. 사용된 기술
6. 데이터 수집 - 테이블 목록
데이터 수집 - CCTV 위치정보
데이터 수집 - SNS (Twitter)
7. 주소 좌표 변환 작업
8. R을 사용한 시각화
9. 기타 - 서울시 정보보호 정책
부분별 기능 및 진행사항
향후 일정 및 기대효과
3. 1.개요
(1) 설명 : 기반시설 환경(CCTV 및 경찰서의 위치)의 범죄 사각지대를 확인하여
시설 확충으로 범죄를 예방, 더 나아가 범죄자의 거주 위치와 범죄
트랜드를 분석하여 기반시설과 범죄율과의 상관관계를 발굴하고자 함
(2) 환경구성 : CDH5 (Cloudera)
HDFS, Hive, HBase, Hue, Oozie, Solr, Spark ,Sqoop, ZooKeeper
,Impala,Key-Value Store Indexer, YARN (MR2 Included)
(3) 프로세스 :
R ggmap을 통한 시각화
or JSP를 통한 시각화
HIVE
or HBASE
1
정보 수집
경찰서/지구대 정보
CCTV 위치 정보
인구수, 범죄율 정보 등
추가 자료 수집 필요
Yes
No
2
3
분석 및 시각화에 필요한 정보 수집
수집한 정보를 HIVE 또는 HBASE 에 저장
추가 수집이 필요하면 재 정보수집( )
R 의 ggmap 기능을 사용하여 지도상에
분석데이터의 시각화
또는
JSP 를 사용하여 CCTV위치를 시각화하여
범죄 사각지대 예측지역 발굴
1
2
3
1
4. 2.개발 일정별 진도
단계 세부업무
6월 7월 8월
w1 w2 w3 w4 w5 w6 w7
기획/분석
분석/정의/기획
기술 적용 테스트
설계
데이터 모델링
공공/SNS 데이터 저장소 설계
분석 패턴 정의
구현
BigData eco system 설치
Hadoop 저장 / HIVE 구현
Hadoop 저장 데이터 추출
분석 진행
R 개발 , UI/UX 개발
테스트
단위/ 통합 테스트
안정화
산출물 작성, 발표 준비
마일스톤
: 완료 : 예정
중간보고 종료보고
5. - Cloudera CDH5의 설치 및 환경설정을 통한 시스템 안정화
3. Eco system의 설치 및 설정
환경설정을 통한
시스템 안정화
6. 4.Node별 서비스 구성
- Cloudera CDH5의 노드별 설치된 서비스
Flume
Hbase
Region Server
DataNode
Hive Gateway
Impala
Spark Worker
Yarn (Node Manager)
Zookeeper Server
Hbase Thrift Server
HDFS Secondary
NameNode
Hbase Master Sqoop
Hue Server
HiveServer2
Solr Server
Oozie Server Spark
Yarn
Impala
CDH Service
CDH Service
Name Node
Hive Metastore
7. 5. 사용된 기술
- Cloudera CDH5를 기반으로 다음 기술을 사용
SEQ 기술명 내용
1 CDH5 (Cloudera) Eco system
2 HIVE 경찰서, 학교, CCTV 위치, 트위터 데이터 저장
3 FLUME 범죄 관련 키워드로 Twitter 글 데이터 수집
4 R (rhive , ggmap) 시각화 및 분석
5 JSP (naver 지도 API) 경찰서, 학교, CCTV 위치를 시각화
6
Informatica
Data Transformation
PDF , HWP문서에서 TEXT를 추출하여 CSV로 변환
7 ㈜지오서비스 – 지오코더 주소변환 서비스
8. - HIVE에 생성되고 수집된 테이블
6.데이터수집 - 테이블 목록
SEQ 테이블명 테이블 한글명 파일(전체건수) 수집건수
1 tb_cctv_loc 서울시 cctv 위치 8586 1759
2 tb_police_loc 경찰서,지구,방범대 위치 3081 3081
3 tb_school_loc 학교,유치원 등 위치 21201 19642
4 tb_seoul_addr 서울 주소(지번,도로명) 589564 589564
5 tb_main_store 주요상권 위치 26738 0
6 tweets 트위터 (범죄 키워드) - -
23. 9.기타 - 서울시 정보보호 정책
○ 정책적인면에서 CCTV 데이터 수집
1) 국가정보공유포털(www.data.go.kr) 에서 각 지자체의 cctv 데이터를
확보하려 하였으나 대부분 미공개인 상태
2) 국가정보공유포털에 cctv 위치공개 2회에 걸친 요청
답변) 1회 - 범죄목적으로 악용될 수 있으므로 불가
2회 - 각 지자체의 자산이라 불가
3) 서울시 보안정책 담당관에서 유선상 문의
답변) 범죄목적으로 악용될 수 있으므로 불가
4) CCTV의 개인정보 보호법에 대한 항목과 서울시 정보공개법 제9조 제1항
제2호에 대한 사항으로 대한민국 정보공개 포털 (http://wonmun.open.go.kr/)
에 정보 공유 요청 (서울시 홈페이지 정보공개관련 규정참고 )
하여 15일만에 서울시의 24개 지자체 CCTV 데이터 확보 하였으나 포맷이
일정치 않아 데이터 변환에 어려움이 있었음.
25. 9.기타 - 부분별 기능 및 진행사항
○ 진행사항
1) 서울시 각 관할구청에서 방범용,어린이보호용 CCTV 위치 주소를 PDF,
HWP 형태로 받아 TXT로 Parsing하여 한글주소명을 위/경도 좌표
로 변환 (네이버 API)하여 HIVE에 저장.
2) 경찰서와 지구대 위치 정보를 HIVE에 저장.
3) Flume 으로 범죄 관련 SNS 글 수집.
4) R과 RHIVE를 연동하여 GGMAP으로 CCTV위치를 지도에 표시.
5) CCTV 사각지대 발굴(특정 학교 주변 이나 주요상권주변에 cctv 나
경찰서 부재를 발굴)
6) JSP로 CCTV 반경 50M 표시
26. 9.기타 - 향후 일정 및 기대효과
○ 향후 기대 일정
1) 서울시의 구/동별 인구수 및 범죄율 데이터 수집
2) 지역구별 SNS 범죄 관련 글의 빈도율 분석
3) 경찰서,지구대,CCTV와 인구,범죄율의 상관관계 분석
4) D3.JS 와 twitter의 bootstrap을 사용한 시각화
결과 - 인구수,범죄율과 사회 안전 기반시설의 상관관계를 R의 GGMAP에
표시
○ 기대효과
1) 범죄 사각지대를 발굴하여 사회안전시설을 확충하도록 유도
2) 일반에게 공개하여 안전한 길로 보행하도록 유도
3) 범죄에 취약한 어린이 보호구역의 감시 강화 유도
- 결과적으로 지역의 안전성을 향상시켜 범죄율을 낮추고자 함