ݺߣ

ݺߣShare a Scribd company logo
빅데이터 기술전문가 7기 2조
(범죄 예상/추이/예방, 기반시설 환경과
범죄와의 상관관계)
멘토 : 심탁길 강사님
조원 : 김대훈(조장)
이상민
정용주
최기웅
노현주
목차
1. 개요
2. 개발 일정별 진도
3. Eco system의 설치 및 설정
4. Node별 서비스 구성
5. 사용된 기술
6. 데이터 수집 - 테이블 목록
데이터 수집 - CCTV 위치정보
데이터 수집 - SNS (Twitter)
7. 주소 좌표 변환 작업
8. R을 사용한 시각화
9. 기타 - 서울시 정보보호 정책
부분별 기능 및 진행사항
향후 일정 및 기대효과
1.개요
(1) 설명 : 기반시설 환경(CCTV 및 경찰서의 위치)의 범죄 사각지대를 확인하여
시설 확충으로 범죄를 예방, 더 나아가 범죄자의 거주 위치와 범죄
트랜드를 분석하여 기반시설과 범죄율과의 상관관계를 발굴하고자 함
(2) 환경구성 : CDH5 (Cloudera)
HDFS, Hive, HBase, Hue, Oozie, Solr, Spark ,Sqoop, ZooKeeper
,Impala,Key-Value Store Indexer, YARN (MR2 Included)
(3) 프로세스 :
R ggmap을 통한 시각화
or JSP를 통한 시각화
HIVE
or HBASE
1
정보 수집
경찰서/지구대 정보
CCTV 위치 정보
인구수, 범죄율 정보 등
추가 자료 수집 필요
Yes
No
2
3
분석 및 시각화에 필요한 정보 수집
수집한 정보를 HIVE 또는 HBASE 에 저장
추가 수집이 필요하면 재 정보수집( )
R 의 ggmap 기능을 사용하여 지도상에
분석데이터의 시각화
또는
JSP 를 사용하여 CCTV위치를 시각화하여
범죄 사각지대 예측지역 발굴
1
2
3
1
2.개발 일정별 진도
단계 세부업무
6월 7월 8월
w1 w2 w3 w4 w5 w6 w7
기획/분석
분석/정의/기획
기술 적용 테스트
설계
데이터 모델링
공공/SNS 데이터 저장소 설계
분석 패턴 정의
구현
BigData eco system 설치
Hadoop 저장 / HIVE 구현
Hadoop 저장 데이터 추출
분석 진행
R 개발 , UI/UX 개발
테스트
단위/ 통합 테스트
안정화
산출물 작성, 발표 준비
마일스톤
: 완료 : 예정
중간보고 종료보고
- Cloudera CDH5의 설치 및 환경설정을 통한 시스템 안정화
3. Eco system의 설치 및 설정
환경설정을 통한
시스템 안정화
4.Node별 서비스 구성
- Cloudera CDH5의 노드별 설치된 서비스
Flume
Hbase
Region Server
DataNode
Hive Gateway
Impala
Spark Worker
Yarn (Node Manager)
Zookeeper Server
Hbase Thrift Server
HDFS Secondary
NameNode
Hbase Master Sqoop
Hue Server
HiveServer2
Solr Server
Oozie Server Spark
Yarn
Impala
CDH Service
CDH Service
Name Node
Hive Metastore
5. 사용된 기술
- Cloudera CDH5를 기반으로 다음 기술을 사용
SEQ 기술명 내용
1 CDH5 (Cloudera) Eco system
2 HIVE 경찰서, 학교, CCTV 위치, 트위터 데이터 저장
3 FLUME 범죄 관련 키워드로 Twitter 글 데이터 수집
4 R (rhive , ggmap) 시각화 및 분석
5 JSP (naver 지도 API) 경찰서, 학교, CCTV 위치를 시각화
6
Informatica
Data Transformation
PDF , HWP문서에서 TEXT를 추출하여 CSV로 변환
7 ㈜지오서비스 – 지오코더 주소변환 서비스
- HIVE에 생성되고 수집된 테이블
6.데이터수집 - 테이블 목록
SEQ 테이블명 테이블 한글명 파일(전체건수) 수집건수
1 tb_cctv_loc 서울시 cctv 위치 8586 1759
2 tb_police_loc 경찰서,지구,방범대 위치 3081 3081
3 tb_school_loc 학교,유치원 등 위치 21201 19642
4 tb_seoul_addr 서울 주소(지번,도로명) 589564 589564
5 tb_main_store 주요상권 위치 26738 0
6 tweets 트위터 (범죄 키워드) - -
- 서울시의 각 지역구별 CCTV 설치 현황
6.데이터수집 - 지역구별 CCTV 현황
SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수
1 강남구 821 10 용산구 423 19 종로구 269
2 은평구 572 11 마포구 372 20 동작구 250
3 중구 558 12 서초구 352 21 중랑구 196
4 영등포구 542 13 강서구 347 22 금천구 172
5 구로구 540 14 동대문구 337 23 서대문구 172
6 관악구 532 15 성북구 322 24 도봉구 162
7 광진구 519 16 강동구 319 25 송파구 108
8 양천구 489 17 노원구 293 26
9 강북구 447 18 성동구 293 27
- CCTV 시설 위치 정보의 수집
6.데이터수집 - CCTV 위치정보
1) 각 구청에 CCTV정보요청 2) PDF , HWP 파일로 정보 수집
3) XLS 파일로 변환
TEXT 추출
(PDF Parser)
TEXT 추출
- HWP, PDF 형식의 CCTV 시설 위치 파일을 TEXT로 추출하여 HIVE에 저장
인포메티카의 PDF Parser 를 사용하여 텍스트 추출
Parsing 로직
6.데이터수집 - CCTV 위치정보
- HIVE에 기반시설 위치 데이터 저장
6.데이터수집 - CCTV 위치정보
- 범죄 관련 keyword를 사용하여 SNS 글 데이터 수집
6.데이터 수집 - SNS (Twitter)
- HIVE에 Twitter 데이터를 저장
6.데이터 수집 - SNS (Twitter)
HDFS
HIVE에서 Query 조회
- 도로명 주소 전환 서비스와 지오코더(㈜지오서비스의 주소좌표 변환툴)을 사용
(비상업적인 용도에 한해서 자유롭게 사용할 수 있는 주소 좌표 변환 툴)
7.주소 좌표 변환 작업
< 지번 주소에서 도로명 주소로 전환 > < 좌표 변환 프로그램 >
- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 )
8.시각화 - R(web)
- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 )
8.시각화 - R(web)
Zoom-In
- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
범죄에 취약한 학교/유치원을 발굴하기 위한 포인트 설정 ( 강남구 개포/대치 )
8.시각화 - R(web)
Zoom-In
- 학교/유치원의 위치와 CCTV/경찰서의 위치를 비교하여 사각지대 발굴
- 범죄에 상대적으로 취약한 학교/유치원 인근을 발굴
8.시각화 - R(web)
CCTV가 필요한 곳!!!
< CCTV / 경찰서 위치 >< 학교 / 유치원 위치 >
- R스튜디오 클라이언트로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
8.시각화 - R(pc)
- Naver 지도API와 Jsp (ajax)를 사용하여 CCTV 위치를 지도에 표시.
8.시각화 - JSP
반경 50m
- 네이버 카페를 통한 원활한 정보 공유
9.기타 - 팀원간 정보 공유
9.기타 - 서울시 정보보호 정책
○ 정책적인면에서 CCTV 데이터 수집
1) 국가정보공유포털(www.data.go.kr) 에서 각 지자체의 cctv 데이터를
확보하려 하였으나 대부분 미공개인 상태
2) 국가정보공유포털에 cctv 위치공개 2회에 걸친 요청
답변) 1회 - 범죄목적으로 악용될 수 있으므로 불가
2회 - 각 지자체의 자산이라 불가
3) 서울시 보안정책 담당관에서 유선상 문의
답변) 범죄목적으로 악용될 수 있으므로 불가
4) CCTV의 개인정보 보호법에 대한 항목과 서울시 정보공개법 제9조 제1항
제2호에 대한 사항으로 대한민국 정보공개 포털 (http://wonmun.open.go.kr/)
에 정보 공유 요청 (서울시 홈페이지 정보공개관련 규정참고 )
하여 15일만에 서울시의 24개 지자체 CCTV 데이터 확보 하였으나 포맷이
일정치 않아 데이터 변환에 어려움이 있었음.
9.기타 - 서울시 정보보호 정책
5) 서울시 정보보호 관계법령
9.기타 - 부분별 기능 및 진행사항
○ 진행사항
1) 서울시 각 관할구청에서 방범용,어린이보호용 CCTV 위치 주소를 PDF,
HWP 형태로 받아 TXT로 Parsing하여 한글주소명을 위/경도 좌표
로 변환 (네이버 API)하여 HIVE에 저장.
2) 경찰서와 지구대 위치 정보를 HIVE에 저장.
3) Flume 으로 범죄 관련 SNS 글 수집.
4) R과 RHIVE를 연동하여 GGMAP으로 CCTV위치를 지도에 표시.
5) CCTV 사각지대 발굴(특정 학교 주변 이나 주요상권주변에 cctv 나
경찰서 부재를 발굴)
6) JSP로 CCTV 반경 50M 표시
9.기타 - 향후 일정 및 기대효과
○ 향후 기대 일정
1) 서울시의 구/동별 인구수 및 범죄율 데이터 수집
2) 지역구별 SNS 범죄 관련 글의 빈도율 분석
3) 경찰서,지구대,CCTV와 인구,범죄율의 상관관계 분석
4) D3.JS 와 twitter의 bootstrap을 사용한 시각화
결과 - 인구수,범죄율과 사회 안전 기반시설의 상관관계를 R의 GGMAP에
표시
○ 기대효과
1) 범죄 사각지대를 발굴하여 사회안전시설을 확충하도록 유도
2) 일반에게 공개하여 안전한 길로 보행하도록 유도
3) 범죄에 취약한 어린이 보호구역의 감시 강화 유도
- 결과적으로 지역의 안전성을 향상시켜 범죄율을 낮추고자 함

More Related Content

기술7기 2조

  • 1. 빅데이터 기술전문가 7기 2조 (범죄 예상/추이/예방, 기반시설 환경과 범죄와의 상관관계) 멘토 : 심탁길 강사님 조원 : 김대훈(조장) 이상민 정용주 최기웅 노현주
  • 2. 목차 1. 개요 2. 개발 일정별 진도 3. Eco system의 설치 및 설정 4. Node별 서비스 구성 5. 사용된 기술 6. 데이터 수집 - 테이블 목록 데이터 수집 - CCTV 위치정보 데이터 수집 - SNS (Twitter) 7. 주소 좌표 변환 작업 8. R을 사용한 시각화 9. 기타 - 서울시 정보보호 정책 부분별 기능 및 진행사항 향후 일정 및 기대효과
  • 3. 1.개요 (1) 설명 : 기반시설 환경(CCTV 및 경찰서의 위치)의 범죄 사각지대를 확인하여 시설 확충으로 범죄를 예방, 더 나아가 범죄자의 거주 위치와 범죄 트랜드를 분석하여 기반시설과 범죄율과의 상관관계를 발굴하고자 함 (2) 환경구성 : CDH5 (Cloudera) HDFS, Hive, HBase, Hue, Oozie, Solr, Spark ,Sqoop, ZooKeeper ,Impala,Key-Value Store Indexer, YARN (MR2 Included) (3) 프로세스 : R ggmap을 통한 시각화 or JSP를 통한 시각화 HIVE or HBASE 1 정보 수집 경찰서/지구대 정보 CCTV 위치 정보 인구수, 범죄율 정보 등 추가 자료 수집 필요 Yes No 2 3 분석 및 시각화에 필요한 정보 수집 수집한 정보를 HIVE 또는 HBASE 에 저장 추가 수집이 필요하면 재 정보수집( ) R 의 ggmap 기능을 사용하여 지도상에 분석데이터의 시각화 또는 JSP 를 사용하여 CCTV위치를 시각화하여 범죄 사각지대 예측지역 발굴 1 2 3 1
  • 4. 2.개발 일정별 진도 단계 세부업무 6월 7월 8월 w1 w2 w3 w4 w5 w6 w7 기획/분석 분석/정의/기획 기술 적용 테스트 설계 데이터 모델링 공공/SNS 데이터 저장소 설계 분석 패턴 정의 구현 BigData eco system 설치 Hadoop 저장 / HIVE 구현 Hadoop 저장 데이터 추출 분석 진행 R 개발 , UI/UX 개발 테스트 단위/ 통합 테스트 안정화 산출물 작성, 발표 준비 마일스톤 : 완료 : 예정 중간보고 종료보고
  • 5. - Cloudera CDH5의 설치 및 환경설정을 통한 시스템 안정화 3. Eco system의 설치 및 설정 환경설정을 통한 시스템 안정화
  • 6. 4.Node별 서비스 구성 - Cloudera CDH5의 노드별 설치된 서비스 Flume Hbase Region Server DataNode Hive Gateway Impala Spark Worker Yarn (Node Manager) Zookeeper Server Hbase Thrift Server HDFS Secondary NameNode Hbase Master Sqoop Hue Server HiveServer2 Solr Server Oozie Server Spark Yarn Impala CDH Service CDH Service Name Node Hive Metastore
  • 7. 5. 사용된 기술 - Cloudera CDH5를 기반으로 다음 기술을 사용 SEQ 기술명 내용 1 CDH5 (Cloudera) Eco system 2 HIVE 경찰서, 학교, CCTV 위치, 트위터 데이터 저장 3 FLUME 범죄 관련 키워드로 Twitter 글 데이터 수집 4 R (rhive , ggmap) 시각화 및 분석 5 JSP (naver 지도 API) 경찰서, 학교, CCTV 위치를 시각화 6 Informatica Data Transformation PDF , HWP문서에서 TEXT를 추출하여 CSV로 변환 7 ㈜지오서비스 – 지오코더 주소변환 서비스
  • 8. - HIVE에 생성되고 수집된 테이블 6.데이터수집 - 테이블 목록 SEQ 테이블명 테이블 한글명 파일(전체건수) 수집건수 1 tb_cctv_loc 서울시 cctv 위치 8586 1759 2 tb_police_loc 경찰서,지구,방범대 위치 3081 3081 3 tb_school_loc 학교,유치원 등 위치 21201 19642 4 tb_seoul_addr 서울 주소(지번,도로명) 589564 589564 5 tb_main_store 주요상권 위치 26738 0 6 tweets 트위터 (범죄 키워드) - -
  • 9. - 서울시의 각 지역구별 CCTV 설치 현황 6.데이터수집 - 지역구별 CCTV 현황 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 1 강남구 821 10 용산구 423 19 종로구 269 2 은평구 572 11 마포구 372 20 동작구 250 3 중구 558 12 서초구 352 21 중랑구 196 4 영등포구 542 13 강서구 347 22 금천구 172 5 구로구 540 14 동대문구 337 23 서대문구 172 6 관악구 532 15 성북구 322 24 도봉구 162 7 광진구 519 16 강동구 319 25 송파구 108 8 양천구 489 17 노원구 293 26 9 강북구 447 18 성동구 293 27
  • 10. - CCTV 시설 위치 정보의 수집 6.데이터수집 - CCTV 위치정보 1) 각 구청에 CCTV정보요청 2) PDF , HWP 파일로 정보 수집 3) XLS 파일로 변환 TEXT 추출 (PDF Parser)
  • 11. TEXT 추출 - HWP, PDF 형식의 CCTV 시설 위치 파일을 TEXT로 추출하여 HIVE에 저장 인포메티카의 PDF Parser 를 사용하여 텍스트 추출 Parsing 로직 6.데이터수집 - CCTV 위치정보
  • 12. - HIVE에 기반시설 위치 데이터 저장 6.데이터수집 - CCTV 위치정보
  • 13. - 범죄 관련 keyword를 사용하여 SNS 글 데이터 수집 6.데이터 수집 - SNS (Twitter)
  • 14. - HIVE에 Twitter 데이터를 저장 6.데이터 수집 - SNS (Twitter) HDFS HIVE에서 Query 조회
  • 15. - 도로명 주소 전환 서비스와 지오코더(㈜지오서비스의 주소좌표 변환툴)을 사용 (비상업적인 용도에 한해서 자유롭게 사용할 수 있는 주소 좌표 변환 툴) 7.주소 좌표 변환 작업 < 지번 주소에서 도로명 주소로 전환 > < 좌표 변환 프로그램 >
  • 16. - WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 ) 8.시각화 - R(web)
  • 17. - WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 ) 8.시각화 - R(web) Zoom-In
  • 18. - WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 범죄에 취약한 학교/유치원을 발굴하기 위한 포인트 설정 ( 강남구 개포/대치 ) 8.시각화 - R(web) Zoom-In
  • 19. - 학교/유치원의 위치와 CCTV/경찰서의 위치를 비교하여 사각지대 발굴 - 범죄에 상대적으로 취약한 학교/유치원 인근을 발굴 8.시각화 - R(web) CCTV가 필요한 곳!!! < CCTV / 경찰서 위치 >< 학교 / 유치원 위치 >
  • 20. - R스튜디오 클라이언트로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 8.시각화 - R(pc)
  • 21. - Naver 지도API와 Jsp (ajax)를 사용하여 CCTV 위치를 지도에 표시. 8.시각화 - JSP 반경 50m
  • 22. - 네이버 카페를 통한 원활한 정보 공유 9.기타 - 팀원간 정보 공유
  • 23. 9.기타 - 서울시 정보보호 정책 ○ 정책적인면에서 CCTV 데이터 수집 1) 국가정보공유포털(www.data.go.kr) 에서 각 지자체의 cctv 데이터를 확보하려 하였으나 대부분 미공개인 상태 2) 국가정보공유포털에 cctv 위치공개 2회에 걸친 요청 답변) 1회 - 범죄목적으로 악용될 수 있으므로 불가 2회 - 각 지자체의 자산이라 불가 3) 서울시 보안정책 담당관에서 유선상 문의 답변) 범죄목적으로 악용될 수 있으므로 불가 4) CCTV의 개인정보 보호법에 대한 항목과 서울시 정보공개법 제9조 제1항 제2호에 대한 사항으로 대한민국 정보공개 포털 (http://wonmun.open.go.kr/) 에 정보 공유 요청 (서울시 홈페이지 정보공개관련 규정참고 ) 하여 15일만에 서울시의 24개 지자체 CCTV 데이터 확보 하였으나 포맷이 일정치 않아 데이터 변환에 어려움이 있었음.
  • 24. 9.기타 - 서울시 정보보호 정책 5) 서울시 정보보호 관계법령
  • 25. 9.기타 - 부분별 기능 및 진행사항 ○ 진행사항 1) 서울시 각 관할구청에서 방범용,어린이보호용 CCTV 위치 주소를 PDF, HWP 형태로 받아 TXT로 Parsing하여 한글주소명을 위/경도 좌표 로 변환 (네이버 API)하여 HIVE에 저장. 2) 경찰서와 지구대 위치 정보를 HIVE에 저장. 3) Flume 으로 범죄 관련 SNS 글 수집. 4) R과 RHIVE를 연동하여 GGMAP으로 CCTV위치를 지도에 표시. 5) CCTV 사각지대 발굴(특정 학교 주변 이나 주요상권주변에 cctv 나 경찰서 부재를 발굴) 6) JSP로 CCTV 반경 50M 표시
  • 26. 9.기타 - 향후 일정 및 기대효과 ○ 향후 기대 일정 1) 서울시의 구/동별 인구수 및 범죄율 데이터 수집 2) 지역구별 SNS 범죄 관련 글의 빈도율 분석 3) 경찰서,지구대,CCTV와 인구,범죄율의 상관관계 분석 4) D3.JS 와 twitter의 bootstrap을 사용한 시각화 결과 - 인구수,범죄율과 사회 안전 기반시설의 상관관계를 R의 GGMAP에 표시 ○ 기대효과 1) 범죄 사각지대를 발굴하여 사회안전시설을 확충하도록 유도 2) 일반에게 공개하여 안전한 길로 보행하도록 유도 3) 범죄에 취약한 어린이 보호구역의 감시 강화 유도 - 결과적으로 지역의 안전성을 향상시켜 범죄율을 낮추고자 함