�ݺ�ߣ

빅데이터 윈윈 컨퍼런스-데이터수집 및 정제

7
• 삼상전압 (ROOM_MEAS_PHASE_VOLT_V1, V2, V3)
① ROOM_MEAS_PHASE_VOLT_V1
② ROOM_MEAS_PHASE_VOLT_V2
③ ROOM_MEAS_PHASE_VOLT_V3
Min 1st Qu Median Mean 3rd Qu Max
224.3 226.1 449.6 370.9 449.9 453.1
224.6 226.1 449.0 371.4 450.9 454.6
226.6 227.8 453.9 374.7 455.9 456.6

8
• 삼상전류 (ROOM_MEAS_PHASE_ELEC_A1, A2, A3)
① ROOM_MEAS_PHASE_ELEC_A1
② ROOM_MEAS_PHASE_ELEC_A2
③ ROOM_MEAS_PHASE_ELEC_A3
14.41 19.00 29.47 28.20 33.64 51.06
6.34 8.84 15.83 14.40 19.86 23.61
24.72 25.88 28.43 28.83 30.93 33.54

9
• 전력사용량: ∑ 𝑉𝑛 ∗𝐴𝑛 ∗𝑃𝐹 ∗√3(1.732) (𝑛=1, 2, 3)
① V1 * A1 * PF ∗√3(1.732)
② V2 * A2 * PF ∗√3(1.732)
③ V3 * A3 * PF ∗√3(1.732)
-5848 7372000 11190000 11940000 17130000 26020000
-2010 3448000 5762000 6219000 8793000 12020000
-7136 8481000 13470000 11720000 15270000 17060000

11
• 데이터 값 이상
• 음수값이 존재

14
• Missing Value 처리
– Eliminate Data Objects
– Estimate Missing Values
– Ignore the Missing Value During Analysis
– Replace with all possible values (weighted by their probabilities)

17
빅데이터 통합
DELIIS
HUMS
날씨, 주소,지역
국방부
데이터
데이터 수집
자연어처리 서포트백터머신 클러스터링 의사결정트리
Hadoop In-Memory / Columstore Graph
머신러닝 알고리즘
분산 병렬처리 인프라
정비이력
고장이력
고장수목
재고량
상하 구조체계
주ㆍ대치 관계
ETL
데이터 정제
데이터 이상값 보정
데이터 결측값 정제
데이터 정형화
부속체계/관계
정형화
수리부속/정비이력
정형화

18
• 데이터분포 분석을 통한 이상값 탐지
• 텍스트 데이터 클러스터링을 통한 데이터 정형화

20
조사결과 데이터
(학습용)
[성능평가]
정탐
미탐
오탐
탐지결과
DB
[ 부당탐지 결과 ]
학습
입력 탐지
검증
조사결과 데이터
(검증용)
[ 탐지 모형 ]
(분류/예측알고리즘)

22
• 클래스 불균형 문제란?
– 데이터의 클래스의 총 수 (Positive)가 다른 데이터 클래스의 총 수
(Negative)보다 훨씬 적은 것
• 왜 문제가 될까?
– 대부분의 기계 학습 알고리즘 및 각 클래스의 인스턴스 수가 대략 같
을 때 가장 잘 작동
– 한 클래스의 인스턴스 수가 다른 인스턴스의 인스턴스 수를 훨씬 초
과하면 문제가 발생
• 예제: 금융거래 이상탐지
– 사기거래의 비용 >> 정상적인거래의 비용

23
○ 부당청구 탐지모형의 후보 알고리즘간 성능 평가
- 평가지표는 Accuracy, Precison, Recall를 사용하며, 현지조사 업무에서는 Y Recall의 향상에 가중치를 부여함
실제결과(Actual)
부당 정상
탐지결과
(Predict)
부당 True Positive(TP) False Positive(FP)
정상 False Negative(FN) True Negative(TN)
○ Accuracy(정확도) = 모형이 탐지한 결과와 실제 결과와 일치하는 정탐지의 비율
(TP + TN) / (Total), 100에 가까울수록 좋은 지표
○ Precision(정밀도) = 모형이 부당이라고 탐지한 결과 중에서 실제결과도 부당인 정탐 비율
(TP) / (TP + FP), 1-정밀도 = 오탐율
○ Recall(재현율) = 전체 부당중에서 모형이 부당이라고 정확하게 탐지한 정탐 비율
(TP) / (TP + FN), 1-재현율 = 미탐율
-> 현지조사 업무의 특성상 부당을 놓치지 않고 정확하게 탐지하는 Y Recall의 지표가 중요함
정밀도
재현율

24
• Example
– 모델 1은 10건의 사기 거래 중 7건을 정상 거래로 분류하고 10,000건
의 정상 거래 중 10건을 사기성 거래로 분류합니다.
– 모델 2는 10건의 사기 거래 중 2건을 정상 거래로 분류하고 10,000건
의 정상 거래 중 100건을 사기 거래로 분류합니다.

26
클래스 불균형 문제
비용함수 기반 접근법
표본추출방식 기반 접근법
언더샘플링
오버샘플링
하이브리드

27
• Example
– 1개의 False Negative가 100개의 False Positive보다 더 비용이 많이
든다면?
– 머신 러닝 알고리즘은 False Positives와 비교해 False Negative를 만
들기 위해 노력함
– SVM의 일반적인 공식은 다음과 같음
– False Negative와 False Positives에 다른 비용 함수를 할당하기 위한
수정된 공식

28
• 오버 샘플링(Over Sampling)
– 인스턴스의 수가 적은 소수 클래스에 데이터를 더 추가
– 머신러닝 알고리즘에 더 많은 영향을 줌
• 언더 샘플링(Under Sampling)
– 인스턴스의 수가 많은 다수 클래스 중 일부 데이터를 제거
– 머신러닝 알고리즘에 미치는 영향을 줄임
• 하이브리드(Hybrid Sampling)
– 오버 샘플링과 언더 샘플링의 혼합

29
• 언더 샘플링
– 다수 클래스의 인스턴스를 제거해 유용한 정보를 삭제할 수 있음

30
• 오버 샘플링
– 소수 클래스의 인스턴스들을 복제하면 분류 기준이 몇 가지 예에 지
나치게 적용될 수 있음

31
• 하이브리드 샘플링
– 언더 샘플링과 오버 샘플링 접근법을 결합함
– 앞서 제시된 것처럼 두 가지 접근법의 장점뿐만 아니라 단점을 얻음
– 절충형

32
• SMOTE (Synthetic Minority Over-Sampling Technique)
– 샘플링 기반 알고리즘
– 단순하지만 효율적이여서 자주 쓰임
– 오버 샘플링과 언더 샘플링의 조합이지만, 오버 샘플링 접근법은 소
수 클래스를 복제하는 것이 아니라 알고리즘을 통해 새로운 소수 클
래스의 데이터 인스턴스를 구성
– 전통적인 오버 샘플링에서는 소수 클래스의 인스턴스가 정확하게 복
제

33
• SMOTE의 새로운 소수 인스턴스 구성

38
• 평점 분포에 따른 Data 통합 가공
– 기존 평점은 1점 부터 5점까지 분포해 있지만, 중간 점수 3점에 밀집, 1,2,4,5점에는 희
박하게 분포
– 1,2점을 Bad, 3점을 Normal, 4,5점을 Good으로 통합 후 분석 해도 결과에 큰 영향 없
을 것이라 가정
기존 데이터 평점 분포 통합 데이터 평점 분포

39
• Review 길이 데이터 추출
– 체험단 신청 text review의 길이 데이터를 추출
– Min 1, Max 1228

40
• Review 주소 데이터로 부터 지역 데이터 추출
– 잘못된 주소 입력
– BeautifulSoup을 이용한 web scraping
– http://m.juso.dallago.me/ 통해 주소 검색, 행정 구역명(17개) 추출
영광읍 물무로98번지
포항 북 용당로 143, 서포항KT빌딩 성문회계법인 3층 정태진회계사사무실
경남진주시 평거로115번길 5
천안시 원성1동 88비둘기@ B-203호
평택시도일동983-5 2층
서울시금천구독산2동1074-33호1층102호

45
완전 감사감사요 잘 쓸게용~~♡♡♡ 서비스로 여러가지
상품을 주셨네요^^ 완전 감사감사요 잘 쓸게용~~♡♡♡♡
★
건성피부이라 겨울철이면 당기고 건조해서 에센스를 주문하면서
메이커 제품이고 구매자가 많길래 했더니 넘 묽어서 실망했습니다.
★★★★★

46
• 맞춤법
– 오타
– 띄어쓰기
• 성의 없는 리뷰
• 학습 데이터

51
사과 정상잎매실 복숭아순나방매실 세균성구멍병

55
• US Market으로 1차 한정하여 구축
• Data Store – 크롤링, Open API 또는 Scraping을 통해 수집된 데이터를 원형대로 저장
• Data Mart – 서비스 가능한 형태로 가공해서 저장
• FCST 엔진 – 모델링, 테스트 용 데이터 Set와 예측모델링 엔진, 예측 모델
• Admin UI와 서비스 이용 고객 UI 구분
FCST
Engine
(RF)
GAMDF
Data Mart
GAMDF
Customer
UI
Data Store
Original
Data SourceOriginal
Data SourceOriginal
Data Source
GAMDF
Customer
GAMDF
GAMDF
Admin UICrawling
ETL
Scoring

56
• Data Mart는 월단위 집계치를 기준으로 구축
• Data Store에 수집된 데이터를 선택, 비교하여 조회할 수 있도록 UI 구성 필요
GAMDF Data Mart
미국내판매량 미국내환경
브랜드별
판매량
모델별
판매량
미국내기상 국제 환경구글검색지수

57
시장 전체 판매량
RANK BRAND 5년 누적 판매량
1 Ford 10,750,963
2 Chevrolet 9,172,096
3 Toyota 8,554,274
4 Honda 6,120,334
5 Nissan 5,172,541
6 Hyundai 3,333,427
7 Dodge 2,530,202
8 Kia 2,514,783
9 Jeep 2,367,420
10 GMC 2,097,812
상위 10개 브랜드
• 판매량 순위와 GT 순위와 일치하지 않음(Ex. Honda)
 각각의 검색어들이 ‘자동차’에 대한 사람들의 관심을 정확하게 반영하는지에 대해 다양한 각도에서 점검 필요 (예:
Ford에 대한 검색어가 Ford Motors에 대한 것인지, Tom Ford에 대한 것인지?)

58
• “Ford” 검색 시 Ford Motors와 전혀 관련 없는 정보가 나오는 것은 두 번째 페이지의 5번째 검색 결과 – Tom
Ford(Designer/Fashion Brand)
• “Tom Ford”에 대한 GT는 전혀 다른 패턴, 상대적 영향력도 매우 작음
• “Ford Motors Company”에 대한 GT는 대중들의 실제 “Ford Car”에 대한 관심을 반영하지 못함(계절성 사라짐, 경
쟁업체 Toyota 대비 상대적 영향력도 큰 폭으로 감소)
 “Ford”라는 검색어에 대한 GT값을 신뢰하고 사용할 수 있는 것으로 판단

59
[Ex1. GT in CANADA]
• 캐나다의 거물 정치인 Rob Ford가 2014년 토론토 시장 선거에 출마하면서 Ford의 GT를 교란

60
[Ex1. GT in CANADA]
• “Rob Ford”를 제외한 검색어 지수를 사용하자 계절성 추이가 다른 브랜드들과 비슷한 패턴으로 유지
 “Ford –Rob Ford”의 값을 신뢰할 수 있다고 판단

61
[Ex2. GT in India]
• 유독 Honda의 GT가 높음
• Passenger Car Market share? or Motorcycle Market Share?

62
• 인도 내 자동차 시장의 점유율은 Hyundai가 로컬 브랜드에 이어 2위이나, GT는 Honda > Hyundai
• Indian GT에는 passenger car/motorcycle market의 영향이 혼재하는 것으로 판단되나, 서로의 영향을 분리해서
추출하는 것은 사실상 불가능
“Honda Motorcycle”에 대한 인도 소비자들의 인지도/호감도는 “Honda Car”에 대한 인지도/호감도에도 상당한
영향력을 미칠 것으로 판단할 수 있음. “Honda Motor Cycle”의 혼입이 입력변수에 미치는 오염효과는 미미할 것
으로 판단, “Honda”의 Indian GT를 교정하지 않고 그대로 사용
[Ex2. GT in India]

63
[Ex3. Homonym(동음이의어)]
• 단일 모델명에 다른 강력한 고유명사 동의어가 혼입될 가능성 있음
• 미국 지역에 한정했을 때 “Sonata”는 Music domain에 의한 간섭이 적은 것으로 보이나, 지역을 전세계로 설정 시
music domain 영향이 큰 것으로 보임
 자동차 모델명에 대한 검색어 지수 값은 “브랜드명 + 모델명”을 사용하는 것을 원칙으로 함

�ݺ�ߣ

빅데이터 윈윈 컨퍼런스-데이터수집 및 정제

More Related Content

빅데이터 윈윈 컨퍼런스-데이터수집 및 정제