ݺߣ

ݺߣShare a Scribd company logo
MS 빅데이터 서비스 및
게임사 PoC 사례 소개
This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein
will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be
interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the
date of publication. The information represents the product at the time this document was printed and should be used for planning purposes
only. Information subject to change at any time without prior notice.
 빅데이터란 무엇인가?
 Why?  Azure Managed 서비스 소개
 PoC 목표
 PoC 결과
 To-Be 개선 방안 제언
• 가트너의 정의 (2012년)
 “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및
통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”
• 빅데이터의 특징 -3 Vs of extreme scale
 Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution
 수직적 확장에 한계가 있는 대규모 데이터
 Velocity : The decision window is small compared with the data change rate
 데이터 빠른 변화로 의사 결정 시간이 매우 짧음
 Variety : Many different formats make integration difficult and expensive
 다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음
빅데이터란 무엇인가?
빅데이터 유형
Big data
Log files
Data market feeds
Text/image
Click stream
Wikis/blogs
Sensors/RFID/
devices
Social sentiment
Web 2.0
빅데이타 정의와 아파치 둡
Machine Learning
and Analytics
(예시) Big Data as part of Cortana Intelligence
Action
People
Automated
Systems
Apps
Web
Mobile
Bots
Intelligence
Dashboards &
Visualizations
Cortana
Bot
Framework
Cognitive
Services
Power BI
Information
Management
Event Hubs
Data Catalog
Data Factory
Intelligence
Stream Analytics
HDInsight
(Hadoop & Spark)
Big Data Stores
Data Lake Store
SQL Data
Warehouse
Data
Sources
Apps
Sensors
and
devices
Data
Data Lake Analytics
Machine Learning
< Apache Hadoop Ecosystem >
아파치 둡 에코 시스템과 Azure HDInsight
Microsoft’s managed Hadoop as a Service
100% open source Apache Hadoop
Built on the latest releases across Hadoop (2.6)
 향후에도 빠르게 개선되고 있는 둡 에코 시스템의 최신 버전 활용
 검증된 배포판
Up and running in minutes with no hardware to deploy
 필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감
Hadoop Meets the Cloud
Why HDInsight?
HDInsight 지원 클러스터 유형 및 용도
HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed
형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반)
1. Hadoop : 배치
2. HBase : NoSQL
3. Storm : 실시간 스트리밍
4. Spark : 배치 & 스트리밍 & 머신러닝
HDInsight – Spark 클러스터 구성 (예시)
< HDInsight Spark 클러스터 구성 화면 >
< HDInsight Spark 클러스터 포탈 >
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
• 고객사 현황
On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중
Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용
고객사 로그 데이터 분석 현황
PoC 목표 (1/2)
(1) 로그 데이터 분석 인프라 운영 환경 개선
Apache Drill 및 Spark 적용으로 분석 성능 개선
 둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소
분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축
 분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로
분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
PoC 목표 (2/2)
(2) 쿼리 기반 로그 데이터 분석 환경 구축
사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공
DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환
경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소
Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공
보고서 및 대시보드 지원 (시각화)
PoC 결과
1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선
 저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)
 대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨
(D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선)
2. 스케일업과 스케일아웃에 따른 성능 비교
 총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음
(D12 v2 vs. D13 v2 vs. D14 v2 간 비교)
3. VM Type 중 A시리즈와 D시리즈와의 성능 비교
 A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비
효과적임
4. Parquet 파일 성능
 대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선
 추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분)
성능 테스트 결과 요약
로그
DBA 및 현업 사용자 로그 분석 시나리오
현업 사용자
DBA SQL Client
Power BI
분석
엑셀 Power
Pivot 분석
SQL
Query
화면 개발
분석용
Query
1
2
3
* 향후 요건에 따라 RDBMS 적용 고려
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (1/2)
1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용
 현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상
 분석 시간 감소 및 분단위 과금으로 비용 절감
 SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소
 분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)
 Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능
 향후 업데이트된 클러스터 버전에 대한 간편한 적용
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (2/2)
2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대
 사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소
 로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능
3. 분석 결과에 대한 시각화(Visualization) 기능 강화
 보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유
 외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능
MS 빅데이터 서비스 및 게임사 PoC 사례 소개

More Related Content

MS 빅데이터 서비스 및 게임사 PoC 사례 소개

  • 1. MS 빅데이터 서비스 및 게임사 PoC 사례 소개 This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the date of publication. The information represents the product at the time this document was printed and should be used for planning purposes only. Information subject to change at any time without prior notice.
  • 2.  빅데이터란 무엇인가?  Why?  Azure Managed 서비스 소개  PoC 목표  PoC 결과  To-Be 개선 방안 제언
  • 3. • 가트너의 정의 (2012년)  “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.” • 빅데이터의 특징 -3 Vs of extreme scale  Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution  수직적 확장에 한계가 있는 대규모 데이터  Velocity : The decision window is small compared with the data change rate  데이터 빠른 변화로 의사 결정 시간이 매우 짧음  Variety : Many different formats make integration difficult and expensive  다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음 빅데이터란 무엇인가?
  • 4. 빅데이터 유형 Big data Log files Data market feeds Text/image Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Web 2.0
  • 6. Machine Learning and Analytics (예시) Big Data as part of Cortana Intelligence Action People Automated Systems Apps Web Mobile Bots Intelligence Dashboards & Visualizations Cortana Bot Framework Cognitive Services Power BI Information Management Event Hubs Data Catalog Data Factory Intelligence Stream Analytics HDInsight (Hadoop & Spark) Big Data Stores Data Lake Store SQL Data Warehouse Data Sources Apps Sensors and devices Data Data Lake Analytics Machine Learning
  • 7. < Apache Hadoop Ecosystem > 아파치 둡 에코 시스템과 Azure HDInsight Microsoft’s managed Hadoop as a Service 100% open source Apache Hadoop Built on the latest releases across Hadoop (2.6)  향후에도 빠르게 개선되고 있는 둡 에코 시스템의 최신 버전 활용  검증된 배포판 Up and running in minutes with no hardware to deploy  필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감 Hadoop Meets the Cloud
  • 9. HDInsight 지원 클러스터 유형 및 용도 HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed 형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반) 1. Hadoop : 배치 2. HBase : NoSQL 3. Storm : 실시간 스트리밍 4. Spark : 배치 & 스트리밍 & 머신러닝
  • 10. HDInsight – Spark 클러스터 구성 (예시) < HDInsight Spark 클러스터 구성 화면 > < HDInsight Spark 클러스터 포탈 >
  • 12. • 고객사 현황 On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중 Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용 고객사 로그 데이터 분석 현황
  • 13. PoC 목표 (1/2) (1) 로그 데이터 분석 인프라 운영 환경 개선 Apache Drill 및 Spark 적용으로 분석 성능 개선  둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소 분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축  분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로 분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
  • 14. PoC 목표 (2/2) (2) 쿼리 기반 로그 데이터 분석 환경 구축 사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공 DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환 경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소 Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공 보고서 및 대시보드 지원 (시각화)
  • 16. 1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선  저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)  대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨 (D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선) 2. 스케일업과 스케일아웃에 따른 성능 비교  총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음 (D12 v2 vs. D13 v2 vs. D14 v2 간 비교) 3. VM Type 중 A시리즈와 D시리즈와의 성능 비교  A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비 효과적임 4. Parquet 파일 성능  대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선  추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분) 성능 테스트 결과 요약
  • 17. 로그 DBA 및 현업 사용자 로그 분석 시나리오 현업 사용자 DBA SQL Client Power BI 분석 엑셀 Power Pivot 분석 SQL Query 화면 개발 분석용 Query 1 2 3 * 향후 요건에 따라 RDBMS 적용 고려
  • 18. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (1/2) 1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용  현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상  분석 시간 감소 및 분단위 과금으로 비용 절감  SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소  분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)  Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능  향후 업데이트된 클러스터 버전에 대한 간편한 적용
  • 19. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (2/2) 2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대  사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소  로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능 3. 분석 결과에 대한 시각화(Visualization) 기능 강화  보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유  외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능