ݺߣ

ݺߣShare a Scribd company logo
쓰기 쉬운 Hadoop 기반
빅데이터 플랫폼 아키텍처 및 활용 방안
NIPA Open Frontier Lab
박치완
chiwanpark@icloud.com
Open Technet Summit 2014
차례
• NIPA Open Frontier 소개
• Hadoop Eco-system
• 여전히 Hadoop은 어렵다?
• UI of Apache Hadoop
• Flamingo Project
– HDFS Browser
– Workflow Designer, Dashboard
– Apache Pig Integration
– Apache Hive Integration
– Hadoop Cluster Monitoring
NIPA Open Frontier
• 국내, 외 Open-source Project Committer, Contributor를
지원하는 정부 지원 프로그램
• 현 1기 진행 중, 3~4월 중 2기 선발 예정
• 인프라 및 연구 활동비, 활동 장려금 등 지원
• 1기 프로젝트 (일부)
– Linux Kernel (http://www.kernel.org)
– Epiphany (https://wiki.gnome.org/Apps/Web)
– Haroopad (http://pad.haroopress.com)
– 구름 입력기 (http://gureum.io)
– R-iHELP (http://ihelp.r-forge.r-project.org)
– Flamingo Project (http://www.opencloudengine.org)
– Cling (http://4thline.org/projects/cling/)
– Lucene Korean Analyzer 등 이외 다수
Hadoop Eco-system
• 2005년 Hadoop 첫 발표
• 이후, 따라오는 Hadoop 관련 프로젝트
– Apache Pig
– Apache Hive, Apache Tajo, Cloudera Impala, Facebook Presto
– Apache HBase, Apache Cassandra
– Apache Flume, Facebook Scribe, Apache Kafka
– etc.
여전히 Hadoop은 어렵다?
http://jmlab.tistory.com/11
http://orbit.nlm.nih.gov/resource/kettle-
pentaho-data-integration
UI for Apache Hadoop
• 여전히 Hadoop은 어렵다?
– 빅데이터를 활용하기 위해서는 데이터 사용자가 자주, 빨리 분석을 수행
해 볼 수 있어야 함
– 아직은 Hadoop이 기존 시스템 보다 다루기 어려움
• 관련 프로젝트
– Apache Ambari (http://ambari.apache.org)
• Hadoop Cluster를 쉽게 배포하고 관리할 수 있도록 도와주는 솔루션
– Cloudera Hue (http://gethue.com)
• CDH 기반 Hadoop 관련 프로젝트를 하나로 묶어 쉽게 사용할 수 있도록 도
와주는 솔루션
Flamingo 환경
http://flamingo.opencloudengine.org
Web-based UI
Based on
Apache Hadoop
Open-source
Project
Architecture
HDFS Browser
Web에서 HDFS내의 파일을 관리할 수 있는 HDFS Browser 제공
- Hadoop HDFS API 기반
디렉토리 관리
파일 업로드, 다운로드
Hive Metastore 연계
Audit Log
HDFS Browser
HDFS의 파일 처리 이력을 기록해 추후 관리자가 특정 파일의 이력 추적 가능
DEMO of HDFS Browser
Workflow Designer
OpenGraph 기반 데이터 분석 Workflow Designer
- 분석 Workflow를 DAG 기반으로 작성 가능
Workflow Designer
기존에 사용하던 MapReduce도 통합하여 Workflow에 적용 가능
- https://github.com/cloudine/flamingo-mapreduce
Workflow Dashboard
수행된 Workflow의 기록 열람
Workflow Dashboard
Workflow내 개별 MapReduce Job 마다 수행 Log, Configuration 확인
Job Scheduling
구성된 Workflow를 Batch Job으로 등록
DEMO of Workflow Designer, Dashboard
Apache Pig Integration
Apache Pig를 통합해, Pig Latin을 통해 추상화 된 데이터 분석 수행
Apache Hive Integration
Apache Hive를 통합해, HiveQL을 통해 SQL과 비슷한 구문으로 데이터 분석 수행
Apache Hive Integration
수행된 Query의 결과를 즉시 열람
Apache Hive Integration
Hive Table를 Query문 없이 UI 만으로 생성
DEMO of Hive Integration
Monitoring
다양한 Monitoring 기능 제공
- HDFS, Datanode Monitoring
Monitoring
JobTracker, Namenode 등 주요 Hadoop Cluster의 Metrics 제공
Monitoring
수행한 MapReduce Job에 대한 Monitoring 정보 제공
Monitoring
JobTracker, Namenode 등 주요 Hadoop Cluster의 Metrics 제공
Future
• 기본적으로 제공되는 Component 보강
– 데이터 전처리 모듈, 추론 모듈 등
• 사용자 별 Quota 설정 등 개별 제한 기능
• Hadoop 2 지원
• Amazon EMR, Rackspace Hadoop Platform 등 Hadoop
기반 엔터프라이즈 플랫폼 지원
Project Information
• 프로젝트 홈페이지
– http://wiki.opencloudengine.org/display/IN/Flamingo
• Issue Tracker
– http://jira.opencloudengine.org
• Build Server
– http://build.opencloudengine.org
• License
– Web-based UI (Ext.JS를 활용해 GPLv3)
– Engine (Apache License)
감사합니다
chiwanpark@icloud.com

More Related Content

[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안