[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
1. 쓰기 쉬운 Hadoop 기반
빅데이터 플랫폼 아키텍처 및 활용 방안
NIPA Open Frontier Lab
박치완
chiwanpark@icloud.com
Open Technet Summit 2014
2. 차례
• NIPA Open Frontier 소개
• Hadoop Eco-system
• 여전히 Hadoop은 어렵다?
• UI of Apache Hadoop
• Flamingo Project
– HDFS Browser
– Workflow Designer, Dashboard
– Apache Pig Integration
– Apache Hive Integration
– Hadoop Cluster Monitoring
3. NIPA Open Frontier
• 국내, 외 Open-source Project Committer, Contributor를
지원하는 정부 지원 프로그램
• 현 1기 진행 중, 3~4월 중 2기 선발 예정
• 인프라 및 연구 활동비, 활동 장려금 등 지원
• 1기 프로젝트 (일부)
– Linux Kernel (http://www.kernel.org)
– Epiphany (https://wiki.gnome.org/Apps/Web)
– Haroopad (http://pad.haroopress.com)
– 구름 입력기 (http://gureum.io)
– R-iHELP (http://ihelp.r-forge.r-project.org)
– Flamingo Project (http://www.opencloudengine.org)
– Cling (http://4thline.org/projects/cling/)
– Lucene Korean Analyzer 등 이외 다수
4. Hadoop Eco-system
• 2005년 Hadoop 첫 발표
• 이후, 따라오는 Hadoop 관련 프로젝트
– Apache Pig
– Apache Hive, Apache Tajo, Cloudera Impala, Facebook Presto
– Apache HBase, Apache Cassandra
– Apache Flume, Facebook Scribe, Apache Kafka
– etc.
6. UI for Apache Hadoop
• 여전히 Hadoop은 어렵다?
– 빅데이터를 활용하기 위해서는 데이터 사용자가 자주, 빨리 분석을 수행
해 볼 수 있어야 함
– 아직은 Hadoop이 기존 시스템 보다 다루기 어려움
• 관련 프로젝트
– Apache Ambari (http://ambari.apache.org)
• Hadoop Cluster를 쉽게 배포하고 관리할 수 있도록 도와주는 솔루션
– Cloudera Hue (http://gethue.com)
• CDH 기반 Hadoop 관련 프로젝트를 하나로 묶어 쉽게 사용할 수 있도록 도
와주는 솔루션
27. Future
• 기본적으로 제공되는 Component 보강
– 데이터 전처리 모듈, 추론 모듈 등
• 사용자 별 Quota 설정 등 개별 제한 기능
• Hadoop 2 지원
• Amazon EMR, Rackspace Hadoop Platform 등 Hadoop
기반 엔터프라이즈 플랫폼 지원
28. Project Information
• 프로젝트 홈페이지
– http://wiki.opencloudengine.org/display/IN/Flamingo
• Issue Tracker
– http://jira.opencloudengine.org
• Build Server
– http://build.opencloudengine.org
• License
– Web-based UI (Ext.JS를 활용해 GPLv3)
– Engine (Apache License)