ݺߣ

ݺߣShare a Scribd company logo
ANKUS
오픈소스웹기반빅데이터마이닝도구
제품소개서
1
01. 제품 개발 배경
02. 제품 소개(ankus)
TableofContents
03. 별첨
2
정보기술(IT)의 발달로 다양한 형태의 대용량 데이터를 신속히 처리해야 하는 환경에 직면 하게 되면서,
빅데이터 1세대에서는 데이터의 3가지 특징 (Volume, Velocity, Variety)에 주목하게 되었습니다.
이러한 배경속에서 ‘하둡과 같은 빅데이터 시스템(인프라)’분야가 빠르게 발전했습니다.
1.1빅데이터의변화
빅데이터의 3V
3
빅데이터 2세대에서는 데이터에 숨어있는 ‘가치’를 찾는 일 에 집중합니다.
대용량의 데이터를 수집하고 관리하던 문제는
기업이 보유한 데이터에서 핵심 가치를 찾아내는 문제로 발전했습니다.
이제는 데이터로부터 숨겨진 ‘가치’를 찾기 위한 ‘데이터 분석 기술’이 필요 한 때입니다.
1.1빅데이터의변화
빅데이터의 4V
KNOWLEDGE
4
1.2 전통적데이터분석도구
GUI기반데이터마이닝/기계학습분석 스크립트언어기반통계/응용분석및시각화
워크플로우기반데이터마이닝/기계학습분석
IBM SPSS Modeler SAS Enterprise Miner ECMiner
WEKA R (Rstudio)
빅데이터가나타나기이전부터데이터
에숨어있는새롭고,가치있고,유용한
정보를찾기위한노력은계속되어왔으
며,데이터마이닝/기계학습은가장중
요한데이터분석기법으로자리잡았
습니다.
데이터마이닝/기계학습기반의데이
터분석을위해서전통적으로WEKA,
R, SAS Enterprise Miner,
ECMiner, IBM SPSS Modeler
등이사용되어왔습니다.
5
1.3 전통적데이터분석도구의 한계
데이터 전처리 요청
하둡 기반 빅데이터 인프라
…
namenode datanode-1 datanode-2 datanode-3 datanode-n
전처리 데이터 추출
관리
데이터수집및분석서버
전통적 도구를
이용한
빅데이터 분석
분산/병렬처리인프라
에서의분석필요
• 분석하고자 하는 데이터의 전처리 및
추출 작업필요
• 분석 수행을 위한 별도의 서버 필요
• 분석 서버 용량을 초과하는 대용량데이
터 처리불가
Hadoop 기반의 분산 빅데이터 환경
전통적데이터분석도구들은분석도구
가설치된개별서버에서분석이이루어
집니다.
하둡과같은빅데이터인프라와데이터
연계는가능하지만,분석자체를하둡의
분산·병렬처리인프라에서수행하지못
하고,별도의분석서버에서수행해야
합니다.
이때문에,하둡기반의빅데이터환경
에서직접운용가능한분산기반데이
터분석도구들의필요성이대두되었습
니다.
6
Hbase
Columnar
Store
HCatalog
Meta Data
MapReduce
Distributed Processing
Framework
1.4 하둡기반데이터분석도구
* Apache Hadoop Ecosystem
Ambari
Provisioning, Managing and Monitoring Hadoop Clusters
Oozie
Workflow
HDFS
Hadoop Distributed File System
Tajo
Real-time
SQL Query
Impala
Real-time
SQL Query
Hive
SQL Query
Pig
Scripting
Mahout
Data Mining
Zookee
per
Coordinati
on
Avro
Data
Serialization
System
Hiho
Data
Exchanger
Scoop
Data
Exchanger
Chukwa
Log Collector
Flume
Log Collector
하둡 작업에 대한 워크플로우 관리 SQL/Script/CLI 기반 데이터 분석
빅데이터분산관리/처리환경인하둡
시스템에서운용가능한데이터분석도
구로는Pig, Hive, Mahout, Tajo,
Impala 등이있으며,
워크플로우관리를위한도구로는
Oozie가있습니다.
이중Mahout은유일하게데이터마
이닝/기계학습기반의데이터분석이
가능한도구로알려져있습니다.
7
1.5 하둡기반데이터분석도구의출현배경
하둡기반의분석도구들은전통적데이
터분석도구와같이별도의분석서버
를이용하지않고,하둡기반빅데이터
인프라내에서분석을직접수행할수
있도록하는기능을제공합니다.
특히,하둡기반빅데이터인프라에서
데이터마이닝/기계학습분석이가능
한도구로mahout의한계점을극복
하기위한ankus가개발되었습니다.
데이터 전처리 및 추출 데이터 분석 등 알고리즘 수행
전통적도구기반의데이터분석
데이터수집및분석서버
하둡인프라기반의데이터분석
• 전처리 및 추출 등 처리기반
데이터 분석 도구
• 데이터 마이닝/ 기계 학습
기반 데이터 분석 도구
하둡 기반 빅데이터 인프라
…
namenode datanode-1 datanode-2 datanode-3 datanode-n
관리
Hadoop 기반의 분산 빅데이터 환경
8
2.1 ankus
워크플로우기반하둡
분석및운영관리
분산기반데이터마이닝및
기계학습분석알고리즘
하둡클러스터관리
및모니터링
분산빅데이터환경에서운용가능한
웹 기반 빅데이터 마이닝 도구
 분산기반데이터마이닝및기계학습
분석알고리즘기술
 웹UI 기반워크플로우작성및관리모듈
 하둡데이터관리및작업수행모니터링
ankus는하둡기반의분산빅데이터
환경에서데이터마이닝/기계학습분
석을할수있도록하는웹기반 빅데이
터마이닝도구입니다.
ankus는mahout과같이데이터마
이닝/기계학습분석기능을제공하는
것외에하둡에코시스템인oozie,
ambari의 주요기능을하나의프레임
워크안에서제공함으로써빅데이터분
석을위한통합환경을구축할수있습
니다.
9
 지속적으로다양한데이터마이닝/기계학습알고리즘을추가/개발하여제공하고,다양한분야에의적용을위한자연어
및SNS 처리분석기능,시각화기능등을제공할예정입니다.
ankus는하둡기반의분산빅데이터
환경에서운용할수있는기술로써
S/W 아키텍처는다음그림과같습니
다.
현재까지는기초통계및데이터전처리,
데이터유사/상관분석,데이터마이닝/
기계학습분석,개인화추천분석기능
과웹워크플로우기반의분석및하둡
관리인터페이스를제공합니다.
ankus framework
Hadoop Platform
Operating System
H/W and N/T Infra structure
ankus core
Visualization UI module
Personalization / Recommendation NLP/SNS Analysis
Data Mining and Machine Learning
Statistics and
Preprocessing
Statistics and
Preprocessing
2.2 ankusarchitecture
10
DATA 분석결과알고리즘
2.3주요기능–알고리즘:기초통계및전처리분석
주요분석수행하기이전에기초통계
를이용한데이터1차분석및데이터전
처리를수행할수있는알고리즘이제
공됩니다.
Numeric Statistics
벡터기반수치형데이
터기초통계수치산출
합계,평균,분산,표준편차,최대·최소값
등의기초통계정보제공
선택한속성값의빈도수와비율정보
제공
선택한속성값의확신도기반합정보
제공
Nominal Statistics
벡터기반범주형데이
터기초통계(빈도수와
비율)수치산출
Normalization
벡터기반수치형데
이터정규화(Min/Max
기반)수행
Certainty Factor
based Sum
벡터기반수치형데
이터확신도합계산
출
전처리가필요한속성을선택하여정
규화작업수행
11
2.3주요기능–알고리즘:데이터마이닝/기계학습 분석
데이터마이닝/기계학습에서대표적으
로사용되고있는유사/상관분석과군
집/분류분석을수행할수있는알고리
즘이제공됩니다.
DATA 분석결과
Boolean Similarity
/Correlation
특징벡터기반바이너
리형데이터유사/상관
분석
바이너리형자료 u와w의유사정도
를자카드계수,다이스계수,해밍거리
를기반으로산출
수치형자료u와w의유사정도를코
사인계수,피어슨계수,맨해튼계수,
유클리디안거리를기반으로산출
“string”과“stream”의유사정도를
편집거리,해밍거리를기반으로산출
Numeric
Similarity
/Correlation
특징벡터기반수치
형데이터유사/상관
분석
String Similarity
특징벡터기반문자
열데이터유사분석
알고리즘
12
2.3주요기능–알고리즘:데이터마이닝/기계학습 분석
데이터마이닝/기계학습에서대표적으
로사용되고있는유사/상관분석과군
집/분류분석을수행할수있는알고리
즘이제공됩니다.
DATA 분석결과
ID3Classification
ID3의사결정나
무분류분석
ID3 기반의사결정나무노드의규칙에부합하는
데이터개수,클래스분포최대순도,대표클래스등
의정보제공
K-Means 군집에사용된속성정보,할당된군집번
호,할당된군집중심과의거리등의정보제공
EM 군집에사용된 속성정보,할당된군집번호,할당
된군집에서의소속확률등의정보제공
K-MeansClustering
K-means군집분석
EMClustering
EM(expectation-
maximization)
군집분석
알고리즘
13
2.3주요기능–알고리즘:맞춤형추천분석
온라인쇼핑몰,극장등콘텐츠유통도
메인에서적용가능한사용자맞춤형
아이템추천분석알고리즘이제공됩
니다.
DATA 분석결과알고리즘
Content based
Similarity
콘텐츠내용기반(content-
based collaborative
filtering)상관성분석
콘텐츠간의유사도제공
사용자와아이템의유사도제공
아이템간의유사도제공
CF based Similarity
협력적여과collaborative
filtering)기반사용자/아이
템상관성분석
User based
Recommendation
사용자상관성기반
추천분석
Item based
Recommendation
아이템상관성기반
추천분석
사용자간의유사도제공
14
2.3주요기능–기타:하둡인프라관리 및모니터링
ankus에서는웹인터페이스를통하
여하둡분석작업을워크플로우기반으
로관리할수있으며,HDFS내의분산
파일관리및하둡작업의수행/종료상
황을모니터링할수있습니다.
웹워크플로우기반하둡분석작업관리
 웹브라우저에서드래그앤드롭을통하여분석알고리즘을선택하고,분석작업
의수행워크플로우를설계
 분석알고리즘의상세파라미터설정을위한인터페이스
 설계된작업의저장/로드및하둡클러스터연동실행
데이터 파일 관리를 위한 HDFS 파일 브라우저
 윈도우파일브라우저와동일한UI/UX를통한HDFS내파일관리인터페이스
 파일복사,이동,변경,업로드,다운로드,삭제등의관리
하둡 분석 작업에 대한 실행/종료 모니터링
 대시보드를통한실행/종료및실패등하둡작업의수행상황을모니터링
 하둡작업에대한수행일자,소요시간,진행비율등을확인
 날짜또는워크플로우이름을통하여수행작업검색
 에러및실행로그확인및분석
15
2.3주요기능–기타:사용자관리
ankus에서는사용자관리및계정보안
을위하여회원가입,사용자계정및비밀
번호찾기기능과관리자가사용자들의
권한및등급을 관리할수있습니다.
사용자관리를위한회원가입기능
 사용자이름,이메일,비밀번호항목제공
 사용자관리를위한최소필요한정보만입력받아빠른회원가입기능제공
사용자 계정 및 비밀번호 찾기 기능
 이메일과비밀번호를사용하여사용자계정찾기기능제공
 사용자계정과이메일을사용하여비밀번호찾기기능제공
사용자 계정들을 관리하는 사용자 관리
 관리자계정만사용가능
 모든사용자들을관리
 조건에따른사용자검색기능
 사용자권한및등급변경관리
16
ankus mahout
입력파일
 텍스트형태의입력파일에별도의전처리작업없
이분석수행가능
 분석을하기위해서는입력파일을Sequence 파일
형태로변환필요
분석
 원본선택하여새로운데이터파일을생성하지않
고분석수행
 데이터파일로부터분석하고자하는속성만을
 원본데이터파일로부터분석하고자하는속성으로구
성된데이터파일을새롭게생성하여분석을수행
인터페이스
 웹GUI 기반의워크플로우를이용한인터페이스  개발/서버지식이필요한CLI중심인터페이스
ankus를 이용한 K-means 분석 예 mahout을 이용한 K-means 분석 예
ankus는mahout과는다르게,개발
지식이부족한마케터나기획자등기존
의데이터분석업무를하던사용자들이
빅데이터기반의분석을다양하고,손쉽
게수행할수있도록하는환경을제공
합니다.
2.4ankusvsmahout
17
하둡작업모니터링
하둡파일시스템관리
분석워크플로우고객카드
사용데이터
2.5분석적용시나리오
웹기반의GUI 인터페이스
를통해서ankus의알고리
즘을이용한분석을할수있
습니다.
웹을통해서분석수행을모
니터링하고,하둡시스템
내에생성된분석결과를손
쉽게관리할수있습니다.
분석결과를시각화할수있
으며이를의사결정에 반영
할수있습니다.
○○카드사의마케팅부서에서근무하
는A씨는다음달에있을고객이벤트를
준비하기위해서,ankus를이용하여
고객들의카드사용 데이터패턴을
분석하려고합니다.
분석결과
18
3.1추가정보
시스템요구사항 듀얼라이선스 기술지원
ankus 프레임워크운영환경요구
사항입니다.
• Java 7.0 이상
• Hadoop 1.0.3 이상
• MySQL 5.5 이상
• Tomcat 7.0 이상
• Linux OS
ankus는듀얼라이선스정책을따릅니다.
• Community License
연구또는비영리목적으로사용하는모든개인
사용자에게 적용되는라이선스로apache 2.0,
GPL v3의공개SW 라이선스규정이적용됩니
다.
• Commercial License
영리목적으로사용하거나공공/기관등개인사
용자가아닌경우에적용되는라이선스입니다.추
가적으로제품배포시적용되는코드공개등의
공개SW라이선스의무사항을회피하고싶은경
우에도적용가능합니다. ankus framework를
이용하여새로운상업용SW를개발하거나민간/
공공프로젝트에솔루션형태로사용하고자하는
경우에도Commercial License가적용되어야
합니다.
다음과같은다양한경로를통해기술지원을받을수있습니다.
• ankus 공식홈페이지
공개SW인ankus를다운로드받고,메뉴별정의서,사용자매뉴얼,테스트케이
스등을확인하실수있습니다.
http://www.openankus.org
• ankus 프레임워크다운로드
http://github.com/suhyunjeon/ankus
http://github.com/suhyunjeon/ankus-web
http://sourceforge.net/projects/ankus
• ankus 프레임워크정보확인및토론이가능한사용자그룹입니다.
http://www.facebook.com/groups/openankus
http://goo.gl/d8nP81 (구글그룹스사용자포럼)
• 데모동영상
문자형데이터셋유사도
http://goo.gl/YjR05G
• 바이너리형데이터셋유사도
http://goo.gl/0vp3pO
• 문의처
ankus@openankus.org
19
3.2회사소개
성공적인 비즈니스로 세상을 이끌어가는 주역 ‘어니컴'
어니컴 주식회사는 설립이래 항상 시대의 주역이 되기 위해 끊임없이 노력하고
성장하고 있습니다.
어니컴은 IT에 대한 기술적 전문성과 고객산업에 대한 이해를 바탕으로 고객지
원솔루션, BCI, Application 등 다양한 산업 분야 전반에 걸쳐 컨설팅에서 시스템
구축 및 유지 보수에 이르기까지 IT와 관련된 Total Service를 제공하며 고객가
치 극대화에 기여해 왔습니다.
또한, 모바일 관련 분야를 중점으로 SmartSolution, Smart Service, SI 분야로
Smart한 세상에 한발 앞서 나가기 위해 끊임없는 노력을 하고 있습니다.
어니컴은 성공적인 비즈니스로 새로운 세상을 이끌어 가는 주역이 되겠습니다.
인증 및 수상내역 기업정보
설립일:1998년 9월
회사명:어니컴 주식회사
대표이사:지영만
직원수:200명
사업분야:SmartSolution/
SmartService/ SI
위치정보
본사
서울시 중구 세종대로21길, 22
태성빌딩4층
기업부설연구소
경기도 용인시 기흥구 영덕동 1029
U-Tower 2809호 어니컴㈜ 기업부
설연구소
20
감사합니다
http://www.openankus.org
ankus@openankus.org

More Related Content

Ankus 제품소개서