Distributed Programming Framework, hadoopLGU+I will make this presentation for seminar of NIPA
For more information of the seminar, please go to http://www.software.kr/user/seminar.mbs?id=swkr_050102000000&command=view&idx=376830
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek하둡 기초 개념
빅 데이터 기초 개념
하둡과 NFS
Learn about Hadoop basic
Hadoop with NetApp NFS Connector
(TR-4382: NetApp FAS NFS Connector for Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Matthew (정재화)얼마전 비전공자들에게 하둡 개요를 주제로 발표했던 슬라이드입니다. 하둡의 개발 배경과 기본 컨셉, 최근 유행하고 있는 SQL-on-Hadoop에 대해서 설명합니다.
하둡 좋은약이지만 만병통치약은 아니다민철 정민철열린세미나 첫번째 발표자료
과거시스템에서의 문제점
그리고 하둡에서는 어떻게 그런문제를 해결했는설명하고
사실 몇가지 불편한점에 대한 이야기
https://www.facebook.com/groups/576473599127259
Apache Hive: for business intelligence use and real-time I/O use (Korean)Teddy Choi"아파치 하이브: 비즈니스 인텔리전스와 실시간 조회 관점에서" 슬라이드는 제 10회 ACC (http://acc.zdnet.co.kr)에서 아파치 하이브 기여자 최종욱이 발표한 내용을 담고 있습니다. 최근 스팅어가 추구하는 방향, 그리고 달성한 성과와 HBase 통합 분야의 발전을 소개합니다.
HunchLab 2.0 Predictive Missions: Under the HoodAzaveaHunchLab is a predictive policing software that uses machine learning to analyze historical crime data and predict future crime hotspots. It represents common crime theories like risk terrain modeling and routine activity theory as variables. The modeling process involves generating training examples from years of data, enriching it with geographic and temporal variables, building and evaluating multiple models using techniques like gradient boosting and generalized additive models, and selecting the best performing model. HunchLab aims to learn from a jurisdiction's unique data to help prioritize police patrols.
BigData, Hadoop과 Node.js고포릿 default숭실대학교 미디어학부 오픈소스 소프트웨어 실습 4차 강의로, Bigdata에 대한 이해를 해보고, 필요한 구성요소와 Hadoop에 대해 소개합니다. 그리고 2,3차에 진행한 node.js와 연계할 수 있는 기본적인 실습을 포함하고 있습니다.
Crime Risk Forecasting: Near Repeat Pattern Analysis & Load ForecastingAzaveaAzavea, founded in 2000 and based in Philadelphia, specializes in geospatial, web, and mobile software development, focusing on crime risk forecasting and analysis through their product Hunchlab. The document details methods like near repeat pattern analysis and load forecasting to predict crime incidents, utilizing historical data and statistical models. Future research topics include real-time data integration, machine learning enhancements, and neighborhood composition analysis.
GPUs, Cloud and Grids: Distributed Geoprocessing for Speed, Scalability and B...AzaveaThe document discusses advancements in distributed geoprocessing using GPUs, clouds, and grids to enhance speed and scalability for geospatial tasks. It highlights the challenges posed by growing geographic data and the need for optimized processing methods, including new programming technologies and data management strategies. The presentation underscores the significant improvements in calculation times and the potential of GPU geoprocessing for various applications, including urban planning and environmental forecasting.
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Matthew (정재화)얼마전 비전공자들에게 하둡 개요를 주제로 발표했던 슬라이드입니다. 하둡의 개발 배경과 기본 컨셉, 최근 유행하고 있는 SQL-on-Hadoop에 대해서 설명합니다.
하둡 좋은약이지만 만병통치약은 아니다민철 정민철열린세미나 첫번째 발표자료
과거시스템에서의 문제점
그리고 하둡에서는 어떻게 그런문제를 해결했는설명하고
사실 몇가지 불편한점에 대한 이야기
https://www.facebook.com/groups/576473599127259
Apache Hive: for business intelligence use and real-time I/O use (Korean)Teddy Choi"아파치 하이브: 비즈니스 인텔리전스와 실시간 조회 관점에서" 슬라이드는 제 10회 ACC (http://acc.zdnet.co.kr)에서 아파치 하이브 기여자 최종욱이 발표한 내용을 담고 있습니다. 최근 스팅어가 추구하는 방향, 그리고 달성한 성과와 HBase 통합 분야의 발전을 소개합니다.
HunchLab 2.0 Predictive Missions: Under the HoodAzaveaHunchLab is a predictive policing software that uses machine learning to analyze historical crime data and predict future crime hotspots. It represents common crime theories like risk terrain modeling and routine activity theory as variables. The modeling process involves generating training examples from years of data, enriching it with geographic and temporal variables, building and evaluating multiple models using techniques like gradient boosting and generalized additive models, and selecting the best performing model. HunchLab aims to learn from a jurisdiction's unique data to help prioritize police patrols.
BigData, Hadoop과 Node.js고포릿 default숭실대학교 미디어학부 오픈소스 소프트웨어 실습 4차 강의로, Bigdata에 대한 이해를 해보고, 필요한 구성요소와 Hadoop에 대해 소개합니다. 그리고 2,3차에 진행한 node.js와 연계할 수 있는 기본적인 실습을 포함하고 있습니다.
Crime Risk Forecasting: Near Repeat Pattern Analysis & Load ForecastingAzaveaAzavea, founded in 2000 and based in Philadelphia, specializes in geospatial, web, and mobile software development, focusing on crime risk forecasting and analysis through their product Hunchlab. The document details methods like near repeat pattern analysis and load forecasting to predict crime incidents, utilizing historical data and statistical models. Future research topics include real-time data integration, machine learning enhancements, and neighborhood composition analysis.
GPUs, Cloud and Grids: Distributed Geoprocessing for Speed, Scalability and B...AzaveaThe document discusses advancements in distributed geoprocessing using GPUs, clouds, and grids to enhance speed and scalability for geospatial tasks. It highlights the challenges posed by growing geographic data and the need for optimized processing methods, including new programming technologies and data management strategies. The presentation underscores the significant improvements in calculation times and the potential of GPU geoprocessing for various applications, including urban planning and environmental forecasting.
7 misconceptions about predictive policing webinarAzaveaThe document addresses seven common misconceptions about predictive policing, explaining how it works, the data it uses, and its implications. Key misconceptions include the beliefs that predictive policing is akin to science fiction, that it can predict individual crimes, and that it exacerbates existing biases. The document emphasizes the importance of understanding predictive policing's role in resource allocation and its potential impacts on community relations.
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개Gruter- GRUTER의 빅데이터 플랫폼 qoobah의 아키텍쳐와 관리 도구 Cloumon 소개
- GRUTER의 빅데이터 플랫폼 Delivery 방법론 소개
Hadoop 기반 빅데이터 이해아이웍스 | iWorks Inc.아이워커들의 빅데이터 이해를 돕기 위해,
아이웍스 ICT사업본부장 정수화 부사장께서 발표한 내부 교육자료입니다.
아이웍스는 Hadoop기반 빅데이터 도입에 필요한 하드웨어 솔루션을 전문적으로 취급하고 잘 구축하는 Datacenter 전문 기업입니다.
Spark sql동현 강spark 1.6을 기준으로 spark sql에 대해서 개략적으로 설명한 자료입니다. 발표 자료가 친절하지 않으나 한글로 된 자료가 없길래 혹시나 도움 되시는 분들이 있을까 하여 공유합니다.
발표자료 보다는 마지막 페이지의 참고자료들을 읽어보시기를 권장 드립니다.
출처만 남겨주시면 자유롭게 가져가셔서 사용하셔도 무방합니다.
하둡 에코시스템 위에서 환상적인 테이크오프 - DSTS 2019 Kenneth Ceyer하둡의 거대한 파도를 대비해서 테이크오프를 준비하는 여러분을 위해 준비한 슬라이드입니다. 하둡의 수많은 생태계에 요소들을 둘러보고 이것이 협업에 어떤 도움을 주는지를 설명합니다. 이 발표자료는 DSTS 2019 서울에서 발표되었습니다.
Apache spark 소개 및 실습동현 강빅데이터 개념 부터 시작해서 빅데이터 분석 플랫폼의 출현(hadoop)과 스파크의 등장배경까지 풀어서 작성된 spark 소개 자료 입니다.
스파크는 RDD에 대한 개념과 spark SQL 라이브러리에 대한 자료가 조금 자세히 설명 되어있습니다. (텅스텐엔진, 카탈리스트 옵티마이져에 대한 간략한 설명이 있습니다.)
마지막에는 간단한 설치 및 interactive 분석 실습자료가 포함되어 있습니다.
원본 ppt 를 공개해 두었으니 언제 어디서든 필요에 따라 변형하여 사용하시되 출처만 잘 남겨주시면 감사드리겠습니다.
다른 슬라이드나, 블로그에서 사용된 그림과 참고한 자료들은 작게 출처를 표시해두었는데, 본 ppt의 초기버전을 작성하면서 찾았던 일부 자료들은 출처가 불분명한 상태입니다. 자료 출처를 알려주시면 반영하여 수정해 두도록하겠습니다. (제보 부탁드립니다!)
2013.02.02 지앤선 테크니컬 세미나 - iOS 테스팅 이야기(OSXDEV)JiandSonThis document discusses test-driven development (TDD) and its application for iOS development. It provides an overview of TDD processes and techniques, describes how to implement TDD for an iOS client app for the OSXDev API, and reviews the OCUnit testing framework and alternatives for unit testing iOS apps with TDD.
2013.02.02 지앤선 테크니컬 세미나 - Xcode를 활용한 디버깅 팁(OSXDEV)JiandSonThis document provides debugging tips for Xcode including using breakpoint actions, exception breakpoints, symbolic breakpoints, and static analysis. It compares ARC and non-ARC debugging and discusses diagnostic tools like memory management and logging. Finally, it introduces DTrace as a dynamic tracing facility for macOS and iOS.
3. Windows에서 사용가능한
Hadoop 발표 (Microsoft
HDInsight Server), 이미 Azure
에서 사용 가능
빅데이터 시대 주목받는 하둡
네이버 라인, NoSQL 로 구성 (Redis ->
HBASE 로 마이그레이션)
13년 2월 2일 토요일
4. 배치 처리 속도 개선 및
분석 활용 예시 (통화품질 이상징후)
빅데이터 시대 주목받는 하둡
13년 2월 2일 토요일
5. splunk : 모든 로그 데이터(방화벽,IDS/
IPS, 서버, OS, DB, 웹로그, WAS로그, 어
플리케이션 로그 등등)를 수집/저장하여
손쉽게 검색 및 분석
빅데이터 시대 주목받는 하둡
13년 2월 2일 토요일
7. - About Hadoop
- Hadoop Components
- MapReduce
- 하둡 관련 프로젝트
- Case studies
13년 2월 2일 토요일
8. what is hadoop?
“Flexible and available architecture for large scale
computation and data processing on a network of
commodity hardware”
opensource + commodity hardware
= IT costs reduction
13년 2월 2일 토요일
9. History of hadoop
- 오픈소스 자바 검색엔진 Lucene, Nutch 프로젝트 후속으로
만든 오픈소스 분산처리 플랫폼
cf) Hadoop 이름은 더그커팅의 아들이 가지고 올던 노란 코끼리
- 야후는 2006 년에 더그를 채용했고, Hadoop 을 오픈소스 프로젝트
로 Start 함. 2년 후 Apache Top Level 프로젝트가 됨
- Hadoop running on a 10,000+ core Linux cluster
13년 2월 2일 토요일
10. what is hadoop?
- Yahoo, Facebook,Twitter... Scaling Challenges
- Accessible / Robust / Simple / Scalable
- High-end Machine vs Cluster of Commodity Machines
- SETI@home : move data between client and server
- Hadoop : move-code-to-data philosophy
- RDB vs Hadoop : Scale-up / Table vs
Key-Value / Online, Offline
13년 2월 2일 토요일
11. hadoop components
HDFS
(Hadoop Distributed File System)
MapReduce
(Job Sche. / Task Exec.)
Hbase
Pig Hive Sqoop
ETL BI Report RDBMS
ETL(Extract, Transform, Load)
13년 2월 2일 토요일
12. hadoop components
- HDFS (Hadoop Distributed File System) : A
distributed filesystem designed for storing very
large files with streaming data access running on
clusters of commodity hardware.
source : http://www.cloudera.com/what-is-hadoop/hadoop-overview/
13년 2월 2일 토요일
13. hadoop components
!
- NameNode : 파일의 메타데이터 (데이터 위치 등)
/user/chunk/data1 takes up 3 blocks (1,2,3)
/user/james/data2 takes up 2 blocks (4,5)
replication factor : 3
13년 2월 2일 토요일
14. hadoop components
- Secondary NameNode(SNN) : NameNode 장애시 데
이터 손실 최소화
FsImage : 블록에 대한 메타데이터 정보
Edit log : 파일 메터데이터 변경 사항을 기록
SNN 은 주기적으로 Edit log 와 FsImage 를 Merge
Data loss 는 NameNode 실패시 여전히 존재
Edit log 를 원격 NFS 에 추가적으로 기록하고, 장애시 해
당 파일을 가지고 SNN 을 구동하여 서비스 제공(그러나
성능 이슈 및 수작업 복구)
13년 2월 2일 토요일
16. hadoop components
- TaskTracker : JobTracker 에게 할당받은 Task 를 해당 슬레이브 노드에서
처리될 수 있도록 함
- 슬레이브 노드에 1 개 존재, 슬레이브 노드에 할당된 작업의 실행을 담당
- JobTracker 와 주기적 통신
- Mapper/Reducer 태스크를 분리된 jvm 하에 실행
13년 2월 2일 토요일
17. MapReduce
- MapReduce job 은 대용량의 입력 데이터 세트를 여러 덩어리들로 나누고, 해당 덩어리들
을 병렬적으로 "Map" 를 통해 처리, Job 의 입력은 입력 스플릿이라고 부르는 고정된 크기
의 조각으로 나눈다
- Map 의 결과물을 Reduce 태스크로 전달하여 처리
- Combiner 를 사용하여 Reduce 로 보내는 데이터를 줄임 (네트워크 대역폭 고려)
년도별 특정 달의 평균 기온 정보
(2000, 20)
(2000, 30)
(2000, 10)
--------------
(2000, 5)
(2000, 22)
(2000, 20
가장 더운 달의 기온은?
Map 수행 결과 :
(2000, [20,30,10])
(2000, [5,22,20])
미리 최고 기온 계산 (combiner)
(2000, 30), (2000, 22) -> (2000, [30,20])
13년 2월 2일 토요일
18. 참고 : 입력 분할과 레코드 경계
입력 분할은 사용자 입력 레코드의 논리작 분할을 뜻함
HDFS 의 블록은 입력 데이터의 물리적인 분할을 뜻함
이 두가지가 동일하다면?
실제는?
요청하는 레코드가 메인 블록 이외 다른 블록에 위치할 경우
블록이 로컬이 아닌 원격 서버에 위치할 경우 통신 비용이 발생
거의 다르다.
13년 2월 2일 토요일
19. MapReduce
- Mapper : 입력 키/값 쌍을 가지고 중간단계의 키/값 쌍을 만든다.
- Partitioner : Mapper 의 결과를 다수의 Reducer 로 전달하기 위해서 해
당 결과를 여러 부분으로 나눔
13년 2월 2일 토요일
20. MapReduce
- Reducer : Mapper 를 통해 생성된 중간 데이터 셋(키-값쌍)을 입력으
로 받아, 보통 동일한 키를 가진 세트가 동일한 Reducer 로 들어가 어
떤 연산을 수행한 뒤에, 그 결과를 출력하게 되는데 보통은 어떤 요약
된 정보 형태를 가짐
- Reducer 는 3가지 주요 단계
(shuffle, sort, reduce) 를 가짐
- Shuffle : Mapper 의 결과 데이터
셋을 적절한 노드 (Reducer) 로 패치
- Sort : MapReduce 프레임웍은
Reducer 입력 데이터를 키 별로
정렬해서 그룹화
- Reduce : <키, (값 리스트)> 마다 reduce(..) 메소드가 호출
13년 2월 2일 토요일
21. word counting 예제
- 단어세기에 포함시키지 않을 패턴(ex: tomato) 을 파일에 에 등록
- 대소문자 구분할지 여부 설정
참고 : http://blog.eduby.me/2012/05/mapreduce-8-wordcount2.html
apple
78. Pig
MapReduce
- 하나의 입력, 두 단계의 데이터 처리 흐름
- 조인 : 코드 길어지고, 에러 발생하기 쉬움
- N 단계의 job 들은 관리하기 어렵다.
- Java 는 컴파일이 필요
- 프로그래밍 하기가 어렵다.
- High-level 언어
- 프로그램을 간단히
-Yahoo, Hadoop job 의 40% Pig 로 처리
- Pig Latin 스크립트, 컴파일러가 자동으로 최적화 수행
- 관계형 데이터 처리 스타일의 오퍼레이션(filter, union, group, join)을 지원
13년 2월 2일 토요일
80. Hive
- 데이터 웨어하우징 패키지, 다수의 사용자 및 대용량 로그
데이터 처리를 위해 페이스북에서 먼저 Hive를 만들기 시작
- 구조화된 데이터를 쿼리하고, 다소 복잡한 MapReduce 프로
그램 대신 HiveQL을 사용해서 쉽게 데이터를 처리
- 테이블, 행, 컬럼, 스키마 같이 쉽게 배울 수 있는, 관계형 데
이터베이스와 유사한 개념을 사용
13년 2월 2일 토요일
81. Hive
hive CREATE TABLE cite (citing INT, cited INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
hive LOAD DATA LOCAL INPATH 'cite75_99.txt'
OVERWRITE INTO TABLE cite;
Copying data from file:/root/cite75_99.txt
Loading data to table cite
hive SELECT * FROM cite LIMIT 10;
OK
NULL NULL
3858241 956203
...
3858241 3634889
3858242 3668705
3858242 3707004
13년 2월 2일 토요일
211. Case Studies
뉴욕 타임즈 보관소에 있는 천백만 개의 이미지 문서 변환
- 1851년과 1922년 사이에 있는 모든 종류의 기사
- 이미지로 변환할 기사가 총 천백만 개, 총 4테라바이트의 데이터
- Hadoop framework,Amazon Web Servcies, S3 이용, 100개의 노드
- 24시간 동안 수행, 1개의 인스턴스를 1시간 사용했을 때 비용 : 10센
트, 총 100개 인스턴스, 240달러 지출
13년 2월 2일 토요일
212. Case Studies
차이나 모바일에서의 데이터 마이닝
- 대규모 확장성: 하둡을 이용해서 손쉽게 확장할 수 있는 구조
- 저 비용: 범용 PC와 무료 S/W를 이용해 구성
- 커스터마이징: 특정 비즈니스 요구사항을 만족시키는 애플리케이션
- 쉬운 사용: 사용자에게 상용 툴과 유사한 그래픽 인터페이스 제공
13년 2월 2일 토요일
214. Hadoop
- 빅 데이터에만 사용되는 것은 아니다.
- 진정한 의미의 NoSQL 툴도 아니다. (SQL 과 유사한 쿼리 언어를 쉽게 사용)
- 하둡 스토리지는 막대한 양의 데이터를 처리할 수 있다. (야후는 5만 개의 노드로
구성된 하둡 네트워크, Facebook 은 1만개)
- 가장 강력한 능력은? 확장성이다.
- 가장 큰 장점? 저렴한 비용