2. 내가 누구?
코난테크롤로지에서 4년 정도 일했고,
현재 네이버에서 2년정도 검색광고 집계 일
부를 담당. 기냥 흔히 보는 남자개발자
!
뭔가 간식비라도 벌어보고 싶어
회사 이외에 INDF 라는
지인들과 코딩품앗이 & 스터디 (?)
아무튼 정체 불명의 모임을 시도중
!
HTTP://BLOG.INDF.NET
15. 하둡 소개
대용량의 데이터를 분산처리해줄수 있도록 하는 오픈소스 프로젝트
Nutch/Lucene 프로젝트의 서브프레임워크이며, 자바로 구현
크게 분산파일시스템(HDFS)와 맵리듀스(MapReduce)로 구성
소수의 비싼 서버보다는 다수의 저렴한 서버 사용 (스케일아웃)
(장애 허용 구조, 3copy 로 데이터 유실 방지)
오프라인 배치에 최적화
맵리듀스를 통한 단순화된 병렬 프로그래밍 가능.
18. 1.1 HDFS ?
2003년 구글랩에서 발표된 The Google FileSystem이란
논문을 바탕으로 작성된 파일시스템
특징
파일을 여러개의 블록으로 나눠서 젶장 (기본 64mb)
하드웨어 고장에 견고 (다른 서버에 복제본 젶장 보통
3copy)
스트리밍 데이터 액서스 (배치에 최적화)
31. 1. 구성
하둡클러스터 (1…N)
hadoop hadoop hadoop
hadoop hadoop hadoop
logic 실행서버 & 로그 스케쥴러
hadoop hadoop hadoop
hadoop hadoop hadoop
메모리서버 (1…N)
자체 개발
Hive
hbase hbase hbase
hbase hbase hbase
Hbase클러스터
MongoDB + ROR
로그사이즈 모니터링
Strom
데이터 이상 감지
dbms exadata
32. 2. 개발용 프레임워크 사용
Spring
Hadoop API
config + 랩핑 API
1. 여러개의 Map/Reduce 작업을 xml로 관리
2. 동일한 HDFS상의 input을 사용하는 여러개의
작업을 한번의 read로 처리하도록 함
!
3. 자주쓰는 패턴은 해당 프레임워크에 기능구현
4. 데몬형태로 동작하여 네트워크로 작업요청가능
사내 네트워크통신 모듈
39. 하나의 솔루션으로
해결하는건 어려움.
요즘 추세는 용도에 맞게 섞어써야 함.
!
예를 들어
하루동안 쌓인 몇백기가의 로그파싱과 1차집계는 하둡으로 하고
요약된 결과는 HBASE에서 관리한다거나,
실시간 처리를 위해 kafka 를 이용해 로그를 메시지큐에 넣고 스톰으로 처리
한다거나 이런 용도별로 섞는 기술이 필요함.
!
그전에, 데이터가 정말 커서 문제인것인지 판단필요.