�ݺ�ߣ

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 레이크하우스 구축 여정

데이터 레이크하우스 구축 배경
AWS Cloud 온프레미스
관계사
퍼블릭
외부 데이터 마이 데이터
내부 데이터
레이크하우스
- 결정사항
· 내부인력으로 빠르게 구축 , 운영 최소화
· 핵심 기술 내재화 , 기술육성
· 중요 시스템 자체 신고
→ 데이터 레이크하우스 구축
다양한 데이터 레이크 구축 고려사항
고려할 점
· 정해진 기간내 빠르게 구축
· 주니어 중심 인력 구성
· 개인정보 보안
ADW 란 ?
· 내 / 외부 데이터 적재 , 분석 , 머신러닝 활용

구축 핵심 목표 3 가지
속도 기술력확보 거버넌스
매니지드 기반 아키텍처
CDK 기반 구축 / 운영
데이터 적재
데이터 엔지니어
데이터 사이언티스트
보안 준수
데이터 권한 관리
품질 확보
비용 효율화

속도 : AWS 를 통한 빠른 ADW 구축 과정

AWS 매니지드 기반 아키텍처
소 규 모 로 시 작 , 확 장 가 능 한 실 용 적 인 시 스 템 으 로 설 계
AWS Cloud
Sagemaker
Studio
Amazon
QuickSight
Amazon S3 AWS Glue Data
Catalog
Amazon
MWAA
Amazon
Athena
Great
Expectation
s
AWS Lake Formation
- 기술 레버리지 : 구축 / 운영 효율성 증가
- 언어 : 파이썬 기반 기술스택으로 통일
- 비용 : Serverless 는 사용시에만 과금
- 확장성 : EKS, EMR 로 확장 가능

CDK 기반 구축 / 운영
파이썬 CDK 로 100% 인프라 구축 / 운영
거버넌스 정책 적용
3 달 만 에 인 프 라 구 축 완 료
AWS CDK
IAM
CloudFormation
KMS
MWAA
Amazon S3

기술력 확보 : 레이크하우스 내재화 과정

Iceberg 를 통한 트랜잭션 지원
Athena 에 100% Iceberg 로 30TB+ 적재
금융권 정합성 요구사항을 맞추기 위해
ACID 트랜잭션 연산 사용
자동 파티셔닝 / optimize 로 성능 최적화
Upsert/Update/Delete 쿼리가 가능한 데이터 레이크
Amazon
Athena
Amazon
S3
Iceberg O
Delete 쿼리
Amazon
Athena
Amazon
S3
Iceberg X
Delete 쿼리

Pandas 로 데이터 쉽게 다루기
데이터 엔지니어
“Spark 보다 Pandas 가
더 익숙합니다 .”
“ 소규모 데이터 ETL 에
더 효율적입니다 .”
“AWS SDK for pandas 로
직원들의 EDA/ETL 작업 만족도 향상”
가장 익숙한 Pandas 로 데이터 처리 도구 제공
데이터 사이언티스트

ETL 엔진 자체 개발
개 발 생 산 성 / 표 준 파 이 프 라 인 확 보
Validation Engine
Airflow
Engine
Glue Engine
· Airflow DAG/Glue Job 개발 시 Engine API 사용
- 기술 난이도 감소
· Airflow DAG 실행 → Glue Job 자동 생성
· 3~5 줄 코딩으로 Athena 적재
· Iceberg ETL, Spark 병렬 처리 지원
- ETL 프로세스 표준화
· 분리 / 파기 적용 , 데이터 검증 의무화
- MWAA, Glue ETL 에 파이썬 패키지 형태로 추가

Airflow Glue Engine 예시

Baram 파이썬 패키지 개발
자 체 개 발 패 키 지 로 A W S 작 업 난 이 도 감 소
내부 사용자
“boto3 가 있지만 기능이 더 필요해요 .”
Glue/
Sagemaker
Baram
S3 디렉토리 삭제 , 파일명 변경
1
S3 line_count, grep 제공
2
Athena 쿼리 실행 ,
대용량 데이터 S3 추출
3
Glue 카탈로그 / 테이블 삭제
4
비동기 크롤링 모듈
5

거버넌스 : ADW 거버넌스 확보 과정

자체 인력을 통한 중요시스템 통과
AWS Security Hub
- 금융감독원 중요시스템 통과
· 안전성 확보 조치내역 작성 시 활용
- Security Hub 를 통한 24 시간 보안 모니터링
- 다양한 AWS 보안서비스와 연동된 통합 보안 포털
· GuardDuty, CloudTrail, VPC, Network Firewall 등
AWS Security Hub 기반 자체 보안 점검 체계 수립
84%
보안항목 84% 준수

Lake Formation 기반 전체 데이터 권한 관리
금 융 사 보 안 조 직 에 서 도 만 족 하 는 데 이 터 권 한 관 리 체 계
2 등급
2 등급
1 등급
3 등급
Permission
Set
- 개인정보 민감도에 따른 데이터 등급제 시행
- 태그 기반 데이터 접근 권한 설정
· 사용자 그룹과 카탈로그에 태그 부여
- 단순하고 직관적인 권한 관리

데이터 품질 검증 자동화
품질 결과 확인
S3 검증
Athena
적재
Athena
검증
- S3 CSV Athena
→ 적재 시 품질 검증
- 품질 수행 결과 자동 기록
- 품질 검증 실패 시 알람 /ETL 중지
전체 ETL 파이프라인에 품질 검증 자동화 적용
- Validation Engine 을 통한 검증 자동화

비용 최적화를 위한 노력
“ 파레토 법칙을 고려한 비용 튜닝 필요”
최적화 작업을 통해 월간 20% 의 비용 절감
- Sagemaker 미사용 노트북 자동 종료
- Glue Job Summary Report 관리
- Airflow/Glue Job 튜닝
전체 작업 비중
20% 80%
전체 과금 비중
80% 20%
전체 작업의 20% 에서 비용 80% 발생
20% 80%

결론 : 성공적인 마무리와 결과

핵심 목표 3 가지를 얻었는가 ?
속도
내부인력 (1 명 ) 으로
6 개월만에 구축
신기술 / 신규과제
도입 속도 확보
기술력 확보
Iceberg 도입
Engine 개발
Baram 제공
빅데이터 분석 /
최신 도구 활용
거버넌스
중요시스템 자체 신고
거버넌스 체계 수립
품질 확보 & 비용 최적화
능동적인 Risk
최소화

오픈소스 공개
“ 데이터 레이크 구성 노하우를 공개합니다 .”
ETL/EDA 용
파이썬 패키지 접속해보세요 !

Play by the rules,
but be ferocious.
Phill Knight
Nike Co-Founder
규칙을 따르되 , 과감하라 .

Thank you!

�ݺ�ߣ

D1T4S2_클라우드를 넘어, 보험사의 미래를 그리다_241104_블로그포스팅용.pptx

More Related Content

D1T4S2_클라우드를 넘어, 보험사의 미래를 그리다_241104_블로그포스팅용.pptx

Editor's Notes