際際滷

際際滷Share a Scribd company logo
Arsitektur
Data Warehouse
When you are willing to make sacrifices for a
great cause, you will never be alone.
TIF32604 Data Warehouse
Nova Eka Diana (nova.diana@yarsi.ac.id)
Fakultas Teknologi Informasi
Universitas YARSI
Konten
 Arsitektur Data Warehouse
 Centralized, Data Mart, Hub & Spoke
 Data Flow Architecture
 Dimensional Data Store (DDS)
 Normalized Data Store (NDS)
 Operational Data Store (ODS)
 Federated Data Warehouse
ARSITEKTUR DATA WAREHOUSE
Definisi Penting
 Data Architecture
 Bagaimana menyusun data dalam tiap data store
 Bagaimana mendesain data store untuk merefleksikan
proses bisnis
 Data Modeling
 Proses untuk membangun data architecture
 Data Store
 Satu atau lebih basis data atau file yang terdiri atas data
untuk DW
Definisi Penting (2)
 Relational database: basis data yang terdiri atas
entitas tabel yang dilengkapi dengan hubungan
orang tua-anak diantara tabel-tabel tersebut
 Normalized database: basisdata yang memiliki sedikit
atau bahkan nol data yang berulang, biasanya
berada dalam 3NF atau lebih tinggi
 Denormalized database: basis data dengan
beberapa data yang berulang, berada dalam 3NF
atau lebih
 Dimensional database: denormalized database yang
terdiri atas fact tabel dan common dimension tabel
yang berisi ukuran (measurement) dari proses bisnis
Tipe Arsitektur
Centralized Data Warehouse
Departmental Data Mart
Hub and Spoke
Tipikal Arsitektur: DW
Komponen DW
DATA STORE
Klasifikasi Data Store
 Berdasarkan akses user:
 User-facing data store
 Internal Data Store
 Hybrid Data Store
 Berdasarkan format data:
 Stage
 Normalized Data Store (NDS)
 Operational Data Store (ODS)
 Dimensional Data Store (DDS)
Data Store: Akses User
 User-facing data store
 Data store yang tersedia untuk level end user dan dapat
mengeksekusi kueri yang diberikan oleh end user dan
end-user applications
 Internal Data Store
 Data store yang digunakan secara internal oleh
komponen DW untuk keperluan integration, cleansing,
logging, dan preparing data .
 Tidak dapat diakses oleh end user dan end-user
application secara terbuka
 Hybrid Data Store
 Gabungan antara mekanisme internal DW dan dapat
diakses oleh end user dan end-user applications
Data Store: Format Data
 Stage
Internal data store yang digunakan untuk
mentransformasi dan menyiapkan data yang diambil
dari sumber data, sebelum data tersebut akan
diteruskan ke data store yang ada di Data
Warehouse
 Normalized Data Warehouse (NDS)
Internal master data store dalam bentuk satu atau
lebih normalized relational database untuk
mengintegrasikan data dari berbagai sumber data
yang sudah ditangkap dalam stage, sebelum data
tersebut diteruskan ke user-facing data store
NDS
Data Store: Format Data (2)
 Operational Data Warehouse (ODS)
Hybrid data store yang terdiri atas satu atau lebih
normalized relational database, terdiri atas data
transaksi dan versi master data terbaru, dibuat untuk
mendukung operasional aplikasi
 Dimensional Data Warehouse (DDS)
User-facing data store, yang terdiri atas satu atau
lebih relational database, dimana data disusun
dalam format dimensional untuk mendukung
kebutuhan kueri yang bersifat analitik
Dimensional Data Store (DDS)
 Skema implementasi
 Star schema: sebuah dimensi tidak memiliki sub-
tabel atau subdimension; lebih mudah untuk
memasukkan data ke DDS
 Snowflake schema: sebuah dimensi dapat memiliki
subdimension untuk menghindari redundancy data
sehingga mengurangi disk space
 Galaxy schema/fact constellation schema: dua
atau lebih fact table yang dihubungkan oleh
common dimension, sehingga mampu
memodelkan proses bisnis secara lebih akurat
Star Schema: DDS
DATA FLOW ARCHITECTURE
Data flow architecture
 Adalah konfigurasi data store dalam
sistem data warehouse
 Empat tipe Data Flow:
 Single DDS
 NDS + DDS
 ODS + DDS
 Federated Data Warehouse
ETL
 Extract, Transform, and Load (ETL)
Adalah sistem yang bertugas untuk membaca
data dari satu data store (source),
mentransformasi data, dan kemudian
meneruskannya ke data store yang lain (target)
ETL Package
 ETL Package terdiri atas beberapa Proses ETL
 Proses ETL adalah sebuah program yang
merupakan bagian dari ETL package, yang
mengambil data dari satu atau beberapa sumber
dan mempopulasikannya ke satu tabel target
 Proses ETL terdiri atas beberapa tahapan (Step)
 Step adalah komponen dari proses ETL yang
melakukan tugas khusus
 Misal: melakukan ekstraksi data dari satu
sumber, atau melakukan transformasi data
Deskripsi ETL: Metadata
 Metadata adalah data store yang menyimpan
deskripsi dari struktur, data, dan proses yang
terdapat dalam data warehouse
 Deskripsi meliputi:
 Sumber data
 Target
 Operasi transformasi
 Jadwal dari tiap proses ETL
SINGLE DDS
Data Flow: Single DDS
 Terdiri atas dua data store yaitu:
 Stage
 DDS
Data Flow: Single DDS (2)
 Kombinasi kedalam 1 package
 Keuntungan:
 Lebih memiliki kontrol atas waktu kapan data
ditulis dan diambil dari stage
 Data dapat disimpan kedalam DDS langsung
tanpa harus disimpan ke disk terlebih dahulu
 Kekurangan:
 Lebih kompleks
Data Flow: Single DDS (3)
 Kombinasi kedalam 1 package
Data Flow: Single DDS (4)
 Keuntungan Single-DDS:
 Lebih sederhana
 Kekurangan Single-DDS:
 Lebih susah untuk membuat DDS kedua
 DDS didalamnya adalah master data store
yang menyimpan semua versi dan histori data
NDS + DDS
Data Flow: NDS + DDS
 Terdiri atas tiga data store yaitu:
 Stage
 NDS
 DDS
Data Flow: NDS + DDS (2)
 NDS terdiri atas dua tipe data:
 Tabel transaksi : tabel yang menyimpan transaksi
bisnis. Misal: tabel sales order
 Tabel master: tabel yang terdiri atas objek atau
orang yang terlibat dalam proses bisnis. Misal: tabel
product
 NDS tabel menggunakan surrogate key dan natural
key
 Surrogate key: bilangan integer berurut, akan
menjadi primary key
 Natural key: identifier dari master data yang berasal
dari sumber
Data Flow: NDS + DDS (2)
 Keuntungan:
 Dapat rebuild Main DDS dengan mudah
 Dapat membangun DDS baru dengan mudah
 Mudah untuk mengatur master data karena hanya
memiliki sedikit data yang bersifat redundant
 Kekurangan:
 Lebih membutuhkan banyak usaha untuk
membangunnya
ODS + DDS
Data Flow: ODS + DDS
 Terdiri atas tiga data store yaitu:
 Stage
 ODS
 DDS
Data Flow: ODS + DDS (2)
 ODS hanya menyimpan versi terkini dari master
data
 ODS tidak memiliki data histori
 Struktur ODS mirip dengan OLTP
 Sama dengan NDS, juga terdiri atas tabel
transaksi dan tabel master
 NDS adalah internal data store
 ODS adalah hybrid data store
Data Flow: ODS + DDS (2)
 Keuntungan:
 Bentuk 3NF lebih ramping daripada NDS
karena hanya menyimpan data terkini
 Performa ODS ETL dan DDS ETL lebih baik
dibandingkan NDS + DDS
 Memiliki satu tempat terpusat untuk
mengintegrasikan, mengatur, dan mem-
publish data master
 Normalized relational store dapat diubah oleh
end-user applications sehingga mampu
mendukung aplikasi operasional pada level
transaksi
Data Flow: ODS + DDS (2)
 Kekurangan :
 Untuk membangun DDS kecil yang baru, data
harus diambil dari main DDS
 Dan tidak dapat menggunakan DDS ETL yang
sudah ada
FEDERATED DATA WAREHOUSE
(FDW)
Federated Data Warehouse
 Terdiri atas beberapa data warehouse dengan
data retrieval layer di atasnya
 Mengambil data dari DW yang ada dan
menyimpannya ke dimensional data store yang
baru
Federated Data Warehouse
 Granularity dari FDW adalah sama dengan
granularity tertinggi dari sumber DW
 Alasan: data hanya bisa ditransformasi dari
granularity rendah ke tinggi
 Misal:
 Granularity dari beberapa DW adalah G1, G2,
dan G3
 Maka granularity dari FDW adalah max(G1,
G2, G3)
Sistem Data Warehouse
MDB: Cube

More Related Content

Arsitektur Data Warehouse

  • 1. Arsitektur Data Warehouse When you are willing to make sacrifices for a great cause, you will never be alone. TIF32604 Data Warehouse Nova Eka Diana (nova.diana@yarsi.ac.id) Fakultas Teknologi Informasi Universitas YARSI
  • 2. Konten Arsitektur Data Warehouse Centralized, Data Mart, Hub & Spoke Data Flow Architecture Dimensional Data Store (DDS) Normalized Data Store (NDS) Operational Data Store (ODS) Federated Data Warehouse
  • 4. Definisi Penting Data Architecture Bagaimana menyusun data dalam tiap data store Bagaimana mendesain data store untuk merefleksikan proses bisnis Data Modeling Proses untuk membangun data architecture Data Store Satu atau lebih basis data atau file yang terdiri atas data untuk DW
  • 5. Definisi Penting (2) Relational database: basis data yang terdiri atas entitas tabel yang dilengkapi dengan hubungan orang tua-anak diantara tabel-tabel tersebut Normalized database: basisdata yang memiliki sedikit atau bahkan nol data yang berulang, biasanya berada dalam 3NF atau lebih tinggi Denormalized database: basis data dengan beberapa data yang berulang, berada dalam 3NF atau lebih Dimensional database: denormalized database yang terdiri atas fact tabel dan common dimension tabel yang berisi ukuran (measurement) dari proses bisnis
  • 6. Tipe Arsitektur Centralized Data Warehouse Departmental Data Mart Hub and Spoke
  • 10. Klasifikasi Data Store Berdasarkan akses user: User-facing data store Internal Data Store Hybrid Data Store Berdasarkan format data: Stage Normalized Data Store (NDS) Operational Data Store (ODS) Dimensional Data Store (DDS)
  • 11. Data Store: Akses User User-facing data store Data store yang tersedia untuk level end user dan dapat mengeksekusi kueri yang diberikan oleh end user dan end-user applications Internal Data Store Data store yang digunakan secara internal oleh komponen DW untuk keperluan integration, cleansing, logging, dan preparing data . Tidak dapat diakses oleh end user dan end-user application secara terbuka Hybrid Data Store Gabungan antara mekanisme internal DW dan dapat diakses oleh end user dan end-user applications
  • 12. Data Store: Format Data Stage Internal data store yang digunakan untuk mentransformasi dan menyiapkan data yang diambil dari sumber data, sebelum data tersebut akan diteruskan ke data store yang ada di Data Warehouse Normalized Data Warehouse (NDS) Internal master data store dalam bentuk satu atau lebih normalized relational database untuk mengintegrasikan data dari berbagai sumber data yang sudah ditangkap dalam stage, sebelum data tersebut diteruskan ke user-facing data store
  • 13. NDS
  • 14. Data Store: Format Data (2) Operational Data Warehouse (ODS) Hybrid data store yang terdiri atas satu atau lebih normalized relational database, terdiri atas data transaksi dan versi master data terbaru, dibuat untuk mendukung operasional aplikasi Dimensional Data Warehouse (DDS) User-facing data store, yang terdiri atas satu atau lebih relational database, dimana data disusun dalam format dimensional untuk mendukung kebutuhan kueri yang bersifat analitik
  • 15. Dimensional Data Store (DDS) Skema implementasi Star schema: sebuah dimensi tidak memiliki sub- tabel atau subdimension; lebih mudah untuk memasukkan data ke DDS Snowflake schema: sebuah dimensi dapat memiliki subdimension untuk menghindari redundancy data sehingga mengurangi disk space Galaxy schema/fact constellation schema: dua atau lebih fact table yang dihubungkan oleh common dimension, sehingga mampu memodelkan proses bisnis secara lebih akurat
  • 18. Data flow architecture Adalah konfigurasi data store dalam sistem data warehouse Empat tipe Data Flow: Single DDS NDS + DDS ODS + DDS Federated Data Warehouse
  • 19. ETL Extract, Transform, and Load (ETL) Adalah sistem yang bertugas untuk membaca data dari satu data store (source), mentransformasi data, dan kemudian meneruskannya ke data store yang lain (target)
  • 20. ETL Package ETL Package terdiri atas beberapa Proses ETL Proses ETL adalah sebuah program yang merupakan bagian dari ETL package, yang mengambil data dari satu atau beberapa sumber dan mempopulasikannya ke satu tabel target Proses ETL terdiri atas beberapa tahapan (Step) Step adalah komponen dari proses ETL yang melakukan tugas khusus Misal: melakukan ekstraksi data dari satu sumber, atau melakukan transformasi data
  • 21. Deskripsi ETL: Metadata Metadata adalah data store yang menyimpan deskripsi dari struktur, data, dan proses yang terdapat dalam data warehouse Deskripsi meliputi: Sumber data Target Operasi transformasi Jadwal dari tiap proses ETL
  • 23. Data Flow: Single DDS Terdiri atas dua data store yaitu: Stage DDS
  • 24. Data Flow: Single DDS (2) Kombinasi kedalam 1 package Keuntungan: Lebih memiliki kontrol atas waktu kapan data ditulis dan diambil dari stage Data dapat disimpan kedalam DDS langsung tanpa harus disimpan ke disk terlebih dahulu Kekurangan: Lebih kompleks
  • 25. Data Flow: Single DDS (3) Kombinasi kedalam 1 package
  • 26. Data Flow: Single DDS (4) Keuntungan Single-DDS: Lebih sederhana Kekurangan Single-DDS: Lebih susah untuk membuat DDS kedua DDS didalamnya adalah master data store yang menyimpan semua versi dan histori data
  • 28. Data Flow: NDS + DDS Terdiri atas tiga data store yaitu: Stage NDS DDS
  • 29. Data Flow: NDS + DDS (2) NDS terdiri atas dua tipe data: Tabel transaksi : tabel yang menyimpan transaksi bisnis. Misal: tabel sales order Tabel master: tabel yang terdiri atas objek atau orang yang terlibat dalam proses bisnis. Misal: tabel product NDS tabel menggunakan surrogate key dan natural key Surrogate key: bilangan integer berurut, akan menjadi primary key Natural key: identifier dari master data yang berasal dari sumber
  • 30. Data Flow: NDS + DDS (2) Keuntungan: Dapat rebuild Main DDS dengan mudah Dapat membangun DDS baru dengan mudah Mudah untuk mengatur master data karena hanya memiliki sedikit data yang bersifat redundant Kekurangan: Lebih membutuhkan banyak usaha untuk membangunnya
  • 32. Data Flow: ODS + DDS Terdiri atas tiga data store yaitu: Stage ODS DDS
  • 33. Data Flow: ODS + DDS (2) ODS hanya menyimpan versi terkini dari master data ODS tidak memiliki data histori Struktur ODS mirip dengan OLTP Sama dengan NDS, juga terdiri atas tabel transaksi dan tabel master NDS adalah internal data store ODS adalah hybrid data store
  • 34. Data Flow: ODS + DDS (2) Keuntungan: Bentuk 3NF lebih ramping daripada NDS karena hanya menyimpan data terkini Performa ODS ETL dan DDS ETL lebih baik dibandingkan NDS + DDS Memiliki satu tempat terpusat untuk mengintegrasikan, mengatur, dan mem- publish data master Normalized relational store dapat diubah oleh end-user applications sehingga mampu mendukung aplikasi operasional pada level transaksi
  • 35. Data Flow: ODS + DDS (2) Kekurangan : Untuk membangun DDS kecil yang baru, data harus diambil dari main DDS Dan tidak dapat menggunakan DDS ETL yang sudah ada
  • 37. Federated Data Warehouse Terdiri atas beberapa data warehouse dengan data retrieval layer di atasnya Mengambil data dari DW yang ada dan menyimpannya ke dimensional data store yang baru
  • 38. Federated Data Warehouse Granularity dari FDW adalah sama dengan granularity tertinggi dari sumber DW Alasan: data hanya bisa ditransformasi dari granularity rendah ke tinggi Misal: Granularity dari beberapa DW adalah G1, G2, dan G3 Maka granularity dari FDW adalah max(G1, G2, G3)