Dokumen tersebut membahas tentang proses Extract, Transform, dan Load (ETL) data dari sumber data ke data warehouse. ETL digunakan untuk mengambil dan mentransformasi data dari berbagai sumber seperti basis data relasional ke dalam data warehouse. Dokumen ini menjelaskan pendekatan tradisional ETL beserta arsitekturnya, metode ekstraksi data dari basis data relasional seperti ekstraksi seluruh tabel, inkremental, atau fixed range, serta masalah yang mungkin terjadi d
Dokumen tersebut membahas perancangan fisik basis data untuk perusahaan retail internasional bernama Amadeus Entertainment yang beroperasi di 8 negara. Dokumen tersebut menjelaskan tantangan bisnis perusahaan, kebutuhan fungsional dan non-fungsional, spesifikasi perangkat keras yang dibutuhkan, pertimbangan penyimpanan data, serta contoh perhitungan kapasitas penyimpanan yang dibutuhkan.
Struktur data warehouse terdiri dari sumber data, pementasan data, penyimpanan data, penyampaian informasi, metadata, dan pengelolaan serta kontrol. Data diolah melalui proses ekstraksi, transformasi, dan pemuatan sebelum disimpan secara historis di data warehouse. Metadata berisi informasi tentang struktur data, proses ekstraksi, dan petunjuk penggunaan informasi.
Implementasi Data Warehouse pada budidaya Ikan Bandeng oleh Nelayan di Kabupa...evansusanto
油
EVAN SUSANTO / 1304505107
JURUSAN TEKNOLOGI INFORMASI / FAKULTAS TEKNIK /
UNIVERSITAS UDAYANA
DATA WAREHOUSE
DOSEN : I PUTU AGUS EKA PRATAMA, S.T., M.T.
Dokumen tersebut membahas arsitektur data warehouse yang terdiri dari beberapa komponen utama seperti staging layer, user access layer, serta pilihan arsitektur seperti centralized atau component based.
Dokumen ini membahas tentang konsep dasar data warehouse, termasuk definisi, fitur, komponen, dan metadata. Secara ringkas:
Data warehouse digunakan untuk mengintegrasikan dan mentransformasi data dari berbagai sumber untuk keperluan analisis manajemen. Komponen utamanya meliputi sumber data, penyimpanan data, pengiriman informasi, dan metadata. Metadata berisi informasi tentang struktur dan isi data untuk memfasilitasi pengembangan dan penggunaan data warehouse.
Proses ETL (ekstraksi, transformasi, dan pengumpulan data) merupakan proses penting dalam membangun gudang data. Proses ini melibatkan ekstraksi data dari berbagai sumber, transformasi data untuk meningkatkan kualitas dan konsistensi, serta pengumpulan data ke dalam gudang data. Tantangan utama dalam ETL adalah heterogenitas sumber data dan memperbaiki kualitas data selama proses transformasi.
Dokumen tersebut membahas tentang data dan basis data. Ia menjelaskan definisi data dan informasi, satuan-satuan data digital, hirarki data, pengertian basis data dan manfaatnya, serta bahasa-bahasa yang digunakan dalam basis data seperti DDL, DML, dan jenis-jenis file seperti file induk, file transaksi, dan file laporan.
Dokumen tersebut memberikan ringkasan singkat tentang konsep Basis Data dan Model ER (Entitas Relasional) serta Model EER (Enhanced Entity Relasional). Secara garis besar, dokumen tersebut menjelaskan bahwa Basis Data adalah kumpulan data yang disimpan secara sistematis di komputer, Model ER menggunakan tabel dua dimensi untuk menggambarkan data, dan Model EER digunakan untuk merepresentasikan Basis Data yang lebih lengkap dengan menggunakan konsep superclass
Dokumen tersebut membahas konsep penting tentang data warehouse, meliputi pengertian, tipe, struktur, dan fitur-fiturnya. Data warehouse dibangun dengan mengintegrasikan data dari berbagai sumber dan memisahkannya dari basisdata operasional. Data warehouse bersifat terorientasi subjek, terintegrasi, tidak berubah, dan bervariasi secara waktu.
Dokumen ini membahas tentang pemodelan data dimensi untuk data warehouse. Terdapat beberapa poin penting yaitu proses desain data dimulai dari memilih subjek informasi, menentukan tingkat detail data, mengidentifikasi dan mendefinisikan dimensi bisnis, memilih metrik atau unit pengukuran, serta membangun tabel fakta dan dimensi untuk skema bintang. Skema bintang memiliki kelebihan seperti mudah dipahami, sederhana, dan mengoptimalkan akses
Dokumen tersebut membahas perencanaan dan pengumpulan kebutuhan untuk pengembangan data warehouse, meliputi isu penting seperti manfaat, risiko, dan metodologi pengembangan seperti waterfall dan iteratif. Metode pengumpulan kebutuhan seperti wawancara dan JAD digunakan untuk mengidentifikasi dimensi bisnis, metrik utama, dan hierarki dimensi.
1) The document discusses the evolution of decision support systems and data warehouses. It explains how data warehouses store historical and summarized data to support analysis and decision making across an organization.
2) Classical systems had problems with data credibility, productivity, and transforming data into useful information due to data being stored in disconnected systems. A data warehouse centralizes data to address these issues.
3) The data warehouse architected environment stores redundant copies of integrated data to support analysis. It distinguishes between primitive operational data and derived data used for management analysis and decision making.
This document discusses augmented reality (AR) and its applications. It provides examples of how AR is currently used in areas like healthcare, manufacturing, and education. AR enhances the real world by overlaying digital information and is accessible through mobile devices and wearable technology. The document traces the evolution of AR from specialized hardware to mobile phones and discusses the top 10 AR mobile devices, predicting that glasses and contact lenses will be the leading platforms in the future.
Dokumen tersebut membahas arsitektur data warehouse yang terdiri dari beberapa komponen utama seperti staging layer, user access layer, serta pilihan arsitektur seperti centralized atau component based.
Dokumen ini membahas tentang konsep dasar data warehouse, termasuk definisi, fitur, komponen, dan metadata. Secara ringkas:
Data warehouse digunakan untuk mengintegrasikan dan mentransformasi data dari berbagai sumber untuk keperluan analisis manajemen. Komponen utamanya meliputi sumber data, penyimpanan data, pengiriman informasi, dan metadata. Metadata berisi informasi tentang struktur dan isi data untuk memfasilitasi pengembangan dan penggunaan data warehouse.
Proses ETL (ekstraksi, transformasi, dan pengumpulan data) merupakan proses penting dalam membangun gudang data. Proses ini melibatkan ekstraksi data dari berbagai sumber, transformasi data untuk meningkatkan kualitas dan konsistensi, serta pengumpulan data ke dalam gudang data. Tantangan utama dalam ETL adalah heterogenitas sumber data dan memperbaiki kualitas data selama proses transformasi.
Dokumen tersebut membahas tentang data dan basis data. Ia menjelaskan definisi data dan informasi, satuan-satuan data digital, hirarki data, pengertian basis data dan manfaatnya, serta bahasa-bahasa yang digunakan dalam basis data seperti DDL, DML, dan jenis-jenis file seperti file induk, file transaksi, dan file laporan.
Dokumen tersebut memberikan ringkasan singkat tentang konsep Basis Data dan Model ER (Entitas Relasional) serta Model EER (Enhanced Entity Relasional). Secara garis besar, dokumen tersebut menjelaskan bahwa Basis Data adalah kumpulan data yang disimpan secara sistematis di komputer, Model ER menggunakan tabel dua dimensi untuk menggambarkan data, dan Model EER digunakan untuk merepresentasikan Basis Data yang lebih lengkap dengan menggunakan konsep superclass
Dokumen tersebut membahas konsep penting tentang data warehouse, meliputi pengertian, tipe, struktur, dan fitur-fiturnya. Data warehouse dibangun dengan mengintegrasikan data dari berbagai sumber dan memisahkannya dari basisdata operasional. Data warehouse bersifat terorientasi subjek, terintegrasi, tidak berubah, dan bervariasi secara waktu.
Dokumen ini membahas tentang pemodelan data dimensi untuk data warehouse. Terdapat beberapa poin penting yaitu proses desain data dimulai dari memilih subjek informasi, menentukan tingkat detail data, mengidentifikasi dan mendefinisikan dimensi bisnis, memilih metrik atau unit pengukuran, serta membangun tabel fakta dan dimensi untuk skema bintang. Skema bintang memiliki kelebihan seperti mudah dipahami, sederhana, dan mengoptimalkan akses
Dokumen tersebut membahas perencanaan dan pengumpulan kebutuhan untuk pengembangan data warehouse, meliputi isu penting seperti manfaat, risiko, dan metodologi pengembangan seperti waterfall dan iteratif. Metode pengumpulan kebutuhan seperti wawancara dan JAD digunakan untuk mengidentifikasi dimensi bisnis, metrik utama, dan hierarki dimensi.
1) The document discusses the evolution of decision support systems and data warehouses. It explains how data warehouses store historical and summarized data to support analysis and decision making across an organization.
2) Classical systems had problems with data credibility, productivity, and transforming data into useful information due to data being stored in disconnected systems. A data warehouse centralizes data to address these issues.
3) The data warehouse architected environment stores redundant copies of integrated data to support analysis. It distinguishes between primitive operational data and derived data used for management analysis and decision making.
This document discusses augmented reality (AR) and its applications. It provides examples of how AR is currently used in areas like healthcare, manufacturing, and education. AR enhances the real world by overlaying digital information and is accessible through mobile devices and wearable technology. The document traces the evolution of AR from specialized hardware to mobile phones and discusses the top 10 AR mobile devices, predicting that glasses and contact lenses will be the leading platforms in the future.
1. Data Extraction
When you are willing to make sacrifices for a
great cause, you will never be alone.
TIF32604 Data Warehouse
Nova Eka Diana (nova.diana@yarsi.ac.id)
Fakultas Teknologi Informasi
Universitas YARSI
3. ETL
ETL: Extract, Transform, and Load
Adalah proses untuk mengambil dan
mentransformasi data dari berbagai sumber data
dan memasukkannya ke dalam data warehouse
Ketika melakukan ekstraksi data, hindari agar
proses tersebut jangan terlalu banyak
mengganggu proses aktivitas dari sumber data
Sebaiknya, data yang sudah diekstraksi harus
dimasukkan langsung ke data warehouse tanpa
harus terlebih dahulu disimpan secara temporari di
disk atau file
4. Jenis Transformasi
Jenis tranformasi yang terjadi:
Melakukan format dan standarisasi
Melakukan lookup
Melakukan agregasi summary data
Dua prinsip penting:
Leakage: jangan sampai ada data yang
tertinggal setelah proses ETL selesai
Recoverability: proses ETL harus mampu
menangani terjadinya kegagalan
6. Traditional Approach
Mengambil data dari sumber
Menempatkannya di staging area
Melakukan transformasi dan load ke
datawarehouse
Atau:
Tidak disimpan di staging area, tapi tranformasi
dilakukan di memori
Langsung di-load ke data warehouse tanpa
disimpan ke disk
8. Alternative Approach
ELT: Extract, Load, Transform
Copy data dari OLTP ke data warehouse
Proses transformasi dilakukan di data warehouse
9. Question
Kapan menggunakan ETL dan ELT
approach?
ETL: jika punya server ETL yang kuat dan software
dengan kualitas transformasi data yang tinggi
ELT: jika datawarehouse database system kuat,
MPP(Massively Parallel Processing) Teradata,
Netezza, Neoview
Performa meningkat secara linier
12. Asal Sumber Data
Database: ADO.NET, OLEDB, ODBC, JDBC, atau
database connectivity yang sesuai
File system: ISAM (sequential file storage)
Service
Email
13. Bentuk Sumber Data
Structured
Semi-structured
Unstructured
on 2/1/2008 we received order ID
2893 from store 32, requiring 150
units of product A160. Three days
later store 29 asked for 240 pieces of
B120
17. Method
Whole table every time
Incremental extract
Fixed range
Push approach
18. Whole table every time
Gunakan method ini
jika ukuran tabel kecil
Jika tidak ada timestamp atau identity column
19. Incremental Extract
OLTP terdiri atas tabel-tabel dalam ukuran yang
besar dan terdiri atas ratusan ribu baris data
Teknik ini hanya mengunduh baris data yang
diubah, bukan keseluruhan tabel
Beberapa hal yang bisa digunakan:
Timestamp column
Identity column
Transaction date
Trigger
Kombinasi semuanya
20. Incremental Extract (2)
Kandidat: timestamp column, identity column
Cek jika timestamp column dapat digunakan
nilai timestamp yang berubah setiap kali baris data
diubah
Atau membandingkan nilai timestamp dengan
identity column
21. Incremental Extract (3)
Jika timestamp column memiliki urutan yang baik
dapat digunakan untuk incremental extraction
CET: Current Extraction Time
LSET: Last Successful Extraction Time
23. Fixed Range
Melakukan ekstraksi untuk sejumlah baris data
tertentu
Atau pada periode waktu tertentu
Mengidentifikasi update lebih susah gunakan
checksum
24. Fixed Range (2)
Asumsi: tabel1 terdiri atas data kemarin dan tabel2
terdiri atas data hari ini
Ilustrasi:
25. Related Tables
Jika source table diubah related tables yang
menunjuknya juga harus diekstrak
Misal: order ID 34552 di OrderHeader tabel diubah
dan diekstrak ke datawarehouse, maka baris
dengan row id 34552 di OrderDetail juga harus
diekstrak
Identifikasi perubahan baris di tabel pertama,
Gunakan hubungan primary-foreign key