際際滷

際際滷Share a Scribd company logo
ETL Big Data dengan Apache Hadoop
syafrizaladi 24/06/2015
Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat
keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai
nilai, tantangan dalam penggalian nilai dari Big Data adalah
mentransformasikan data dari data mentah menjadi Informasi yang berguna
untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract,
Transform & Load (ETL).
PROSES ETL
Sumber : Intel Hadoop
it was six men of Hindustan To learning much inclined,
Who went to see the Elephant (Though all of them were blind),
That each by observation Might satisfy his mind.
john godfrey saxe (1872)
QUOTES
Apache Hadoop untuk Big Data
Apache Hadoop
Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasa
pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankan
tugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) di
komputer cluster.
Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmer
memecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebih
kecil dan dapat di proses secara independen.
MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskan
sebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagai
satu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output.
MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantau
mereka, dan merestart proses apapun yang gagal.
Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untuk
skalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka ke
dalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFS
menyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitas
dan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggal
mengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memproses
Petabytes data dalam ribuan node.
ARSITEKTUR HADOOP - ARSITEKTUR LOGIK
Sumber : Intel Hadoop
ARSITEKTUR HADOOP - ALIRAN PROSES
Split 0
Split 1
Sumber : Intel Hadoop
ARSITEKTUR HADOOP - ARSITEKTUR FISIK
Sumber : Intel Hadoop
Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan,
dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS atau
menyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalam
server aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan.
Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstruktur
Hadoop dapat mengubah sumber data pasif menjadi aset yang berharga.
Hive Merupakan bahasa pemrograman yang menyederhanakan pengembangan
aplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL dan
mendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkan
oleh komunitas pengembang untuk mengaktifkan query-latency rendah pada Apache
HBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yang
menyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjang
dengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasa
lainnya.
KOMPONEN HADOOP
KOMPONEN HADOOP
Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional.
Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau database
Oracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor data
kembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduce
untuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan.
Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusi
perangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQL
dengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusi
pada data di HDFS atau HBase.
ODBC/JDBC
Connectors
ETL, ELT, ETLT dengan Apache Hadoop
TIGA FUNGSI ETL
Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1
Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumber
sistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Anda
juga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam format
misterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapat
menjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya.
2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse
Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah,
menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, nama
pelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubah
dengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini juga
melibatkan validasi data terhadap aturan kualitas data.
Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3
Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.
Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalah
menggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45
persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawan
kesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknya
kebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder.
Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkan
data dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV,
yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat di
implementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuan
analisis tertentu dan alat untuk pengguna.
Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesin
RDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dan
kualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telah
menjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS.
ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam target
database, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang berat
pengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem database
lebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMS
juga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerja
sistemnya.
Staging
Area Data
Mart
Sumber : Intel Hadoop
PROSES TRADISIONAL ETL
KEUNTUNGAN TRADISIONAL ETLT
Memproses data dalam jumlah besar tanpa menentukan Skema1
Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikan
skema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (seperti
transaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untuk
data yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan web
log) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikan
apakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data ke
dalam Hadoop, dimana tersedia untuk proses analisa.
2 Offload transformasi data mentah oleh Pemrosesan Data Paralel
Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugas
tradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untuk
Enterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce.
Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional dengan
mengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda.
Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya Data
Warehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Anda
dapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapat
bertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.
HADOOP ETL OFFLOAD
Sumber : Intel Hadoop
KESIMPULAN
Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan
baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari
media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI
adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT.
Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses
Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses
ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau
bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam
infrastruktur server, storage, jaringan, dan perangkat lunak.
THANK YOU

More Related Content

ETL Big Data dengan Apache Hadoop

  • 1. ETL Big Data dengan Apache Hadoop syafrizaladi 24/06/2015
  • 2. Beberapa tahun terakhir sektor organisasi publik dan pribadi membuat keputusan strategis untuk mengubah Big Data menjadi data yang mempunyai nilai, tantangan dalam penggalian nilai dari Big Data adalah mentransformasikan data dari data mentah menjadi Informasi yang berguna untuk kebutuhan dan tujuan Analisa Bisnis, proses ini dikenal sebagai Extract, Transform & Load (ETL).
  • 3. PROSES ETL Sumber : Intel Hadoop
  • 4. it was six men of Hindustan To learning much inclined, Who went to see the Elephant (Though all of them were blind), That each by observation Might satisfy his mind. john godfrey saxe (1872) QUOTES
  • 6. Apache Hadoop Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka bahasa pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. yang memungkinkan menjalankan tugas komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas) di komputer cluster. Pusat skalabilitas Apache Hadoop adalah MapReduce dibuat untuk memudahkan programmer memecahkan masalah paralel data, yang berfungsi untuk memecah data set menjadi bagian yang lebih kecil dan dapat di proses secara independen. MapRecude membagi input data-set menjadi beberapa potongan data, masing-masing ditugaskan sebagai map task yang dapat memproses data secara paralel. Setiap map task membaca input sebagai satu set (kunci, nilai) data dan menghasilkan satu set transformasi (key, value) data sebagai output. MapReduce menggunakan mekanisme JobTracker dan TaskTracker untuk menjadwalkan task, memantau mereka, dan merestart proses apapun yang gagal. Platform Apache Hadoop juga mencakup Hadoop Distributed System (HDFS), yang dirancang untuk skalabilitas dan faulttolerance dala Berkas data.HDFS menyimpan file besar dengan membagi mereka ke dalam blok (biasanya 64 atau 128 MB) dan mereplikasi blok pada tiga atau lebih server. HDFS menyediakan API untuk aplikasi MapReduce untuk membaca dan menulis data secara paralel. Kapasitas dan kinerja dapat ditingkatkan dengan menambahkan Data Node, dan mekanisme NameNode tunggal mengelola data ketersediaan server penempatan dan monitor. HDFS Cluster saat ini mampu memproses Petabytes data dalam ribuan node.
  • 7. ARSITEKTUR HADOOP - ARSITEKTUR LOGIK Sumber : Intel Hadoop
  • 8. ARSITEKTUR HADOOP - ALIRAN PROSES Split 0 Split 1 Sumber : Intel Hadoop
  • 9. ARSITEKTUR HADOOP - ARSITEKTUR FISIK Sumber : Intel Hadoop
  • 10. Apache Flume Adalah sistem terdistribusi untuk mengumpulkan, menggabungkan, dan menggerakan data dalam jumlah besar dari berbagai sumber dalam HDFS atau menyimpan data pusat lainnya. Enterprise biasanya mengumpulkan file log dalam server aplikasi atau dalam sistem lain dan arsip file log untuk mematuhi aturan. Mampu untuk menelan dan menganalisis data tidak terstruktur atau semi-terstruktur Hadoop dapat mengubah sumber data pasif menjadi aset yang berharga. Hive Merupakan bahasa pemrograman yang menyederhanakan pengembangan aplikasi menggunakan MapReduce Framework. HiveQL adalah bahasa SQL dan mendukung subset dari sintaks. Meskipun lambat, Hive sedang aktif dikembangkan oleh komunitas pengembang untuk mengaktifkan query-latency rendah pada Apache HBase * dan HDFS. Pig Latin adalah bahasa pemrograman prosedural yang menyediakan abstraksi tingkat tinggi untuk MapReduce. Anda dapat memperpanjang dengan Penggunaan Fungsi didefinisikan oleh user ditulis di Java, Python, dan bahasa lainnya. KOMPONEN HADOOP
  • 11. KOMPONEN HADOOP Sqoop adalah alat untuk mentransfer data antara Hadoop dan database relasional. Anda dapat menggunakan Sqoop untuk mengimpor data dari MySQL atau database Oracle ke HDFS, berjalan MapReduce pada data, dan kemudian mengekspor data kembali ke RDBMS. mengotomatiskan Sqoop proses ini, menggunakan MapReduce untuk mengimpor dan mengekspor data secara paralel dengan toleransi kesalahan. Untuk HBase dan Hive adalah komponen berbayar termasuk dalam distribusi perangkat lunak Hadoop, Mereka menyediakan konektivitas dengan aplikasi SQL dengan menerjemahkan standar Query SQL ke perintah HiveQL yang dapat dieksekusi pada data di HDFS atau HBase. ODBC/JDBC Connectors
  • 12. ETL, ELT, ETLT dengan Apache Hadoop
  • 13. TIGA FUNGSI ETL Ekstrak data dari berbagai sumber data seperti Aplikasi ERP atau CRM1 Selama langkah ekstrak data, Anda mungkin perlu untuk mengumpulkan data dari beberapa sumber sistem dan dalam berbagai format file, seperti file datar dengan pembatas (CSV) dan file XML. Anda juga mungkin perlu untuk mengumpulkan data dari sistem yang menyimpan data dalam format misterius tidak ada orang lain menggunakan lagi. Ini terdengar mudah, namun sebenarnya dapat menjadi salah satu kendala utama dalam mendapatkan solusi ETL dalam pengaplikasiannya. 2 Mengubah data ke dalam format umum yang cocok dengan data pada Data Warehouse Langkah Transformasi termasuk beberapa data yang dimanipulasi, seperti menggerakan, membelah, menerjemahkan, menggabungan, memilah, memutar, dan banyak lagi. Sebagai contoh, nama pelanggan mungkin dibagi menjadi nama pertama dan terakhir, atau tanggal mungkin berubah dengan standar Format ISO (misalnya, dari 07-24-13 untuk 2013/07/24). Seringkali langkah ini juga melibatkan validasi data terhadap aturan kualitas data. Load Data ke dalam Data Warehouse untuk Kebutuhan Analisa3 Langkah ini bisa dilakukan dalam proses batch atau baris demi baris, kurang lebih secara real time.
  • 14. Sebelum ETL ada, satu-satunya cara untuk mengintegrasikan data dari berbagai sumber data yang berbeda adalah menggunakan script dalam bahasa pemograman seperti COBOL, RPG, dan PL/SQL. Meskipun kuno tampaknya, 45 persen dari semua pekerjaan ETL saat ini terselesaikan menggunakan cara tersebut. Meskipun cara tersebut rawan kesalahan, lambat untuk dikembangkan, dan susah untuk pelihara, mereka memiliki pengguna setia yang tampaknya kebal terhadap pesona alat ETL, seperti Oracle Warehouse Builder. Sebuah arsitektur ETL tradisional mengakomodasi beberapa iterasi ETL, dilakukan di area Staging, yang mendapatkan data dari sumber sistem secepat mungkin. Sebuah area staging dapat menggunakan database atau sekadar file CSV, yang membuat proses lebih cepat dari memasukkan data ke dalam tabel database. tambahan Iterasi ETL dapat di implementasikan untuk mentransfer data dari Enterprise Data Warehouse dalam Data Mart, yang mendukung tujuan analisis tertentu dan alat untuk pengguna. Perubahan dalam data warehousing selama dua dekade terakhir. Database telah menjadi jauh lebih kuat. mesin RDBMS sekarang mendukung transformasi kompleks SQL, termasuk di database data mining, di validasi database dan kualitas data, pembersihan, profiling, algoritma statistik, fungsi hirarkis dan drill-down, dan lebih banyak. Hal ini telah menjadi lebih efisien untuk melakukan sebagian besar jenis "Transformasi" dalam mesin RDBMS. ELT muncul sebagai pendekatan alternatif dimana data diekstrak dari berbagai sumber, dimuat ke dalam target database, dan kemudian diubah dan diintegrasikan ke dalam format yang diinginkan. Semua data yang berat pengolahan berlangsung di dalam target database. Keuntungan dari pendekatan ini adalah bahwa sistem database lebih cocok untuk penanganan beban kerja besar dimana ratusan juta catatan perlu diintegrasikan. Mesin RDBMS juga dioptimalkan untuk disk I/O, meningkatkan throughput. Dan, selama hardware RDBMS dinaikan skala kinerja sistemnya.
  • 15. Staging Area Data Mart Sumber : Intel Hadoop PROSES TRADISIONAL ETL
  • 16. KEUNTUNGAN TRADISIONAL ETLT Memproses data dalam jumlah besar tanpa menentukan Skema1 Karakteristik utama dari Hadoop disebut "No Shcema on Write" yang berarti Anda tidak perlu pra-definisikan skema data sebelum pemuatan data ke Hadoop. Hal ini berlaku tidak hanya untuk Data terstruktur (seperti transaksi point-of-sale, panggilan detail catatan, transaksi buku besar, dan transaksi call centre), tetapi juga untuk data yang tidak terstruktur (seperti komentar pengguna, catatan dokter, deskripsi mengklaim asuransi , dan web log) dan data media sosial (dari situs seperti Facebook, LinkedIn, Pinterest, dan Twitter). tanpa memperhatikan apakah data yang masuk Anda memiliki struktur eksplisit atau implisit, Anda dapat dengan cepat memuat data ke dalam Hadoop, dimana tersedia untuk proses analisa. 2 Offload transformasi data mentah oleh Pemrosesan Data Paralel Setelah data berada di Hadoop (pada sistem file Hadoop-kompatibel), Anda dapat melakukan tugas-tugas tradisional ETL seperti pembersihan tugas, normalisasi, menyelaraskan, dan menggabungkan data untuk Enterprise Data Warehouse Anda dengan mempekerjakan skalabilitas besar MapReduce. Hadoop memungkinkan Anda untuk menghindari hambatan transformasi data pada ETLT tradisional dengan mengkonsumsi off-loading, transformasi, dan integrasi data tidak terstruktur ke dalam Data Warehouse Anda. Karena Hadoop memungkinkan Anda untuk merangkul tipe data lebih dari sebelumnya, memperkaya Data Warehouse Anda dengan cara yang sebaliknya menjadi tidak layak atau mahal. Karena kinerja terukur, Anda dapat secara signifikan mempercepat pekerjaan ETLT. Selain itu, karena data yang disimpan dalam Hadoop dapat bertahan lebih lama, Anda dapat memberikan rincian data melalui EDW Anda untuk Analisa high-fidelity.
  • 17. HADOOP ETL OFFLOAD Sumber : Intel Hadoop
  • 18. KESIMPULAN Gelombang terbaru dari Trend Big Data adalah menghasilkan peluang baru dan tantangan baru untuk bisnis pada setiap industri. tantangan data integrasi, menggabungkan data dari media sosial dan lainnya dan data tidak terstruktur ke dalam lingkungan tradisional BI adalah salah satu masalah yang paling mendesak yang dihadapi CIO dan Manajer IT. Apache Hadoop memberikan Solusi platform hemat biaya dan terukur untuk memproses Big Data dan mempersiapkannya untuk di analisis. Menggunakan Hadoop untuk Proses ETL offload tradisional dapat mengurangi waktu dalam menganalisa Data baik jam atau bahkan berhari-hari. Menjalankan cluster Hadoop berarti efisien & optimal dalam infrastruktur server, storage, jaringan, dan perangkat lunak. THANK YOU