Apa itu ELT (ekstraksi, pemuatan, dan transformasi)?

Di lanskap saat ini yang berbasis data, organisasi terus mencari cara yang lebih efisien untuk mengelola dan menganalisis informasi dalam jumlah besar. Proses ELT, atau ekstraksi, pemuatan, transformasi, merupakan pendekatan modern terhadap integrasi data, khususnya yang cocok untuk lingkungan cloud. Memahami ELT adalah kunci bagi siapa pun yang terlibat dalam arsitektur data, data engineering, atau analisis, karena ELT dapat menawarkan keunggulan yang jelas dalam hal kecepatan, fleksibilitas, dan skalabilitas untuk menangani berbagai set data. Pendekatan ini mengubah kapan dan di mana transformasi data terjadi, sehingga membuka kemungkinan baru untuk pemanfaatan data.

Definisi ELT

ELT adalah singkatan dari ekstraksi, pemuatan, dan transformasi. Ini adalah model pipeline data yang pertama kali mengekstrak data dari berbagai sistem sumber. Kemudian, alih-alih diubah di staging area terpisah, data mentah langsung dimuat ke penyimpanan data target, seperti data lake atau cloud data warehouse. Transformasi hanya diterapkan setelah data dimuat ke sistem target.

Urutan ini membedakan ELT dari pendahulunya, ETL (ekstraksi, transformasi, pemuatan), dan merupakan alasan utama meningkatnya penggunaan ELT dalam arsitektur berbasis cloud.

Bagaimana cara kerja ELT?

Alur proses ELT memanfaatkan kekuatan dan skalabilitas platform pemrosesan dan penyimpanan data modern. Mari kita bahas setiap komponennya:

Ekstraksi: Langkah awal ini mencakup pengumpulan data mentah dari sumber aslinya. Sumber ini dapat sangat beragam, termasuk database (SQL dan NoSQL), aplikasi perusahaan (seperti CRM dan ERP), platform SaaS, API, dan file log. Proses ekstraksi berfokus pada pengambilan data dari sistem ini secara efisien.
Pemuatan: Pada langkah kedua, data mentah yang diekstrak dimuat, biasanya dalam format aslinya atau dengan pemrosesan minimal, langsung ke sistem penyimpanan berkapasitas tinggi. Target umum untuk data mentah ini adalah data lake cloud atau data warehouse cloud modern yang dapat menangani data terstruktur, semi-terstruktur, dan tidak terstruktur dalam volume besar.
Transformasi: Langkah terakhir ini terjadi setelah data disimpan dengan aman di sistem target. Dengan menggunakan kemampuan komputasi data warehouse atau data lake, data mentah dibersihkan, distrukturkan, diperkaya, dan dikonversi ke format yang sesuai untuk analisis, pelaporan, dan machine learning. Transformasi dapat mencakup pemfilteran, penggabungan, pengompakan, standarisasi format, dan penarikan poin data baru.

Proses ELT menawarkan fleksibilitas karena transformasi tidak diperbaiki sebelum dimuat. Data scientist, misalnya, dapat mengakses data mentah untuk mengeksplorasi pola yang tidak terduga atau melakukan analisis ad-hoc, sementara tim business intelligence dapat membuat set data yang diseleksi dan diubah untuk pelaporan.

Manfaat ELT

Pendekatan ELT menawarkan beberapa potensi keunggulan, terutama di lingkungan yang menangani volume data besar dan berbagai jenis data:

Penyerapan data lebih cepat: Memasukkan data mentah ke sistem target umumnya lebih cepat daripada menunggu transformasi selesai di area staging. Artinya, data dapat tersedia untuk eksplorasi awal atau kasus penggunaan tertentu dengan lebih cepat.
Fleksibilitas dan ketangkasan: Karena data mentah disimpan di sistem target, transformasi dapat dikembangkan, dimodifikasi, atau ditambahkan secara berulang seiring dengan berkembangnya kebutuhan bisnis. Tidak perlu melakukan ingest ulang data dari sistem sumber jika logika transformasi berubah; Anda cukup menjalankan ulang transformasi pada data mentah yang sudah dimuat.
Skalabilitas: Cloud data warehouse dan data lake modern dirancang untuk skalabilitas yang sangat besar. ELT memanfaatkan kemampuan bawaan ini dengan melakukan transformasi menggunakan mesin pemroses yang andal dari sistem target tersebut. Dengan demikian, organisasi dapat menangani volume data yang terus bertambah dan transformasi kompleks secara efisien.
Preservasi data mentah: Penyimpanan data mentah memungkinkan pembuatan kumpulan data historis yang lebih lengkap. Hal ini dapat sangat berguna untuk mengaudit data, memproses ulang jika ditemukan error dalam transformasi sebelumnya, atau untuk kebutuhan analisis di masa mendatang yang belum terantisipasi. Data scientist sering kali diuntungkan dengan memiliki akses ke data yang paling terperinci dan belum ditransformasi.
Efisiensi biaya untuk workload tertentu: Menggunakan daya komputasi data warehouse cloud untuk transformasi terkadang lebih hemat biaya daripada memelihara infrastruktur terpisah atau melisensikan alat ETL khusus untuk transformasi, terutama jika data warehouse menawarkan pemrosesan yang dioptimalkan.
Dukungan untuk berbagai jenis data: ELT dapat digunakan untuk menangani data terstruktur, semi-terstruktur (seperti JSON atau XML), dan tidak terstruktur (seperti teks atau gambar). Data dapat dimuat dalam format aslinya dan diubah sesuai kebutuhan, yang dapat menjadi keuntungan signifikan dalam skenario big data. Pendekatan "schema-on-read" ini, yang menerapkan struktur selama pemrosesan, bukan sebelum pemuatan, adalah ciri khas ELT.

Tantangan ELT

Meskipun ELT menawarkan beberapa manfaat, ELT juga dapat menimbulkan pertimbangan tertentu yang harus dicari solusinya oleh organisasi:

Pengawasan dan keamanan data: Memuat data mentah, yang mungkin berisi informasi sensitif atau informasi identitas pribadi (PII), ke data lake atau data warehouse memerlukan pengawasan data, keamanan, dan langkah kepatuhan yang andal. Kontrol akses, enkripsi, dan teknik penyamaran data sangat penting untuk melindungi data ini dalam lingkungan target.
Kompleksitas transformasi dalam sistem target: Meskipun sangat bermanfaat, mengelola logika transformasi yang kompleks secara langsung dalam data warehouse (misalnya, menggunakan SQL) atau data lake dapat menjadi tantangan tersendiri. Hal ini memerlukan personel terampil yang mahir dalam menggunakan alat-alat tersebut serta pendekatan yang disiplin terhadap pengelolaan dan pengoptimalan kode.
Alat dan orkestrasi: Penerapan ELT yang efektif mengandalkan alat yang tepat untuk mengatur langkah ekstraksi dan pemuatan, serta mengelola dan menjalankan transformasi dalam sistem target. Meskipun banyak platform cloud menawarkan alat, mengintegrasikannya dan mengelola alur kerja secara keseluruhan memerlukan perencanaan yang cermat.
Potensi "rawa data": Jika data mentah yang dimuat ke dalam data lake tidak dikatalog, dikelola, dan diatur dengan benar, data lake dapat berubah menjadi "rawa data" yang membuat data sulit ditemukan, dipercaya, atau digunakan secara efektif. Strategi pengelolaan data yang kuat sangatlah penting.
Tanggung jawab kualitas data: Karena transformasi terjadi di bagian akhir proses, memastikan kualitas data mungkin memerlukan langkah khusus setelah proses upload. Memantau dan memvalidasi data dalam sistem target menjadi penting.

Mengatasi tantangan ini secara proaktif dapat membantu organisasi memanfaatkan sepenuhnya keunggulan paradigma ELT.

ELT vs. ETL

Memahami perbedaan antara ELT dan proses ETL (ekstraksi, transformasi, pemuatan) yang lebih tradisional adalah hal yang penting untuk memilih strategi integrasi data yang tepat. Perbedaan utamanya terletak pada kapan langkah transformasi terjadi dan di mana langkah tersebut dilakukan.

Fitur	ELT (ekstraksi, pemuatan, transformasi)	ETL (ekstraksi, transformasi, dan pemuatan)
Urutan operasi	Mengekstrak, memuat, lalu mentransformasi	Mengekstrak, mentransformasi, lalu memuat
Lokasi transformasi	Dalam penyimpanan data target (data warehouse/data lake)	Di area staging atau lingkungan alat ETL terpisah
Data dimuat ke target	Data mentah yang belum ditransformasi	Data yang dibersihkan, terstruktur, dan ditransformasikan
Kekuatan pemrosesan	Memanfaatkan kemampuan penyimpanan data target	Mengandalkan mesin ETL atau server staging khusus
Kecepatan penyerapan data	Biasanya lebih cepat untuk memuat data pada awalnya	Dapat lebih lambat karena pemrosesan transformasi di awal
Fleksibilitas untuk penggunaan baru	Tinggi, karena data mentah tersedia untuk transformasi ulang	Lebih rendah, karena transformasi sudah ditentukan sebelumnya
Penanganan skema	Cocok untuk schema-on-read	Sering kali mengandalkan schema-on-write
Kesesuaian jenis data	Sangat cocok untuk data terstruktur, semi-terstruktur, dan tidak terstruktur	Paling cocok untuk data terstruktur dan sebagian data semi-terstruktur
Memanfaatkan sumber daya	Mengoptimalkan penggunaan cloud data warehouse yang skalabel	Mungkin memerlukan infrastruktur terpisah untuk transformasi

Fitur

ELT (ekstraksi, pemuatan, transformasi)

ETL (ekstraksi, transformasi, dan pemuatan)

Urutan operasi

Mengekstrak, memuat, lalu mentransformasi

Mengekstrak, mentransformasi, lalu memuat

Lokasi transformasi

Dalam penyimpanan data target (data warehouse/data lake)

Di area staging atau lingkungan alat ETL terpisah

Data dimuat ke target

Data mentah yang belum ditransformasi

Data yang dibersihkan, terstruktur, dan ditransformasikan

Kekuatan pemrosesan

Memanfaatkan kemampuan penyimpanan data target

Mengandalkan mesin ETL atau server staging khusus

Kecepatan penyerapan data

Biasanya lebih cepat untuk memuat data pada awalnya

Dapat lebih lambat karena pemrosesan transformasi di awal

Fleksibilitas untuk penggunaan baru

Tinggi, karena data mentah tersedia untuk transformasi ulang

Lebih rendah, karena transformasi sudah ditentukan sebelumnya

Penanganan skema

Cocok untuk schema-on-read

Sering kali mengandalkan schema-on-write

Kesesuaian jenis data

Sangat cocok untuk data terstruktur, semi-terstruktur, dan tidak terstruktur

Paling cocok untuk data terstruktur dan sebagian data semi-terstruktur

Memanfaatkan sumber daya

Mengoptimalkan penggunaan cloud data warehouse yang skalabel

Mungkin memerlukan infrastruktur terpisah untuk transformasi

ELT adalah pola yang direkomendasikan Google Cloud untuk integrasi data. ELT melibatkan proses mengekstrak data dari sistem sumber, memuatnya ke BigQuery, lalu mengubahnya ke format yang diinginkan untuk dianalisis. Tidak seperti ETL (ekstraksi, pemuatan, transformasi), yang melibatkan transformasi data sebelum dimuat ke data warehouse, pendekatan ELT memungkinkan Anda menggunakan kemampuan penuh BigQuery untuk melakukan transformasi data dan pengguna SQL mana pun untuk mengembangkan pipeline integrasi data secara efektif.

Pilihan antara ELT dan ETL sering kali bergantung pada kasus penggunaan tertentu, infrastruktur yang ada, volume data, dan kebutuhan analisis organisasi. Dalam banyak arsitektur data modern, pendekatan hybrid, yang menggunakan ELT dan ETL untuk bagian pipeline yang berbeda, juga dapat digunakan.

Kasus penggunaan ELT

Pola ELT sangat efektif dalam berbagai skenario data modern:

Cloud data warehousing

ELT sangat cocok untuk platform data cloud seperti BigQuery Google Cloud, yang menawarkan skalabilitas dan daya pemrosesan yang sangat besar untuk menangani transformasi pada set data besar secara efisien.

Analisis big data

Saat berhadapan dengan data dalam volume besar, kecepatan tinggi, dan variasi yang luas, ELT memungkinkan penyerapan cepat ke dalam data lake atau penyimpanan skalabel. Transformasi kemudian dapat diterapkan sesuai kebutuhan menggunakan framework pemrosesan terdistribusi.

Implementasi data lake

Data lake dirancang untuk menyimpan data mentah dalam jumlah besar dalam format aslinya. Proses ELT memuat data mentah ini, dan berbagai mesin pemrosesan dan analisis kemudian dapat mengubah dan menggunakannya.

Pemrosesan data real-time atau hampir real-time

Untuk kasus penggunaan yang memerlukan akses cepat ke data baru, ELT dapat mempercepat tahap pemuatan. Transformasi untuk dasbor atau aplikasi tertentu yang hampir real-time kemudian dapat dilakukan pada subset data ini.

Data science dan analisis data eksploratif

Data scientist sering kali lebih memilih akses ke data mentah yang belum ditransformasi untuk melakukan feature engineering, membangun model machine learning, dan menemukan insight tanpa dibatasi oleh transformasi yang telah ditentukan sebelumnya. ELT membuat data mentah ini tersedia.

Mengonsolidasikan berbagai sumber data

Saat mengintegrasikan data dari banyak sistem yang berbeda dengan struktur yang bervariasi, ELT menyederhanakan penyerapan awal dengan memuat semuanya ke lokasi pusat terlebih dahulu, lalu menyelaraskannya melalui transformasi.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Cara Google Cloud menggunakan ELT

Google Cloud menyediakan rangkaian layanan komprehensif yang membantu mengoptimalkan arsitektur ELT, sehingga organisasi dapat membangun pipeline data yang kuat dan skalabel. Fokusnya adalah menggunakan kecanggihan layanan seperti BigQuery untuk transformasi dalam database.

Berikut cara layanan Google Cloud biasanya digunakan dalam pola ELT:

Ekstraksi: Data dapat diekstrak dari berbagai sumber menggunakan layanan seperti Dataflow untuk pemrosesan data batch dan streaming, Managed Service untuk Apache Spark untuk workload Spark dan Hadoop, atau langsung melalui konektor dan API ke dalam layanan Google Cloud. Pub/Sub dapat digunakan untuk menyerap data streaming real-time.
Memuat: Data mentah yang diekstrak biasanya dimuat ke Cloud Storage, yang berfungsi sebagai data lake yang sangat skalabel dan tahan lama. Dari Cloud Storage, data dapat dimuat secara efisien ke BigQuery, data warehouse multicloud serverless, sangat skalabel, dan hemat biaya dari Google Cloud. Data juga dapat di-streaming langsung ke BigQuery.
Transformasi: Di sinilah "T" dalam ELT bersinar di Google Cloud. BigQuery dirancang untuk melakukan transformasi kompleks pada skala petabyte menggunakan SQL standar. Mesin pemrosesannya yang canggih menangani gabungan, agregasi, fungsi jendela, dan transformasi lainnya secara langsung pada data yang disimpan di dalamnya. Pengguna juga dapat mengembangkan fungsi yang ditentukan pengguna (UDF) di JavaScript atau memanfaatkan BigQuery ML untuk machine learning dalam database. Data mentah sering kali tetap berada di Cloud Storage atau tabel BigQuery terpisah, sehingga memungkinkan transformasi ulang yang serbaguna.

Infrastruktur Google Cloud mendukung prinsip inti ELT dengan menyediakan penyimpanan yang skalabel untuk data mentah, kemampuan pemuatan yang cepat, dan mesin yang andal dalam BigQuery untuk melakukan transformasi secara efisien. Hal ini memungkinkan data engineer membangun pipeline yang memungkinkan data dimuat dengan cepat dan kemudian diolah berdasarkan persyaratan analisis tertentu, semuanya dalam lingkungan serverless yang terkelola.