ETL adalah singkatan dari extract, transform, dan load (ekstraksi, transformasi, dan pemuatan). ETL adalah metode yang biasa digunakan oleh organisasi untuk menggabungkan data dari beberapa sistem menjadi satu database, data store, data warehouse, atau data lake. ETL dapat digunakan untuk menyimpan data lama, atau data gabungan untuk menganalisis dan mendorong keputusan bisnis. Saat ini, data gabungan lebih umum digunakan.
Organisasi telah menggunakan ETL selama beberapa dekade. Namun, sumber data dan database target kini beralih ke cloud.
Selain itu, kami melihat kemunculan pipeline ETL streaming, yang kini disatukan dengan pipeline batch, yaitu pipeline yang menangani aliran data berkelanjutan secara real time dibandingkan data yang ditangani dalam batch gabungan. Beberapa perusahaan menjalankan proses streaming berkelanjutan dengan pengisian ulang batch atau pipeline pemrosesan ulang yang digabungkan ke dalamnya.
Pelajari portofolio layanan Google Cloud yang mendukung ETL, termasuk Cloud Data Fusion, Dataflow, dan Dataproc.
Siap untuk memulai? Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.
ETL menggambarkan proses menyeluruh yang dilakukan perusahaan untuk menangani semua datanya, baik yang terstruktur maupun tidak terstruktur serta dikelola oleh berbagai tim di berbagai belahan dunia. Tujuan akhir proses ini adalah mentransformasi data tersebut agar berguna untuk tujuan bisnis.
Solusi ETL modern saat ini harus mampu menangani volume dan kecepatan data yang makin meningkat. Selain itu, kemampuan untuk menyerap, memperkaya, dan mengelola transaksi, serta mendukung data terstruktur dan tidak terstruktur secara real time dari sumber apa pun, baik lokal maupun di cloud, kini menjadi persyaratan dasar untuk solusi ETL perusahaan pada masa sekarang.
Extraction
Ekstraksi adalah proses pengambilan data dari satu atau beberapa sumber—online, lokal, lama, SaaS, atau lainnya. Setelah pengambilan, atau ekstraksi selesai, data akan dimuat ke area staging.
Transformasi
Transformasi melibatkan aktivitas mengambil, membersihkan, dan mengubah data ke dalam format umum sehingga dapat disimpan dalam database, penyimpanan data, data warehouse, atau data lake yang ditargetkan. Pembersihan atau peningkatan kualitas data biasanya mencakup penghapusan catatan duplikat, tidak lengkap, atau keliru.
Memuat
Pemuatan adalah proses menyisipkan data yang diformat ke dalam database target, penyimpanan data, data warehouse, atau data lake.
ETL adalah cara penting untuk mengumpulkan semua data yang relevan di satu tempat agar dapat ditindaklanjuti melalui analisis. ETL juga mendukung eksekutif, manajer, dan pemangku kepentingan lainnya untuk membuat keputusan bisnis yang tepat berdasarkan data tersebut. ETL biasanya digunakan untuk melakukan hal berikut:
Data warehousing
Data warehouse adalah database tempat data dari berbagai sumber digabungkan sehingga dapat dianalisis secara kolektif untuk tujuan bisnis. ETL sering digunakan untuk memindahkan data ke data warehouse.
Machine learning dan kecerdasan buatan
Machine learning (ML) adalah cara memahami data tanpa memprogram model analisis secara eksplisit. Sebaliknya, sistem tersebut belajar dari data menggunakan teknik kecerdasan buatan. ETL dapat digunakan untuk memindahkan data ke satu lokasi untuk keperluan ML.
Integrasi data pemasaran
Integrasi data pemasaran melibatkan pemindahan semua data pemasaran, seperti data pelanggan, jaringan sosial, dan analisis web, ke satu tempat, sehingga Anda dapat menganalisisnya dan mengembangkan rencana pada masa mendatang. ETL digunakan untuk mengumpulkan dan menyiapkan data pemasaran.
Integrasi data IoT
IoT adalah kumpulan perangkat terhubung yang mampu mengumpulkan dan mengirimkan data melalui sensor yang tertanam dalam hardware. Perangkat IoT dapat mencakup peralatan pabrik, server jaringan, smartphone, atau berbagai mesin lain—bahkan perangkat wearable dan perangkat implan. ETL membantu memindahkan data dari berbagai sumber IoT ke satu tempat agar Anda dapat menganalisisnya.
Replikasi database
Replikasi database mengambil data dari database sumber Anda—seperti Oracle, Cloud SQL untuk MySQL, Microsoft SQL Server, Cloud SQL untuk PostgreSQL, MongoDB, atau lainnya—dan menyalinnya ke cloud data warehouse Anda. Operasi ini dapat berupa operasi satu kali atau proses berkelanjutan saat data Anda diperbarui, dan ETL dapat digunakan untuk mereplikasi data.
Migrasi cloud
Perusahaan memindahkan data dan aplikasi mereka dari infrastruktur lokal ke cloud untuk menghemat uang, membuat aplikasi mereka lebih skalabel, serta mengamankan data mereka, dan ETL biasanya digunakan untuk menjalankan migrasi ini.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.