Data lake versus data warehouse

Pengelolaan data adalah bagian penting dalam mendukung analisis perusahaan dan membangun pengalaman pelanggan yang luar biasa. Anda mungkin pernah mendengar istilah data lake dan data warehouse, tetapi sulit untuk mengetahui mana yang cocok untuk project Anda. Kedua sistem ini menangani data dengan cara yang berbeda. Data lake seperti kumpulan besar data mentah yang tujuannya tidak langsung ditentukan. Data warehouse lebih seperti library data yang terorganisir dan difilter yang siap untuk tugas tertentu. Dengan mengetahui perbedaannya, Anda dapat memilih alat yang tepat untuk kebutuhan data Anda.

Definisi data lake dan data warehouse

Data lake adalah tempat terpusat untuk menyimpan semua data Anda dalam skala apa pun. Anda tidak perlu mengubah data sebelum menyimpannya. Data lake menyimpan data dalam bentuk mentahnya, baik terstruktur, semi-terstruktur, maupun tidak terstruktur. Hal ini menjadikannya pilihan yang tepat bagi tim yang ingin mengumpulkan banyak data sekarang dan memutuskan cara menggunakannya nanti.
Data warehouse adalah sistem yang dibangun untuk analisis dan pelaporan data. Tidak seperti data lake, data warehouse hanya menyimpan data yang sudah dibersihkan dan diproses. Data warehouse menggunakan struktur atau "skema" tertentu untuk mengatur data. Hal ini membuat kueri berjalan sangat cepat dan laporan bisnis dapat dibuat dengan cepat.

Apa perbedaan antara data lake dan data warehouse?

Perbedaan utama antara kedua sistem ini adalah cara mereka menangani struktur dan penggunaan data. Data lake digunakan untuk data mentah dan tidak terstruktur, sedangkan data warehouse digunakan untuk data terstruktur yang telah diproses.

Fitur	Data lake	Data warehouse
Data type	Semua data (mentah, terstruktur, tidak terstruktur)	Data terstruktur yang diproses
Tujuan	Belum ditentukan	Terdefinisi dan spesifik
Pengguna	Data scientist, data engineer	Analis data, analis business intelligence
Aksesibilitas	Sangat fleksibel, mudah diubah	Lebih sulit diubah, lebih kaku
Pemrosesan	Schema-on-read (ditentukan saat digunakan)	Schema-on-write (ditentukan sebelum menyimpan)
Manfaat	Biaya rendah untuk volume besar Fleksibel untuk semua jenis data Skalabel untuk model AI dan ML	Kueri SQL berperforma tinggi Kualitas dan kepercayaan data yang tinggi Aman dan mudah bagi pengguna SQL

Fitur

Data lake

Data warehouse

Data type

Semua data (mentah, terstruktur, tidak terstruktur)

Data terstruktur yang diproses

Tujuan

Belum ditentukan

Terdefinisi dan spesifik

Pengguna

Data scientist, data engineer

Analis data, analis business intelligence

Aksesibilitas

Sangat fleksibel, mudah diubah

Lebih sulit diubah, lebih kaku

Pemrosesan

Schema-on-read (ditentukan saat digunakan)

Schema-on-write (ditentukan sebelum menyimpan)

Manfaat

Biaya rendah untuk volume besar
Fleksibel untuk semua jenis data
Skalabel untuk model AI dan ML

Kueri SQL berperforma tinggi
Kualitas dan kepercayaan data yang tinggi
Aman dan mudah bagi pengguna SQL

Contoh industri

Game

Bayangkan Anda sedang membangun game seluler. Anda ingin melacak setiap klik tombol dari setiap pengguna. Anda belum tahu klik mana yang penting untuk update berikutnya. Anda dapat mengirim semua peristiwa JSON mentah tersebut langsung ke data lake. Selanjutnya, data scientist Anda dapat menjalankan skrip untuk menemukan pola dalam data mentah tersebut.

Manufaktur

Contoh lainnya adalah sensor IoT. Jika Anda memiliki ribuan sensor yang mengirim data suhu setiap detik, Anda dapat memindahkan informasi data mentah tersebut ke data lake. Anda akan memiliki histori lengkap semua yang terjadi tanpa perlu khawatir tentang cara memformatnya terlebih dahulu.

Retail

Bayangkan sebuah perusahaan retail yang perlu melacak penjualan. Setiap malam, sistem mengambil semua pesanan dari hari itu, membersihkan alamat, menghitung pajak, dan menyimpannya ke data warehouse. Manajer kemudian dapat menjalankan laporan untuk melihat dengan tepat berapa banyak kemeja biru yang terjual di Chicago. Data tersebut rapi, teratur, dan siap untuk dibuat diagram.

Keuangan

Bank juga dapat menggunakan data warehouse untuk melacak akun. Mereka perlu mengetahui saldo pasti setiap pelanggan kapan saja. Mereka tidak menginginkan log mentah, tetapi tabel terstruktur yang menunjukkan setiap transaksi dengan jelas.

Membangun model AI dengan data lake

Data scientist sering kali perlu membangun model AI yang dapat mendeteksi pemesanan fiktif secara real time. Karena data berasal dari banyak tempat, seperti log situs, peristiwa aplikasi seluler, dan partner pihak ketiga, data lake paling cocok untuk melatih model AI.

Mengumpulkan data mentah

Mulailah dengan menyiapkan pipeline untuk mengirim setiap peristiwa mentah ke Cloud Storage. Hal ini mencakup file JSON yang tidak teratur dari situs dan log biner dari aplikasi seluler. Anda tidak perlu khawatir tentang pemformatan data karena Cloud Storage dibuat untuk skala seperti ini.

Pemrosesan dalam skala besar

Agar data dapat digunakan untuk model AI, Anda perlu membersihkannya. Anda dapat menggunakan Google Cloud Service for Apache Spark untuk menjalankan tugas Apache Spark serverless. Hal ini memungkinkan Anda mengubah jutaan log mentah menjadi format terstruktur tanpa perlu mengelola server atau cluster apa pun.

Melatih model

Setelah data siap, Anda dapat memasukkannya ke alat machine learning. Karena data mentah asli masih ada di data lake, Anda selalu dapat kembali dan melihat detail "tersembunyi" yang mungkin membantu membuat model menjadi lebih baik.

Dengan menggunakan data lake, Anda dapat menyimpan semuanya dengan biaya rendah dan hanya memproses apa yang diperlukan saat membangun model.

Memprediksi penjualan dengan data warehouse

Sekarang, mari kita lihat kasus penggunaan data science untuk retailer. Anda dapat memperkirakan jumlah mantel musim dingin yang akan dijual perusahaan bulan depan. Karena data penjualan sudah bersih dan disimpan dalam database, sebaiknya gunakan data warehouse untuk tugas ini.

Mengakses data bersih

Mulai dengan BigQuery, yang bertindak sebagai data warehouse pusat perusahaan. Data penjualan sudah diatur ke dalam tabel rapi dengan kolom untuk tanggal, harga, dan ID produk. Karena data sudah terstruktur, Anda tidak perlu menghabiskan waktu untuk membersihkannya.

Menjalankan kueri cepat

Tulis kueri SQL untuk melihat penjualan musim dingin selama lima tahun terakhir. Meskipun ada miliaran baris data, BigQuery menemukan jawabannya dalam hitungan detik. Kecepatan ini memungkinkan Anda mencoba berbagai ide dan menyempurnakan perkiraan dengan cepat.

Berbagi insight

Setelah perkiraan siap, Anda dapat menggunakan alat bawaan untuk membuat dasbor. Tim pemasaran kini dapat melihat dengan tepat berapa banyak mantel yang perlu mereka pesan. Karena BigQuery bersifat serverless, perusahaan hanya membayar kueri yang dijalankan, sehingga biaya tetap rendah.

Untuk kasus penggunaan ini, data warehouse adalah alat terbaik karena memberikan jawaban yang cepat dan andal terhadap pertanyaan bisnis tertentu menggunakan data yang sudah dalam format yang dapat digunakan.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Hubungi spesialis penjualan Google Cloud untuk membahas tantangan unik Anda secara lebih mendetail.

Memilih antara data lake dan data warehouse

Memilih antara data lake dan data warehouse bergantung pada apa yang ingin Anda bangun. Jika Anda memiliki banyak data mentah dan ingin menjelajahinya dengan kode, mulailah dengan data lake. Jika Anda memiliki pertanyaan bisnis spesifik dan menginginkan laporan yang cepat dan andal, data warehouse kemungkinan adalah pilihan yang lebih baik. Banyak perusahaan enterprise menggunakan keduanya secara bersamaan untuk mendapatkan manfaat terbaik dari keduanya.

Produk dan layanan Google Cloud terkait

Sebagian besar penyedia cloud menawarkan alat untuk membantu Anda membangun kedua sistem ini. Anda akan sering menemukan layanan terkelola yang memungkinkan Anda memulai data lake atau data warehouse hanya dengan beberapa klik. Berikut beberapa contoh alat yang tersedia di Google Cloud: