Pengelolaan data adalah bagian penting dalam mendukung analisis perusahaan dan membangun pengalaman pelanggan yang luar biasa. Anda mungkin pernah mendengar istilah data lake dan data warehouse, tetapi sulit untuk mengetahui mana yang cocok untuk project Anda. Kedua sistem ini menangani data dengan cara yang berbeda. Data lake seperti kumpulan besar data mentah yang tujuannya tidak langsung ditentukan. Data warehouse lebih seperti library data yang terorganisir dan difilter yang siap untuk tugas tertentu. Dengan mengetahui perbedaannya, Anda dapat memilih alat yang tepat untuk kebutuhan data Anda.
Perbedaan utama antara kedua sistem ini adalah cara mereka menangani struktur dan penggunaan data. Data lake digunakan untuk data mentah dan tidak terstruktur, sedangkan data warehouse digunakan untuk data terstruktur yang telah diproses.
Fitur | Data lake | Data warehouse |
Data type | Semua data (mentah, terstruktur, tidak terstruktur) | Data terstruktur yang diproses |
Tujuan | Belum ditentukan | Terdefinisi dan spesifik |
Pengguna | Data scientist, data engineer | Analis data, analis business intelligence |
Aksesibilitas | Sangat fleksibel, mudah diubah | Lebih sulit diubah, lebih kaku |
Pemrosesan | Schema-on-read (ditentukan saat digunakan) | Schema-on-write (ditentukan sebelum menyimpan) |
Manfaat |
|
|
Fitur
Data lake
Data warehouse
Data type
Semua data (mentah, terstruktur, tidak terstruktur)
Data terstruktur yang diproses
Tujuan
Belum ditentukan
Terdefinisi dan spesifik
Pengguna
Data scientist, data engineer
Analis data, analis business intelligence
Aksesibilitas
Sangat fleksibel, mudah diubah
Lebih sulit diubah, lebih kaku
Pemrosesan
Schema-on-read (ditentukan saat digunakan)
Schema-on-write (ditentukan sebelum menyimpan)
Manfaat
Bayangkan Anda sedang membangun game seluler. Anda ingin melacak setiap klik tombol dari setiap pengguna. Anda belum tahu klik mana yang penting untuk update berikutnya. Anda dapat mengirim semua peristiwa JSON mentah tersebut langsung ke data lake. Selanjutnya, data scientist Anda dapat menjalankan skrip untuk menemukan pola dalam data mentah tersebut.
Contoh lainnya adalah sensor IoT. Jika Anda memiliki ribuan sensor yang mengirim data suhu setiap detik, Anda dapat memindahkan informasi data mentah tersebut ke data lake. Anda akan memiliki histori lengkap semua yang terjadi tanpa perlu khawatir tentang cara memformatnya terlebih dahulu.
Bayangkan sebuah perusahaan retail yang perlu melacak penjualan. Setiap malam, sistem mengambil semua pesanan dari hari itu, membersihkan alamat, menghitung pajak, dan menyimpannya ke data warehouse. Manajer kemudian dapat menjalankan laporan untuk melihat dengan tepat berapa banyak kemeja biru yang terjual di Chicago. Data tersebut rapi, teratur, dan siap untuk dibuat diagram.
Bank juga dapat menggunakan data warehouse untuk melacak akun. Mereka perlu mengetahui saldo pasti setiap pelanggan kapan saja. Mereka tidak menginginkan log mentah, tetapi tabel terstruktur yang menunjukkan setiap transaksi dengan jelas.
Data scientist sering kali perlu membangun model AI yang dapat mendeteksi pemesanan fiktif secara real time. Karena data berasal dari banyak tempat, seperti log situs, peristiwa aplikasi seluler, dan partner pihak ketiga, data lake paling cocok untuk melatih model AI.
Mulailah dengan menyiapkan pipeline untuk mengirim setiap peristiwa mentah ke Cloud Storage. Hal ini mencakup file JSON yang tidak teratur dari situs dan log biner dari aplikasi seluler. Anda tidak perlu khawatir tentang pemformatan data karena Cloud Storage dibuat untuk skala seperti ini.
Agar data dapat digunakan untuk model AI, Anda perlu membersihkannya. Anda dapat menggunakan Google Cloud Service for Apache Spark untuk menjalankan tugas Apache Spark serverless. Hal ini memungkinkan Anda mengubah jutaan log mentah menjadi format terstruktur tanpa perlu mengelola server atau cluster apa pun.
Setelah data siap, Anda dapat memasukkannya ke alat machine learning. Karena data mentah asli masih ada di data lake, Anda selalu dapat kembali dan melihat detail "tersembunyi" yang mungkin membantu membuat model menjadi lebih baik.
Dengan menggunakan data lake, Anda dapat menyimpan semuanya dengan biaya rendah dan hanya memproses apa yang diperlukan saat membangun model.
Sekarang, mari kita lihat kasus penggunaan data science untuk retailer. Anda dapat memperkirakan jumlah mantel musim dingin yang akan dijual perusahaan bulan depan. Karena data penjualan sudah bersih dan disimpan dalam database, sebaiknya gunakan data warehouse untuk tugas ini.
Mulai dengan BigQuery, yang bertindak sebagai data warehouse pusat perusahaan. Data penjualan sudah diatur ke dalam tabel rapi dengan kolom untuk tanggal, harga, dan ID produk. Karena data sudah terstruktur, Anda tidak perlu menghabiskan waktu untuk membersihkannya.
Tulis kueri SQL untuk melihat penjualan musim dingin selama lima tahun terakhir. Meskipun ada miliaran baris data, BigQuery menemukan jawabannya dalam hitungan detik. Kecepatan ini memungkinkan Anda mencoba berbagai ide dan menyempurnakan perkiraan dengan cepat.
Setelah perkiraan siap, Anda dapat menggunakan alat bawaan untuk membuat dasbor. Tim pemasaran kini dapat melihat dengan tepat berapa banyak mantel yang perlu mereka pesan. Karena BigQuery bersifat serverless, perusahaan hanya membayar kueri yang dijalankan, sehingga biaya tetap rendah.
Untuk kasus penggunaan ini, data warehouse adalah alat terbaik karena memberikan jawaban yang cepat dan andal terhadap pertanyaan bisnis tertentu menggunakan data yang sudah dalam format yang dapat digunakan.
Memilih antara data lake dan data warehouse bergantung pada apa yang ingin Anda bangun. Jika Anda memiliki banyak data mentah dan ingin menjelajahinya dengan kode, mulailah dengan data lake. Jika Anda memiliki pertanyaan bisnis spesifik dan menginginkan laporan yang cepat dan andal, data warehouse kemungkinan adalah pilihan yang lebih baik. Banyak perusahaan enterprise menggunakan keduanya secara bersamaan untuk mendapatkan manfaat terbaik dari keduanya.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.