Organisasi di mana saja mencari solusi penyimpanan untuk mengelola persyaratan volume, latensi, ketahanan, dan akses data big data. Awalnya, perusahaan memanfaatkan technology stack yang ada agar data lake mereka memiliki kemampuan yang sama dengan warehouse, menyesuaikan data warehouse mereka untuk menangani data semi-terstruktur dalam jumlah besar, atau memilih untuk menyimpan data di kedua sistem tersebut.
Pada akhirnya, pendekatan ini menimbulkan biaya yang tinggi, ketidakpuasan pengguna, dan duplikasi data di seluruh bisnis. Lakehouse data muncul sebagai arsitektur data campuran baru yang bertujuan untuk memberikan semua manfaat terbaik dari data warehouse dan data lake, sekaligus menghilangkan kelemahan dari kedua sistem tersebut.
Google Cloud menyediakan solusi lakehouse data berbasis cloud, sangat skalabel, dan aman berdasarkan penyimpanan berbiaya rendah, mesin komputasi serverless, dan penawaran pengelolaan data kami yang canggih. Pelajari lebih lanjut cara Google Cloud membantu Anda membangun lakehouse data terbuka.
Lakehouse data adalah arsitektur data yang menggabungkan data lake dan data warehouse. Lakehouse data memungkinkan machine learning, business intelligence, dan analisis prediktif, memungkinkan organisasi memanfaatkan penyimpanan yang fleksibel dan hemat biaya untuk semua jenis data—terstruktur, tidak terstruktur, dan semi-terstruktur—sekaligus menyediakan struktur data dan fitur pengelolaan data.
Lakehouse data adalah arsitektur data modern yang menciptakan satu platform dengan menggabungkan manfaat utama data lake (repositori data mentah yang besar dalam bentuk aslinya) dan data warehouse (kumpulan data terstruktur yang terorganisasi). Secara khusus, lakehouse data memungkinkan organisasi menggunakan penyimpanan berbiaya rendah untuk menyimpan data mentah dalam jumlah besar sekaligus menyediakan fungsi pengelolaan data dan struktur.
Selama ini, data warehouse dan data lake harus diimplementasikan sebagai arsitektur terpisah dan silo untuk menghindari kelebihan beban pada sistem yang mendasarinya dan menimbulkan pertentangan untuk resource yang sama. Perusahaan menggunakan data warehouse guna menyimpan data terstruktur untuk business intelligence (BI) dan pelaporan, sementara data lake digunakan untuk menyimpan data tidak terstruktur dan semi-terstruktur untuk workload machine learning (ML). Namun, pendekatan ini mengharuskan data dialihkan secara rutin di antara kedua sistem yang berbeda ketika data dari salah satu arsitektur tersebut perlu diproses bersama-sama, sehingga menimbulkan kompleksitas, biaya yang lebih tinggi, dan masalah terkait keaktualan, duplikasi, dan konsistensi data.
Lakehouse data bertujuan mengurai silo ini dan memberikan fleksibilitas, skalabilitas, serta ketangkasan yang diperlukan guna memastikan data Anda menghasilkan nilai bagi bisnis Anda, bukan inefisiensi.
Istilah “lakehouse data” menggabungkan dua jenis repositori data yang ada: data warehouse dan data lake. Jadi, apa sebenarnya perbedaan antara lakehouse data vs. data lake vs. data warehouse?
Data warehouse menyediakan akses cepat ke data dan kompatibilitas SQL bagi pengguna bisnis yang perlu membuat laporan dan insight untuk pengambilan keputusan. Semua data harus melalui fase ETL (ekstrak, transformasi, pemuatan). Artinya, data dioptimalkan dalam format atau skema tertentu berdasarkan kasus penggunaan sebelum dimuat untuk mendukung kueri berperforma tinggi dan integritas data. Namun, pendekatan ini membatasi fleksibilitas akses ke data dan menimbulkan biaya tambahan jika data perlu dipindahkan untuk penggunaan di masa mendatang.
Data lake menyimpan data tak terstruktur dan terstruktur dalam jumlah besar dalam format native-nya. Tidak seperti data warehouse, data diproses, dibersihkan, dan diubah selama analisis untuk memungkinkan kecepatan pemuatan yang lebih cepat, sehingga ideal untuk pemrosesan big data, machine learning, atau analisis prediktif. Namun, data lake membutuhkan keahlian data science, yang membatasi sekelompok orang yang dapat menggunakan data, dan jika tidak dikelola dengan benar, kualitas data dapat menurun dari waktu ke waktu. Data lake juga mempersulit perolehan kueri real-time karena data belum diproses, sehingga data tersebut kemungkinan masih perlu dibersihkan, diproses, diserap, dan diintegrasikan sebelum dapat digunakan.
Lakehouse data menggabungkan kedua pendekatan ini untuk membuat satu struktur yang memungkinkan Anda mengakses dan memanfaatkan data untuk berbagai tujuan, dari BI, data science, hingga machine learning. Dengan kata lain, lakehouse data menangkap semua data organisasi Anda yang tidak terstruktur, terstruktur, dan semi-terstruktur, lalu menyimpannya di penyimpanan berbiaya rendah sekaligus memberikan kemampuan bagi semua pengguna untuk mengatur dan mengeksplorasi data sesuai kebutuhan mereka.
Fitur lakehouse data utama meliputi:
Akses langsung untuk aplikasi BI ke data sumber di lakehouse guna mengurangi duplikasi data.
Saat membuat lakehouse data Anda berfungsi, penting untuk mempertimbangkan apa yang ingin dicapai. Lakehouse data bertujuan untuk memusatkan sumber data yang berbeda dan menyederhanakan upaya engineering sehingga semua orang di organisasi Anda dapat menjadi pengguna data.
Lakehouse data menggunakan penyimpanan objek cloud biaya rendah yang sama dengan data lake untuk menyediakan penyimpanan on-demand agar mudah disediakan dan diskalakan. Seperti data lake, lakehouse data dapat menangkap dan menyimpan semua jenis data dalam jumlah besar dalam bentuk mentah. Lakehouse mengintegrasikan lapisan metadata ke penyimpanan ini untuk menyediakan kemampuan seperti warehouse, seperti skema terstruktur, dukungan untuk transaksi ACID, tata kelola data, serta fitur pengelolaan dan pengoptimalan data lainnya.
Arsitektur yang disederhanakan Lakehouse data menghilangkan silo dari dua platform yang terpisah, sehingga Anda hanya perlu fokus pada pengelolaan dan pemeliharaan satu repositori data. Beberapa alat juga dapat dihubungkan langsung ke data sumber sehingga Anda tidak perlu mengekstrak atau menyiapkan data untuk digunakan di data warehouse. | Kualitas data yang lebih baik Anda dapat menerapkan skema untuk data terstruktur dan integritas data dalam arsitektur lakehouse data, sehingga Anda dapat memastikan konsistensinya. Selain itu, lakehouse mengurangi waktu untuk menyediakan data baru sehingga memastikan data lebih aktual. | Biaya yang lebih rendah Simpan data dalam volume besar dengan penyimpanan hemat biaya tanpa perlu mengelola data warehouse dan data lake. Lakehouse data juga membantu mengurangi biaya untuk proses ETL dan penghapusan duplikat. |
Keandalan yang lebih baik Lakehouse data mengurangi transfer data ETL antar beberapa sistem, sehingga mengurangi kemungkinan masalah kualitas atau teknis yang dapat terjadi akibat pemindahan data. | Tata kelola data yang lebih baik Data dan resource digabungkan di satu tempat dengan lakehouse data, sehingga mempermudah penerapan, pengujian, dan penyediaan kontrol tata kelola serta keamanan. | Pengurangan duplikasi data Semakin banyak salinan data yang ada di sistem yang berbeda, semakin besar kemungkinan data tersebut tidak konsisten dan kurang dapat dipercaya. Dengan lakehouse data, Anda bisa mendapatkan satu sumber data yang dapat dibagikan ke seluruh bisnis untuk membuat keputusan, sehingga mencegah inkonsistensi dan biaya penyimpanan tambahan yang disebabkan oleh duplikasi data. |
Beragam workload Anda dapat menghubungkan beberapa alat langsung ke lakehouse untuk mendukung workload analisis, SQL, machine learning, dan data science dari repositori yang sama. | Skalabilitas tinggi Dengan penyimpanan objek cloud berbiaya rendah di lakehouse data, Anda dapat memisahkan komputasi dari penyimpanan untuk memberikan skalabilitas yang hampir tanpa batas dan seketika. Anda dapat menskalakan daya komputasi dan penyimpanan secara terpisah sesuai dengan kebutuhan bisnis Anda. |
Arsitektur yang disederhanakan
Lakehouse data menghilangkan silo dari dua platform yang terpisah, sehingga Anda hanya perlu fokus pada pengelolaan dan pemeliharaan satu repositori data. Beberapa alat juga dapat dihubungkan langsung ke data sumber sehingga Anda tidak perlu mengekstrak atau menyiapkan data untuk digunakan di data warehouse.
Kualitas data yang lebih baik
Anda dapat menerapkan skema untuk data terstruktur dan integritas data dalam arsitektur lakehouse data, sehingga Anda dapat memastikan konsistensinya. Selain itu, lakehouse mengurangi waktu untuk menyediakan data baru sehingga memastikan data lebih aktual.
Biaya yang lebih rendah
Simpan data dalam volume besar dengan penyimpanan hemat biaya tanpa perlu mengelola data warehouse dan data lake. Lakehouse data juga membantu mengurangi biaya untuk proses ETL dan penghapusan duplikat.
Keandalan yang lebih baik
Lakehouse data mengurangi transfer data ETL antar beberapa sistem, sehingga mengurangi kemungkinan masalah kualitas atau teknis yang dapat terjadi akibat pemindahan data.
Tata kelola data yang lebih baik
Data dan resource digabungkan di satu tempat dengan lakehouse data, sehingga mempermudah penerapan, pengujian, dan penyediaan kontrol tata kelola serta keamanan.
Pengurangan duplikasi data
Semakin banyak salinan data yang ada di sistem yang berbeda, semakin besar kemungkinan data tersebut tidak konsisten dan kurang dapat dipercaya. Dengan lakehouse data, Anda bisa mendapatkan satu sumber data yang dapat dibagikan ke seluruh bisnis untuk membuat keputusan, sehingga mencegah inkonsistensi dan biaya penyimpanan tambahan yang disebabkan oleh duplikasi data.
Beragam workload
Anda dapat menghubungkan beberapa alat langsung ke lakehouse untuk mendukung workload analisis, SQL, machine learning, dan data science dari repositori yang sama.
Skalabilitas tinggi
Dengan penyimpanan objek cloud berbiaya rendah di lakehouse data, Anda dapat memisahkan komputasi dari penyimpanan untuk memberikan skalabilitas yang hampir tanpa batas dan seketika. Anda dapat menskalakan daya komputasi dan penyimpanan secara terpisah sesuai dengan kebutuhan bisnis Anda.
Konsep lakehouse data masih tergolong arsitektur yang relatif baru. Artinya, beberapa tantangan terbesar berkaitan dengan fakta bahwa lakehouse masih terus berkembang dan praktik terbaik masih ditentukan oleh para pengguna awal.
Selain itu, lakehouse data rumit untuk dibangun dari awal. Pada umumnya, Anda harus memilih solusi lakehouse data siap pakai atau menggunakan platform seperti Google Cloud yang menawarkan semua komponen yang diperlukan untuk mendukung arsitektur lakehouse terbuka.
Arsitektur lakehouse data terdiri dari lapisan berikut:
Ada beberapa contoh lakehouse data yang ada, termasuk Databricks Lakehouse Platform dan Amazon Redshift Spectrum. Namun, karena teknologi terus berkembang dan adopsi lakehouse data meningkat, implementasi tersebut telah beralih dari menggabungkan komponen lakehouse ke data lake tertentu.
Misalnya, pendekatan Google Cloud adalah dengan menyatukan kemampuan inti operasi data, data lake, dan data warehouse perusahaan. Implementasi ini menempatkan daya penyimpanan dan komputasi BigQuery di pusat arsitektur lakehouse data. Kemudian, Anda dapat menerapkan pendekatan tata kelola terpadu dan kemampuan lain yang mirip dengan warehouse menggunakan Dataplex dan Analytics Hub.
BigQuery tidak hanya terintegrasi dengan ekosistem Google Cloud, tetapi juga memungkinkan Anda menggunakan teknologi open source dan partner untuk menghadirkan kemampuan terbaik lake dan warehouse secara bersamaan dalam satu sistem.
Kami terus mengembangkan pendekatan ini dengan merilis BigLake, yang kini dalam versi Pratinjau, yaitu mesin penyimpanan terpadu yang menyederhanakan akses data ke data warehouse dan data lake. Anda dapat menerapkan kontrol akses yang terperinci dan mempercepat performa kueri di seluruh data yang terdistribusi.