Format data dan metadata yang optimal untuk lakehouse
Dokumen ini memandu Anda dalam menggunakan format data dan metadata yang optimal saat Anda mendesain data lakehouse dengan BigLake.
Lakehouse data adalah arsitektur data yang menggabungkan struktur data warehouse dengan fleksibilitas data mentah dari data lake. Arsitektur ini memberikan fleksibilitas dan skalabilitas untuk berbagai kasus penggunaan data. Solusi Google Cloud data lakehouse ini disebut BigLake, yang menghubungkan Google Cloud dan layanan open source untuk membuat antarmuka terpadu untuk analisis dan AI. Lakehouse data yang dibangun dengan BigLake terdiri dari komponen utama berikut:
- Kemampuan penyimpanan: Cloud Storage atau BigQuery, dengan Apache Iceberg sebagai format tabel terbuka yang direkomendasikan
- Metastore: BigLake Metastore
- Mesin kueri: BigQuery, Apache Spark, Apache Flink, Trino, atau mesin open source lainnya
- Alat untuk penulisan dan analisis data: berbagai koneksi BigQuery dan open source
BigLake mengemas semua komponen ini dalam satu pengalaman dengan tata kelola yang seragam. Untuk mengetahui informasi selengkapnya tentang arsitektur dan inovasi BigLake, lihat Evolusi BigLake.
Pilih metastore
Untuk metastore Anda, sebaiknya gunakan BigLake metastore. Metastore BigLake adalah metastore yang terkelola sepenuhnya dan serverless untuk lakehouse Anda di Google Cloud. BigLake Metastore menyediakan satu sumber kebenaran untuk metadata dari berbagai sumber dan dapat diakses dari BigQuery dan berbagai mesin pemrosesan data terbuka, sehingga tidak perlu menyalin dan menyinkronkan metadata antara berbagai repositori dengan alat yang disesuaikan. Metastore BigLake didukung dengan Katalog Universal Dataplex, yang menyediakan kontrol akses terpadu dan terperinci di semua mesin yang didukung serta memungkinkan tata kelola menyeluruh yang mencakup kemampuan silsilah, kualitas data, dan visibilitas yang komprehensif.
Pilih format tabel
Dengan BigLake Metastore sebagai metastore untuk lakehouse terbuka Anda, Anda memiliki pilihan berikut untuk format tabel Anda:
- Pilih tabel BigQuery standar untuk data yang dikelola di BigQuery. Tabel ini dikelola sepenuhnya oleh BigQuery dan memiliki fitur analisis dan pengelolaan data tercanggih. Anda tetap dapat menghubungkan tabel ini ke metastore BigLake. Pilih opsi ini untuk tabel non-Iceberg.
- Pilih Tabel Iceberg BigLake di BigQuery untuk pengalaman yang terkelola sepenuhnya di BigQuery. Tabel ini adalah tabel Iceberg yang Anda buat dari BigQuery dan disimpan di Cloud Storage. Seperti semua tabel yang menggunakan metastore BigLake, tabel ini dapat dibaca oleh mesin open source atau BigQuery. Namun, BigQuery adalah satu-satunya mesin yang dapat menulis langsung ke tabel tersebut. Pilih opsi ini jika Anda ingin alur kerja ekstrak, transformasi, dan pemuatan (ETL) dikelola oleh BigQuery.
- Pilih tabel BigLake Iceberg untuk pengalaman yang dikelola sebagian di Google Cloud. Tabel ini adalah tabel Iceberg yang Anda buat dari mesin open source dan disimpan di Cloud Storage. Seperti semua tabel yang menggunakan metastore BigLake, tabel ini dapat dibaca oleh mesin open source atau BigQuery. Namun, mesin open source yang membuat tabel tersebut adalah satu-satunya mesin yang dapat menulis ke tabel tersebut. Pilih opsi ini jika Anda ingin alur kerja ETL dikelola oleh mesin open source.
- Pilih tabel eksternal untuk tabel di luar metastore BigLake. Data dan metadata tabel ini dikelola sendiri sepenuhnya, di mana Anda sepenuhnya mengandalkan kemampuan format tabel terbuka (seperti Iceberg, Apache Hudi, atau Delta Lake). BigQuery hanya memiliki kemampuan untuk membaca dari tabel ini. Pilih opsi ini untuk data dan metadata yang ingin Anda kelola sendiri di katalog pihak ketiga.
Gunakan tabel berikut untuk membandingkan opsi format tabel Anda:
Tabel eksternal | Tabel Iceberg BigLake | Tabel Iceberg BigLake di BigQuery | Tabel BigQuery standar | |
---|---|---|---|---|
Metastore | Metastore eksternal atau yang dihosting sendiri | BigLake Metastore | BigLake Metastore | BigLake Metastore |
Penyimpanan | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
Manajemen | Pelanggan atau pihak ketiga | Google (pengalaman yang sangat dikelola) | Google (pengalaman yang paling dikelola) | |
Baca / Tulis |
Mesin open source (baca/tulis) BigQuery (hanya baca) |
Mesin open source (baca/tulis) BigQuery (hanya baca) |
Mesin open source (hanya baca dengan library Iceberg, interoperabilitas baca/tulis dengan BigQuery Storage API)
BigQuery (baca/tulis) |
Mesin open source (interoperabilitas baca/tulis dengan
BigQuery Storage API) BigQuery (baca/tulis) |
Use cases | Migrasi, tabel staging untuk pemuatan BigQuery, pengelolaan mandiri | Lakehouse terbuka | Lakehouse terbuka, penyimpanan tingkat perusahaan untuk analisis, streaming, dan AI | Penyimpanan tingkat perusahaan untuk analisis, streaming, dan AI |
Langkah berikutnya
- Pelajari lebih lanjut BigLake Metastore.