Tentang data lake dan zona

Perusahaan memiliki data yang sering kali didistribusikan di seluruh data lake, data warehouse, dan data mart. Dataplex Universal Catalog adalah data fabric yang menyatukan data terdistribusi dan mempermudah tata kelola data dengan menerapkan konstruksi logis ke aset data yang berbeda.

Dataplex Universal Catalog mengabstraksi sistem penyimpanan data yang mendasarinya, dengan menggunakan konstruksi berikut: data lake, zona, aset, dan entri.

Danau

Data lake adalah konstruksi logis yang merepresentasikan domain data atau unit bisnis. Misalnya, untuk mengatur data berdasarkan penggunaan grup, Anda dapat menyiapkan data lake untuk setiap departemen (misalnya, retail, penjualan, keuangan).

Zona

Zona adalah subdomain dalam data lake, yang berguna untuk mengategorikan data berdasarkan hal berikut:

  • Tahap: misalnya, pendaratan, mentah, analisis data yang dikurasi, dan ilmu data yang dikurasi
  • Penggunaan: misalnya, kontrak data
  • Batasan: misalnya, kontrol keamanan dan tingkat akses pengguna

Zona terdiri dari dua jenis:

  • Zona mentah: berisi data dalam format mentah dan tidak perlu menjalani pemeriksaan jenis yang ketat.

  • Zona kurasi: berisi data yang sudah dibersihkan, diformat, dan siap untuk dianalisis. Data berbentuk kolom, dipartisi Hive, dan disimpan dalam file Parquet, Avro, Orc, atau tabel BigQuery. Data menjalani pemeriksaan jenis, misalnya, untuk melarang penggunaan file CSV karena tidak berfungsi dengan baik untuk akses SQL.

Aset

Aset dipetakan ke data yang disimpan di Cloud Storage atau BigQuery. Anda dapat memetakan data yang disimpan di project Google Cloud terpisah sebagai aset ke dalam satu zona.

Entri

Entitas merepresentasikan metadata untuk data terstruktur dan semi-terstruktur (misalnya, tabel), dan data tidak terstruktur (misalnya, kumpulan file).

Langkah berikutnya