Dokumen ini menjelaskan apa yang dimaksud dengan zona Dataplex dan cara menambahkannya ke data lake Dataplex.
Ringkasan
Zona Dataplex adalah entitas bernama dalam Dataplex lake. Data tersebut adalah pengelompokan logis dari data tidak terstruktur, semi-terstruktur, dan terstruktur, yang terdiri dari beberapa aset, seperti bucket Cloud Storage, set data BigQuery, dan tabel BigQuery.
Danau dapat mencakup satu atau beberapa zona. Meskipun zona hanya dapat menjadi bagian dari satu danau, zona tersebut mungkin berisi aset yang mengarah ke resource yang merupakan bagian dari project di luar project induknya.
Anda dapat memilih konfigurasi untuk zona di Dataplex. Ada dua jenis zona yang dapat Anda pilih: mentah dan pilihan.
Zona mentah
Zona mentah menyimpan data terstruktur, data semiterstruktur seperti file CSV dan file JSON, serta data tidak terstruktur dalam format apa pun dari sumber eksternal. Zona mentah berguna untuk melakukan staging data mentah sebelum melakukan transformasi apa pun. Data dapat disimpan di bucket Cloud Storage atau set data BigQuery.
Zona mentah mendukung tingkat perincian bucket atau set data untuk izin baca dan tulis. Tidak ada batasan pada jenis data yang dapat disimpan di zona mentah.
Zona yang dikurasi
Zona kurasi menyimpan data terstruktur. Data dapat disimpan di bucket Cloud Storage atau set data BigQuery.
Format yang didukung untuk bucket Cloud Storage mencakup Parquet, Avro, dan ORC. Zona yang diseleksi berguna untuk melakukan staging data yang memerlukan pemrosesan sebelum digunakan untuk analisis, atau untuk menayangkan data yang siap dianalisis.
Untuk tabel BigQuery, Anda harus memiliki skema yang ditentukan dengan baik dan partisi bergaya Hive. Saat Anda memberikan skema untuk tabel tertentu di zona yang diseleksi, data harus sesuai dengan skema yang ditentukan untuk tabel tanpa drift skema. Artinya, data harus kompatibel dengan skema yang ditentukan untuk tabel, dan partisi baru tidak boleh memiliki skema yang bertentangan dengan skema tabel.
Zona yang diseleksi mendukung tingkat perincian bucket Cloud Storage atau set data BigQuery untuk izin baca dan tulis.
Sebelum memulai
Sebelum dapat menambahkan zona ke data lake, Anda harus memiliki data lake. Buat data lake, jika Anda belum melakukannya.
Sebagian besar perintah gcloud lake
memerlukan lokasi. Anda dapat menentukan lokasi dengan
menetapkan parameter --location
.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan guna menambahkan zona,
minta administrator untuk memberi Anda
peran IAM Administrator Dataplex (roles/dataplex.admin
) di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin dataplex.lakes.create
, yang diperlukan untuk menambahkan zona.
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Menambahkan zona
Anda dapat menambahkan beberapa zona ke data lake. Anda dapat menambahkan satu zona dalam satu waktu, tetapi tetap menggunakan data lake saat zona sedang dibuat.
Untuk menambahkan zona ke danau yang ada, ikuti langkah-langkah berikut:
Konsol
Di konsol Google Cloud, buka Dataplex.
Buka tampilan Kelola.
Di tampilan Manage, klik nama data lake tempat Anda ingin menambahkan zona.
Di tab Zones, klik
Add zone.Masukkan Nama tampilan untuk zona Anda.
Klik menu Jenis. Pilih Zona Mentah atau Zona Terpilih. Pelajari jenis zona yang didukung lebih lanjut.
Opsional: Masukkan deskripsi.
Di bagian Lokasi data, pilih Regional atau Multi-regional. Pilihan Anda tidak dapat diubah nanti. Data satu region dan multi-region tidak dapat digabungkan di zona yang sama.
Opsional: Aktifkan penemuan metadata, yang memungkinkan Dataplex memindai dan mengekstrak metadata secara otomatis dari data di zona Anda:
Klik Setelan penemuan.
Pastikan Aktifkan penemuan metadata dipilih.
Opsional: Di bagian Sertakan pola, cantumkan file yang akan disertakan dalam pemindaian penemuan.
Opsional: Di bagian Kecualikan pola, cantumkan file yang akan dikecualikan dalam pemindaian penemuan. Jika Anda memasukkan pola sertakan dan kecualikan, pola pengecualian akan diterapkan terlebih dahulu.
Klik menu Repeats, lalu pilih frekuensi. Jika Anda memilih Kustom, di kolom Jadwal, masukkan jadwal tugas. Jika tidak, nilai Schedule akan otomatis diisi untuk Anda.
Klik menu Zona Waktu, lalu pilih zona waktu.
Klik Create.
REST
Untuk menambahkan zona, gunakan metode lakes.zones.create.
Mungkin perlu waktu beberapa menit untuk membuat zona.
Jika pembuatan zona berhasil, zona akan otomatis memasuki status aktif. Jika gagal, danau akan di-roll back ke status sebelumnya.
Setelah membuat zona, Anda dapat memetakan data yang disimpan di bucket Cloud Storage dan set data BigQuery sebagai aset ke zona Anda. Untuk informasi selengkapnya, lihat Menambahkan aset.
Langkah selanjutnya
- Pelajari cara mengelola bucket.
- Pelajari cara membuat danau.
- Pelajari Cloud Audit Logs lebih lanjut.