Tambahkan zona

Halaman ini memperkenalkan zona dan menjelaskan cara menambahkan zona ke Dataplex lake Anda.

Konsep zona Dataplex

Zona data adalah entity bernama dalam lake Dataplex. Tabel data adalah pengelompokan logis data tidak terstruktur, semi-terstruktur, dan terstruktur, yang terdiri dari beberapa aset, seperti bucket Cloud Storage, set data BigQuery, dan tabel BigQuery.

Sebuah danau dapat mencakup satu atau beberapa zona. Meskipun suatu zona hanya dapat menjadi bagian dari satu danau, zona tersebut dapat berisi aset yang mengarah ke resource yang merupakan bagian dari project di luar project induknya.

Anda dapat memilih konfigurasi untuk zona di Dataplex. Ada dua jenis zona yang dapat Anda pilih: zona mentah dan zona pilihan.

Zona mentah

Zona mentah menyimpan data terstruktur, data semi-terstruktur seperti file CSV dan file JSON, serta data tidak terstruktur dalam format apa pun dari sumber eksternal. Hal ini berguna untuk staging data mentah sebelum melakukan transformasi apa pun. Data dapat disimpan di bucket Cloud Storage atau set data BigQuery.

Zona mentah mendukung perincian tingkat bucket atau tingkat set data untuk izin baca dan tulis. Untuk mengetahui informasi selengkapnya, lihat IAM dan kontrol akses.

Tidak ada pembatasan untuk jenis data yang dapat disimpan di zona mentah.

Zona hasil seleksi

Zona terkurasi menyimpan data terstruktur. Data dapat disimpan di bucket Cloud Storage atau set data BigQuery.

Format yang didukung untuk bucket Cloud Storage mencakup Parquet, Avro, dan ORC. Hal ini berguna untuk staging data yang memerlukan pemrosesan sebelum digunakan untuk analisis, atau untuk menyajikan data yang siap dianalisis.

Untuk tabel BigQuery, Anda harus memiliki skema dan partisi bergaya Hive yang didefinisikan dengan baik. Saat Anda memberikan skema untuk tabel tertentu dalam zona yang diseleksi, data harus sesuai dengan skema yang ditentukan untuk tabel tersebut tanpa penyimpangan skema.

Artinya, data harus kompatibel dengan skema yang ditentukan untuk tabel, dan partisi baru tidak boleh memiliki skema yang bertentangan dengan skema tabel.

Zona pilihan mendukung perincian tingkat bucket Cloud Storage atau tingkat set data BigQuery untuk izin baca dan tulis. Untuk mengetahui informasi selengkapnya, lihat Kontrol akses dengan IAM.

Sebelum memulai

Sebelum dapat menambahkan zona ke danau, Anda harus memiliki danau. Buat lake jika belum melakukannya.

Sebagian besar perintah gcloud lake memerlukan lokasi. Anda dapat menentukan lokasi dengan menetapkan parameter --location.

Kontrol akses

  • Untuk menambahkan zona, Anda harus diberi peran IAM yang berisi izin IAM dataplex.lakes.create. Peran khusus Dataplex roles/dataplex.admin dapat digunakan untuk memberikan izin penambahan.

Untuk mengetahui informasi selengkapnya, lihat Kontrol Akses Dataplex dengan IAM.

Tambahkan zona

Anda dapat membuat dan menambahkan zona baru ke lake yang ada dengan mengeluarkan metode API Dataplex lakes.zones.create atau dengan menambahkan zona di Konsol Google Cloud.

Anda dapat menambahkan beberapa zona ke danau Anda. Anda dapat menambahkan zona satu per satu, tetapi tetap menggunakan lake saat zona tersebut dibuat.

Konsol

  1. Di konsol Google Cloud, buka Dataplex:

    Buka Dataplex

  2. Buka tampilan Manage.

  3. Di tampilan Manage, klik nama danau yang ingin Anda tambahi zona.

  4. Di tab Zones, klik Add zone.

  5. Masukkan Nama tampilan untuk zona Anda.

  6. Klik drop-down Jenis. Pilih Zona Mentah atau Zona Terkurasi. Pelajari lebih lanjut jenis zona yang didukung.

  7. Opsional: Masukkan deskripsi.

  8. Di bagian Lokasi data, pilih Regional atau Multi-regional. Pilihan Anda tidak dapat diubah nanti. Data region tunggal dan multi-region tidak dapat digabungkan di zona yang sama.

  9. Opsional: Aktifkan penemuan metadata, yang memungkinkan Dataplex otomatis memindai dan mengekstrak metadata dari data di zona Anda:

    1. Klik Setelan penemuan.

    2. Pastikan Aktifkan penemuan metadata dipilih.

    3. Opsional: Di bagian Sertakan pola, cantumkan file yang akan disertakan dalam pemindaian penemuan.

    4. Opsional: Di bagian Kecualikan pola, cantumkan file yang akan dikecualikan dalam pemindaian penemuan. Jika Anda memasukkan pola sertakan dan kecualikan, pola pengecualian akan diterapkan terlebih dahulu.

    5. Klik drop-down Ulangi, lalu pilih frekuensi.

    6. Klik drop-down Zona Waktu, lalu pilih zona waktu.

    7. Jika di bagian Ulangi, Anda memilih Kustom, di bagian Jadwal, masukkan jadwal tugas. Jika tidak, nilai Jadwal akan diisi secara otomatis untuk Anda.

  10. Klik Create.

Mungkin perlu waktu beberapa menit untuk membuat zona.

REST

Ikuti petunjuk API untuk menambahkan zona menggunakan APIs Explorer.

Saat pembuatan zona berhasil, zona tersebut otomatis memasuki status aktif. Jika gagal, lake akan di-roll back ke status sebelumnya.

Setelah membuat zona, Anda dapat memetakan data yang disimpan di bucket Cloud Storage dan set data BigQuery sebagai aset di zona Anda.

Apa langkah selanjutnya?