Praktik terbaik untuk Dataplex

Dokumen ini memberikan panduan dan praktik terbaik untuk menggunakan Dataplex.

Memilih project untuk danau Anda

Saat memilih project tempat menghosting data lake, pertimbangkan faktor-faktor berikut:

  • Project harus berada dalam perimeter Kontrol Layanan VPC yang sama dengan data yang dituju untuk berada dalam data lake.

  • Akun layanan data lake memerlukan izin administrator di bucket Cloud Storage atau set data BigQuery. Dataplex membuat tabel eksternal di BigQuery untuk tabel yang ditemukan di Cloud Storage. Dataplex juga menyediakan metadata tabel BigQuery, dan tabel yang ditemukan di bucket Cloud Storage, di Metastore Dataproc. Dataproc Metastore berada dalam project data lake.

Setelan dan batasan Cloud Storage

  • Region: Dataplex mendukung bucket satu region dan multi-region di beberapa region Google Cloud.

  • Kelas penyimpanan: Bucket Cloud Storage dari semua kelas penyimpanan didukung (Standard, Nearline, Coldline, Archive). Biaya pengambilan data tambahan mungkin dikenakan untuk mengakses atau memindai data Nearline, Coldline, atau Archive.

  • ACL Bucket: Dataplex hanya mendukung bucket Cloud Storage dengan kontrol akses seragam. Kontrol akses yang sangat terperinci tidak didukung.

  • Pemohon Membayar: Bucket Cloud Storage dengan fitur Pemohon Membayar yang diaktifkan tidak didukung.

Panduan keamanan dan izin

Dataplex mengharuskan penambahan akun layanan Dataplex sebagai akun layanan administratif di bucket dan set data terkelola.

Dataplex memungkinkan analis mengakses bucket Cloud Storage dan set data BigQuery di banyak project. Untuk mengaktifkan akses ini, Dataplex memerlukan penambahan akun layanan Dataplex dengan kontrol administratif ke project ini.

Untuk Discovery, Dataplex menambahkan akun layanan Dataproc Metastore ke bucket Cloud Storage. Jika memiliki cluster Dataproc Metastore sendiri, Anda mungkin ingin membuat data lake Dataplex menggunakan layanan Dataproc Metastore, yang merupakan opsi saat Anda membuat data lake.

Jika Anda memilih untuk menambahkan bucket Cloud Storage dengan akses mendetail ke data lake, Dataplex akan memberikan akses penuh ke bucket tersebut melalui data lake karena izin Dataplex diterapkan ke semua objek dalam bucket. Jika Anda memerlukan akses terperinci, sebaiknya bagi data di bucket menjadi beberapa bucket.

Langkah selanjutnya