Mengamankan data lake

Dokumen ini menjelaskan cara mengamankan dan mengelola akses ke data lake Dataplex.

Model keamanan Dataplex memungkinkan Anda mengelola izin pengguna untuk tugas berikut:

  • Mengelola data lake (membuat dan melampirkan aset, zona, dan data lake tambahan)
  • Mengakses data yang terhubung ke data lake melalui aset pemetaan (misalnya, resource Google Cloud, seperti bucket Cloud Storage dan set data BigQuery)
  • Mengakses metadata tentang data yang terhubung ke data lake

Administrator untuk data lake mengontrol akses ke resource Dataplex, seperti data lake, zona, dan aset dengan memberikan peran dasar dan yang telah ditentukan sebelumnya.

Peran dasar

Peran Deskripsi
Dataplex Viewer
(roles/dataplex.viewer)
Kemampuan untuk melihat (tetapi tidak mengedit) data lake serta zona dan aset yang dikonfigurasinya.
Dataplex Editor
(roles/dataplex.editor)
Kemampuan untuk mengedit danau. Dapat membuat dan mengonfigurasi data lake, zona, aset, dan tugas.
Dataplex Administrator
(roles/dataplex.administrator)
Kemampuan untuk mengelola sepenuhnya sebuah lake.
Developer Dataplex
(roles/dataplex.developer)
Kemampuan untuk menjalankan beban kerja analisis data di data lake. *
* Untuk membuat kueri pada tabel BigQuery, Anda memerlukan izin untuk menjalankan tugas BigQuery. Tetapkan izin ini di project yang ingin Anda atribusikan atau tagihkan untuk pembelanjaan komputasi tugas. Untuk mengetahui informasi selengkapnya, lihat Peran dan izin bawaan BigQuery.
Untuk menjalankan tugas Spark, buat cluster Dataproc dan kirimkan tugas Dataproc di project tempat Anda ingin komputasi diatribusikan.

Peran yang telah ditetapkan

Google Cloud mengelola peran bawaan yang memberikan akses terperinci untuk Dataplex.

Peran metadata

Peran metadata memiliki kemampuan untuk melihat metadata, seperti skema tabel.

Peran Deskripsi
Dataplex Metadata Writer
(roles/dataplex.metadataWriter)
Kemampuan untuk memperbarui metadata resource tertentu.
Dataplex Metadata Reader
(roles/dataplex.metadataReader)
Kemampuan untuk membaca metadata (misalnya, untuk membuat kueri tabel).

Peran data

Memberikan peran data kepada akun utama akan memberinya kemampuan untuk membaca atau menulis data di resource pokok yang ditunjuk oleh aset data lake.

Dataplex memetakan perannya ke peran data untuk setiap resource penyimpanan yang mendasarinya, seperti Cloud Storage dan BigQuery).

Dataplex menerjemahkan dan menyebarkan peran data Dataplex ke resource penyimpanan pokok, menetapkan peran yang benar untuk setiap resource penyimpanan. Anda dapat memberikan satu peran data Dataplex di hierarki data lake (misalnya, data lake), dan Dataplex mempertahankan akses yang ditentukan ke data di semua resource yang terhubung ke data lake tersebut (misalnya, bucket Cloud Storage dan set data BigQuery dirujuk oleh aset di zona yang mendasarinya).

Misalnya, memberikan peran dataplex.dataWriter kepada akun utama untuk data lake akan memberi akun utama akses tulis ke semua data dalam data lake, zona dan aset pokoknya. Peran akses data yang diberikan pada tingkat yang lebih rendah (zona) diwariskan dalam hierarki lake ke aset pokoknya.

Peran Deskripsi
Pembaca Data Dataplex
(roles/dataplex.dataReader)
Kemampuan untuk membaca data dari penyimpanan yang dilampirkan ke aset, termasuk bucket penyimpanan dan set data BigQuery (serta kontennya). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Kemampuan untuk menulis ke resource pokok yang ditunjuk oleh aset. *
Dataplex Data Owner
(roles/dataplex.dataOwner)
Memberikan peran Pemilik ke resource pokok, termasuk kemampuan untuk mengelola resource turunan. Misalnya, sebagai Pemilik Data set data BigQuery, Anda dapat mengelola tabel yang mendasarinya.

Mengamankan data lake

Anda dapat mengamankan dan mengelola akses ke data lake dan data yang terkait dengannya. Di konsol Google Cloud, gunakan salah satu tampilan berikut:

  • Tampilan Kelola Dataplex di tab Izin
  • Tampilan Secure Dataplex

Menggunakan tampilan Kelola

Tab Permissions memungkinkan Anda mengelola semua izin di resource danau, serta menampilkan tampilan semua izin yang tidak difilter, termasuk yang diwarisi.

Untuk mengamankan danau Anda, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka Dataplex.

    Buka Dataplex

  2. Buka tampilan Kelola.

  3. Klik nama danau yang Anda buat.

  4. Klik tab Izin.

  5. Klik tab Lihat menurut Peran.

  6. Klik Tambahkan untuk menambahkan peran baru. Tambahkan peran Dataplex Data Reader, Data Writer, dan Data Owner.

  7. Pastikan peran Dataplex Data Reader, Data Writer, dan Data Owner muncul.

Menggunakan tampilan Aman

Tampilan Secure Dataplex di konsol Google Cloud menyediakan hal berikut:

  • Tampilan yang dapat difilter hanya untuk peran Dataplex yang berfokus pada resource tertentu
  • Memisahkan peran data dari peran resource data lake
Contoh izin data yang tidak diwarisi dari resource danau yang lebih tinggi
Gambar 1: Dalam contoh data lake ini, kedua akun utama memiliki izin data pada aset yang disebut data Cloud Storage (data GCS). Izin ini tidak diwarisi dari resource lake yang lebih tinggi.


Contoh izin yang tidak diwarisi dari resource danau yang lebih tinggi
Gambar 2: Contoh ini menunjukkan:
  1. Akun layanan yang mewarisi peran Administrator Dataplex dari project.
  2. Akun utama (alamat email) yang mewarisi peran Editor dan Viewer Dataplex dari project. Ini adalah peran yang berlaku untuk semua resource.
  3. Akun utama (alamat email) yang mewarisi peran Dataplex Administrator dari project.

Manajemen kebijakan

Setelah Anda menentukan kebijakan keamanan, Dataplex akan menerapkan izin ke kebijakan IAM resource terkelola.

Kebijakan keamanan yang dikonfigurasi di tingkat lake akan diterapkan ke semua resource yang dikelola dalam lake tersebut. Dataplex memberikan status dan visibilitas penyebaran ke dalam penyebaran skala besar ini di tab Kelola > Izin Dataplex. Kebijakan ini terus memantau resource terkelola untuk menemukan perubahan apa pun pada kebijakan IAM di luar Dataplex.

Pengguna yang sudah memiliki izin pada resource akan terus memilikinya setelah resource dilampirkan ke data lake Dataplex. Demikian pula, binding peran non-Dataplex yang dibuat atau diperbarui setelah melampirkan resource ke Dataplex akan tetap sama.

Menetapkan kebijakan tingkat kolom, tingkat baris, dan tingkat tabel

Aset bucket Cloud Storage memiliki tabel eksternal BigQuery terkait yang dilampirkan.

Anda dapat mengupgrade aset bucket Cloud Storage, yang berarti Dataplex akan menghapus tabel eksternal yang terpasang dan memasang tabel BigLake.

Anda dapat menggunakan tabel BigLake, bukan tabel eksternal, untuk memberi Anda kontrol akses yang lebih terperinci, termasuk kontrol tingkat baris, kontrol tingkat kolom, dan penyamaran data kolom.

Keamanan metadata

Metadata terutama mengacu pada informasi skema yang terkait dengan data pengguna yang ada di resource yang dikelola oleh data lake.

Penemuan Dataplex memeriksa data dalam resource terkelola dan mengekstrak informasi skema tabel. Tabel ini dipublikasikan ke sistem BigQuery, Dataproc Metastore, dan Data Catalog.

BigQuery

Setiap tabel yang ditemukan memiliki tabel terkait yang terdaftar di BigQuery. Untuk setiap zona, ada set data BigQuery terkait yang digunakan untuk mendaftarkan semua tabel eksternal yang terkait dengan tabel yang ditemukan di zona data tersebut.

Tabel yang dihosting Cloud Storage yang ditemukan didaftarkan dalam set data yang dibuat untuk zona.

Dataproc Metastore

Database dan tabel tersedia di Dataproc Metastore yang terkait dengan instance data lake Dataplex. Setiap zona data memiliki database terkait, dan setiap aset dapat memiliki satu atau beberapa tabel terkait.

Data di layanan Dataproc Metastore diamankan dengan mengonfigurasi jaringan VPC-SC Anda. Instance Dataproc Metastore disediakan ke Dataplex selama pembuatan data lake, yang telah menjadikannya resource yang dikelola pengguna.

Data Catalog

Setiap tabel yang ditemukan memiliki entri terkait di Data Catalog, untuk mengaktifkan penelusuran dan penemuan.

Data Catalog memerlukan nama kebijakan IAM selama pembuatan entri. Oleh karena itu, Dataplex menyediakan nama kebijakan IAM dari resource aset Dataplex yang harus dikaitkan dengan entri. Akibatnya, izin pada entri Dataplex didorong oleh izin pada resource aset. Berikan peran Dataplex Metadata Reader (roles/dataplex.metadataReader) dan peran Dataplex Metadata Writer (roles/dataplex.metadataWriter) pada resource aset.

Apa langkah selanjutnya?