Anda dapat menggunakan Dataplex untuk membangun arsitektur mesh data. Panduan ini menunjukkan cara menggunakan fitur Dataplex, seperti data lake, zona, dan aset, untuk membuat mesh data.
Mesh data adalah pendekatan organisasi dan teknis yang mendesentralisasi kepemilikan data di antara pemilik data domain. Pemilik ini menyediakan data sebagai produk dengan cara standar dan memfasilitasi komunikasi di antara berbagai bagian organisasi untuk mendistribusikan set data di berbagai lokasi. Pelajari lebih lanjut arsitektur mesh data.
Tujuan
Dalam panduan ini, Anda akan menggunakan entitas Dataplex untuk membangun arsitektur mesh data:
- Buat data lake Dataplex yang berfungsi sebagai domain untuk mesh data Anda.
- Tambahkan zona ke data lake Anda yang mewakili setiap tim dalam setiap domain dan berikan kontrak data terkelola.
- Lampirkan aset yang dipetakan ke data yang disimpan di Cloud Storage.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloud yang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.
Sebelum memulai
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Aktifkan Dataplex API.
Membuat bucket Cloud Storage
Anda memerlukan bucket Cloud Storage untuk menyimpan aset data mesh data Anda.
Untuk membuat bucket Cloud Storage, ikuti petunjuk di bagian membuat bucket Cloud Storage. Saat melakukannya, perhatikan hal berikut:
- Beri nama bucket Anda.
- Untuk Location type, pilih Region, lalu pilih us-central1 (Iowa) dari menu.
Membuat domain
Di konsol Google Cloud, buka halaman Dataplex.
Buka tampilan Kelola.
Klik Create untuk membuat data lake baru, yang berfungsi sebagai data mesh Anda.
Di kolom Nama tampilan, masukkan
My data mesh
.Untuk Region, pilih
us-central1
.Pilih layanan Dataproc Metastore yang Anda buat dan konfigurasi sebelumnya sebagai metastore terkait.
Klik Create.
Membuat zona di data lake
Setelah membuat domain dengan membuat data lake Dataplex, Anda dapat menghosting kontrak data terkelola dan setiap tim dalam domain menggunakan zona. Terdapat dua jenis zona:
Zona mentah biasanya digunakan untuk menyimpan data dalam format apa pun dari sumber eksternal di Cloud Storage. Zona mentah berguna untuk data yang memerlukan pemrosesan lebih lanjut sebelum siap digunakan.
Zona yang diseleksi digunakan untuk data terstruktur di Cloud Storage yang harus sesuai dengan format file tertentu, dan diatur dalam tata letak direktori yang kompatibel dengan hive. Data tersebut paling berguna untuk data yang siap digunakan dan dianalisis.
Setiap domain (misalnya, sales
, customers
, products
) harus memiliki setidaknya zona mentah dan zona yang diseleksi.
Zona tambahan digunakan untuk mengelola kontrak data antar-tim atau untuk memberikan perincian yang lebih terperinci bagi tim dalam domain tertentu. Misalnya, pengelolaan inventaris dalam domain produk. Pemilik data dapat mengelola data dalam domain mereka dan mengaksesnya.
Di konsol Google Cloud, buka tampilan Kelola Dataplex.
Klik nama danau (
My data mesh
) yang ingin Anda tambahi zona.Di tab Zones, klik
Add Zone.Di kolom Nama tampilan, masukkan
My sub domain
. Dataplex otomatis membuat ID untuk zona Anda.Untuk Type, pilih Raw zone.
Klik Create.
Melampirkan aset ke zona
Lampirkan aset data ke zona Anda. Aset data, resource penyimpanan yang berisi data Anda, dapat berupa bucket Cloud Storage atau set data BigQuery. Ini adalah langkah terakhir dalam membuat arsitektur mesh data Anda.
Di tampilan Manage Dataplex, klik data lake yang Anda buat (
My data mesh
).Di tab Zones, klik zona (
My sub domain
) tempat aset akan ditambahkan.Di tab Assets, klik
Add assetsKlik Tambahkan Aset.
Untuk Type, pilih Cloud Storage bucket.
Di kolom Nama tampilan , masukkan
Data mesh asset
. Dataplex akan otomatis membuat ID aset untuk Anda.Di kolom Bucket, klik Browse.
- Pilih bucket Anda dari daftar.
- Klik Pilih.
Klik Selesai, lalu klik Lanjutkan.
Klik Lanjutkan untuk menerima Setelan lanjutan default.
Klik Kirim.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus project
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Menghapus arsitektur mesh data
Di konsol Google Cloud, buka tampilan Kelola Dataplex.
Untuk danau yang ingin dihapus, klik
Lihat lainnya, lalu klik Hapus.Untuk mengonfirmasi tindakan, masukkan
delete
, lalu klik Delete lake.
Langkah selanjutnya
- Pelajari tugas pemrosesan data
- Pelajari cara menemukan data
- Pelajari cara menggunakan tugas kualitas data