Glosarium Dataplex

Dataplex menyatukan perjalanan menyeluruh untuk analisis dengan pengelolaan data dan layanan terpusat. Glosarium ini diharapkan dapat mendefinisikan istilah yang digunakan dalam sistem pengelolaan.

Daftar glosarium

Tindakan

Masalah yang dapat ditindaklanjuti pengguna. Contoh:

  • Penerusan kebijakan keamanan gagal karena grup keamanan yang diberikan oleh pengguna tidak ada.
  • Resource terkelola tidak dapat diakses oleh Dataplex.
  • Tugas penemuan gagal karena berbagai alasan (yang dapat diatasi oleh pengguna). Hal ini dapat disebabkan oleh masalah data pengguna, seperti format data yang tidak valid, skema yang tidak kompatibel di seluruh partisi, atau penamaan partisi yang tidak konsisten, dll.

Tindakan dibuat secara otomatis oleh Dataplex. Beberapa tindakan otomatis dihapus oleh Dataplex saat masalah yang mendasarinya terdeteksi telah diselesaikan oleh pengguna. Tindakan lainnya harus ditandai secara eksplisit sebagai terselesaikan oleh pengguna.

Misalnya, setelah tindakan penemuan ditangani oleh pengguna, mereka harus memanggil Dataplex API untuk menandai tindakan tersebut sebagai terselesaikan sehingga sistem penemuan dapat menghentikan jeda dan menjadwalkan penemuan langsung.

Aset

Aset mewakili satu resource terkelola (bucket/set data) di Dataplex. Ini juga merupakan placeholder untuk berbagai konfigurasi untuk subsistem dan resource terkelola (penemuan, administrasi kebijakan, dll.) yang bertindak di dalamnya.

BigQuery

BigQuery adalah data warehouse analisis Google Cloud yang terkelola sepenuhnya, berskala petabyte, dan hemat biaya, yang memungkinkan Anda menjalankan analisis pada sejumlah besar data secara hampir real time.

Dengan BigQuery, tidak ada infrastruktur yang harus disiapkan atau dikelola, sehingga Anda dapat berfokus menemukan insight yang bermakna menggunakan SQL standar dan memanfaatkan model harga yang fleksibel dengan berbagai opsi on demand dan tarif tetap. Pelajari lebih lanjut

Data

Data pengguna di dalam resource terkelola. Misalnya, objek Cloud Storage di bucket atau baris tabel BigQuery dalam set data. Dalam kasus Cloud Storage, objek adalah unit data pengguna yang tidak dapat diubah. Dalam kasus set data BigQuery, baris di dalam tabel turunan dianggap sebagai data pengguna.

Data Catalog

Data Catalog adalah layanan pengelolaan metadata yang skalabel dan terkelola sepenuhnya, yang memungkinkan organisasi menemukan, mengelola, dan memahami semua data mereka di Google Cloud dengan cepat. Pelajari lebih lanjut

Akun Layanan Dataplex

Merepresentasikan agen layanan, yaitu jenis akun layanan yang melakukan berbagai tindakan atas nama Dataplex. Misalnya, sistem penemuan dan sistem pengelolaan kebijakan mengandalkan agen layanan.

Berbagai izin IAM pada resource dan project yang dikelola pengguna diperlukan oleh agen layanan untuk melakukan tugasnya. Beberapa peran otomatis diberikan sebagai bagian dari pengaktifan Dataplex pada project. Yang lainnya (misalnya, melampirkan bucket dari project lain) harus diberikan secara manual oleh pengguna.

Dataproc Metastore

Dataproc Metastore adalah layanan metastore native OSS yang terkelola sepenuhnya, sangat tersedia, dengan penskalaan otomatis, dan autohealing yang sangat menyederhanakan pengelolaan metadata teknis. Layanan Dataproc Metastore didasarkan pada metastore Apache Hive dan berfungsi sebagai komponen penting untuk data lake perusahaan. Pelajari lebih lanjut

Discovery

Subsistem yang bertanggung jawab untuk meng-crawl data pengguna dan mengekstrak metadata.

Grup entri

Grup entri berisi entri. Grup entri adalah kumpulan entri yang terkait secara logis bersama dengan kebijakan Identity and Access Management yang menentukan pengguna yang dapat membuat, mengedit, dan melihat entri dalam grup entri.

Kumpulan file

Set file adalah entri dalam grup entri yang dibuat pengguna. Set file ditentukan oleh satu atau beberapa pola file yang menentukan kumpulan satu atau beberapa file Cloud Storage. Entri set file dapat digunakan untuk mengatur dan menemukan file Cloud Storage, serta untuk menambahkan metadata ke file tersebut.

Danau

Data lake adalah repositori terpusat untuk mengelola data perusahaan di seluruh organisasi yang didistribusikan di banyak project cloud, dan disimpan di berbagai layanan penyimpanan seperti Cloud Storage dan BigQuery. Resource yang dilampirkan ke danau disebut sebagai resource terkelola. Data dalam resource terkelola ini dapat berupa data terstruktur atau tidak terstruktur.

Data lake menyediakan alat bagi admin data untuk mengatur, mengamankan, dan mengelola data mereka dalam skala besar, serta memberikan pengalaman terintegrasi kepada data scientist dan data engineer untuk menelusuri, menemukan, menganalisis, dan mengubah data serta metadata terkait dengan mudah.

Log

Log Stackdriver yang disediakan oleh Dataplex yang dapat digunakan pengguna untuk mendapatkan insight tentang cara kerja data lake mereka, melakukan proses debug, menyetel pemberitahuan, dll. Misalnya, log yang:

  • Tindakan platform yang perlu diperhatikan
  • Perubahan metadata platform
  • Menampilkan ringkasan tugas yang dijalankan
  • Tindakan tugas penemuan platform (file dibaca, ditulis, dll.)

Metadata

Informasi yang diekstrak dari data pengguna oleh sistem penemuan. Misalnya, nama bucket Cloud Storage, properti set data BigQuery, skema tabel BigQuery turunan, dll.

Ada dua jenis metadata:

  • Metadata teknis seperti skema
  • Metadata operasional seperti statistik data (total jumlah dan ukuran objek di Cloud Storage)

Metrik

Metrik mewakili metrik Stackdriver yang diekspos sebagai API publik oleh Dataplex, yang kemudian dapat digunakan oleh pengguna untuk menyiapkan pemberitahuan Stackdriver atau memvisualisasikan melalui grafik. Lihat Cloud Monitoring Dataplex untuk mengetahui informasi selengkapnya tentang metrik Dataplex tertentu.

Penerapan

Mengubah konfigurasi resource tertentu akan memulai proses latar belakang asinkron untuk merekonsiliasi status resource terkelola dengan yang ditentukan pengguna. Misalnya, konfigurasi keamanan yang ditentukan di data lake perlu di-propagasi ke kebijakan IAM yang berpotensi berisi ribuan resource terkelola (bucket/set data) di bawah data lake tersebut. Hal ini tidak langsung terjadi saat API dipanggil. Proses ini disebut propagasi.

Status penyebaran akan tercermin oleh kolom status yang relevan dan error akan ditampilkan melalui tindakan.

Resource

Resource Dataplex

Resource Google Cloud yang ditentukan oleh layanan Dataplex, seperti data lake, zona data, dan aset.

Resource Turunan

Turunan dari resource terkelola. Misalnya, objek Cloud Storage atau tabel/rutinitas/model BigQuery. Administrasi kebijakan resource turunan tidak dilakukan langsung melalui Dataplex, tetapi kebijakan efektifnya dipengaruhi oleh kebijakan yang diwarisi dari induk.

Resource Terkelola

Resource Google Cloud yang dapat dikelola dan ditemukan melalui Dataplex. Saat ini, bucket Cloud Storage dan set data BigQuery. Resource yang dikelola dapat berasal dari project yang berbeda dengan data set, tetapi harus milik organisasi yang sama.

Spek

Spesifikasi yang diberikan pengguna. Contoh:

  • Spesifikasi keamanan menentukan konfigurasi keamanan untuk danau/zona/aset.
  • Spesifikasi resource untuk aset menentukan pointer ke resource terkelola (bucket/set data).
  • Spesifikasi penemuan menentukan konfigurasi penemuan untuk aset.

Status

Merepresentasikan status spesifikasi yang diberikan pengguna. Misalnya:

  • Status keamanan menunjukkan status penyebaran kebijakan keamanan (seperti spesifikasi keamanan) ke bucket/set data pokok.
  • Status resource mewakili status resource terkelola (baik / tidak ditemukan/izin ditolak, dll.) yang ditentukan dalam spesifikasi resource.
  • Status penemuan mewakili status tugas penemuan, yang didorong oleh spesifikasi penemuan.

Tabel

Tabel logis (baris & kolom) dengan skema yang ditentukan dengan baik (nama & jenis kolom) yang didukung oleh data (atau subkumpulannya) dalam resource terkelola. Misalnya, tabel dapat didukung oleh subset objek Cloud Storage di bucket Cloud Storage atau tabel BigQuery dalam set data BigQuery.

  • Tabel sebagai konsep kelas satu ditampilkan di Dataproc Metastore, Data Catalog, dan BigQuery (pendaftaran metadata). Tabel tidak akan ditampilkan di downstream jika penemuan atau publikasi ke sistem downstream tidak diaktifkan. Misalnya, tabel yang ditemukan dari data pengguna di Cloud Storage tidak akan ditampilkan ke BigQuery jika publikasi ke BigQuery tidak diaktifkan.
  • Ditemukan oleh sistem penemuan. Tidak dapat dibuat oleh pengguna.
  • Nama tabel dibuat agar singkat dan bermakna sehingga mudah dibuat kueri. Nama tersebut berisi tiga bagian, [Prefix_]table root path[_Sequence number].

Zona

Penampung logis dari satu atau beberapa resource data yang dibuat dalam Danau. Zona data dapat digunakan untuk membuat model unit bisnis dalam organisasi (misalnya, penjualan vs. operasi). Zona data juga membuat model perjalanan data atau kesiapan untuk digunakan.

Zona Mentah

Zona data yang berisi data yang memerlukan pemrosesan lebih lanjut sebelum dianggap umumnya siap untuk beban kerja analisis dan konsumsi.

Zona yang Dikurasi

Zona data yang berisi data yang dianggap siap untuk konsumsi dan beban kerja analisis yang lebih luas. Data terstruktur yang diseleksi dan disimpan di Cloud Storage harus sesuai dengan format file tertentu (Parquet, Avro, dan ORC) serta diatur dalam tata letak direktori yang kompatibel dengan hive.

Apa langkah selanjutnya?