Glosarium Dataplex

Dataplex menyatukan perjalanan end-to-end untuk analisis dengan pengelolaan data dan layanan terpusat. Glosarium ini berharap untuk mendefinisikan istilah yang digunakan dalam sistem manajemen.

Daftar glosarium

Tindakan

Masalah yang dapat ditindaklanjuti pengguna. Contoh:

  • Penerapan kebijakan keamanan gagal karena tidak ada grup keamanan yang disediakan oleh pengguna.
  • Resource terkelola tidak dapat diakses oleh Dataplex.
  • Tugas penemuan gagal karena berbagai alasan (yang dapat diperbaiki oleh pengguna). Hal ini dapat disebabkan oleh masalah data pengguna, seperti format data yang tidak valid, skema yang tidak kompatibel di seluruh partisi, atau penamaan partisi yang tidak konsisten, dll.

Tindakan dibuat secara otomatis oleh Dataplex. Beberapa tindakan akan otomatis dihapus oleh Dataplex saat masalah yang mendasarinya terdeteksi telah diselesaikan oleh pengguna. Tindakan lainnya harus secara eksplisit ditandai sebagai terselesaikan oleh pengguna.

Misalnya, setelah tindakan penemuan ditangani oleh pengguna, pengguna harus memanggil Dataplex API untuk menandai tindakan tersebut sebagai terselesaikan sehingga sistem penemuan dapat membatalkan jeda dan menjadwalkan penemuan langsung.

Asset

Aset mewakili satu resource terkelola (bucket/set data) di Dataplex. Objek ini juga merupakan placeholder untuk berbagai konfigurasi untuk resource dan subsistem terkelola (penemuan, administrasi kebijakan, dll.) yang mengerjakannya.

BigQuery

BigQuery adalah data warehouse analisis dari Google Cloud yang terkelola sepenuhnya, berskala petabyte, dan hemat biaya yang memungkinkan Anda menjalankan analisis atas sejumlah besar data hampir secara real time.

Dengan BigQuery, tidak ada infrastruktur yang perlu disiapkan atau dikelola, sehingga Anda dapat fokus menemukan insight berharga menggunakan SQL standar dan memanfaatkan model harga yang fleksibel di berbagai opsi on-demand dan tarif tetap. Pelajari lebih lanjut

Data

Data pengguna di dalam resource terkelola. Misalnya, objek Cloud Storage di bucket atau baris tabel BigQuery dalam set data. Dalam kasus Cloud Storage, objek adalah unit yang tidak dapat diubah dari data pengguna. Dalam kasus set data BigQuery, baris di dalam tabel turunan dianggap sebagai data pengguna.

Data Catalog

Data Catalog adalah layanan pengelolaan metadata yang skalabel dan terkelola sepenuhnya, yang memungkinkan organisasi untuk menemukan, mengelola, dan memahami semua data mereka yang ada di Google Cloud dengan cepat. Pelajari lebih lanjut

Akun Layanan Dataplex

Mewakili akun layanan Google Cloud yang dikelola secara internal yang melakukan berbagai tindakan atas nama Dataplex. Misalnya, kredensial akun layanan digunakan oleh sistem penemuan, sistem administrasi kebijakan, dll.

Akun layanan memerlukan berbagai izin IAM pada resource dan project yang dikelola pengguna untuk menjalankan tugasnya. Beberapa domain diberikan secara otomatis sebagai bagian dari pengaktifan Dataplex pada project. Lainnya (misalnya, melampirkan bucket dari project berbeda) harus diberikan secara manual oleh pengguna.

Dataproc Metastore

Dataproc Metastore adalah layanan metastore berbasis OSS yang sangat mudah diakses, sangat tersedia, berskala otomatis, dan autohealing, yang sangat menyederhanakan pengelolaan metadata teknis. Layanan Dataproc Metastore didasarkan pada metastore Apache Hive dan berfungsi sebagai komponen penting untuk data lake perusahaan. Pelajari lebih lanjut

Penemuan

Subsistem yang bertanggung jawab untuk meng-crawl data pengguna dan mengekstrak metadata.

Grup entri

Grup entri berisi entri. Grup entri adalah kumpulan entri yang terkait secara logis bersama dengan kebijakan Identity and Access Management yang menentukan pengguna yang dapat membuat, mengedit, dan melihat entri dalam grup entri.

Kumpulan file

Kumpulan file adalah entri dalam grup entri yang dibuat pengguna. Kumpulan file ditentukan oleh satu atau beberapa pola file yang menentukan kumpulan berisi satu atau beberapa file Cloud Storage. Entri kumpulan file dapat digunakan untuk mengatur dan menemukan file Cloud Storage, serta menambahkan metadata ke dalamnya.

Danau

Lake adalah repositori terpusat untuk mengelola data perusahaan di seluruh organisasi yang didistribusikan ke banyak project cloud, dan disimpan di berbagai layanan penyimpanan seperti Cloud Storage dan BigQuery. Resource yang terhubung ke danau disebut sebagai resource terkelola. Data dalam resource terkelola ini dapat terstruktur atau tidak terstruktur.

Lake memberi admin data alat untuk mengatur, mengamankan, dan mengelola data mereka dalam skala besar, serta memberi data scientist dan data engineer pengalaman terintegrasi untuk menelusuri, menemukan, menganalisis, dan mengubah data serta metadata terkait dengan mudah.

Log

Log Stackdriver disediakan oleh Dataplex yang dapat digunakan pengguna untuk mendapatkan insight tentang cara kerja lake mereka, melakukan proses debug, menyetel pemberitahuan, dll. Misalnya, membuat log yang:

  • Tampilkan tindakan yang perlu diperhatikan
  • Perubahan metadata platform
  • Menampilkan ringkasan operasi tugas
  • Tindakan tugas penemuan platform (file yang dibaca, ditulis, dll.)

Metadata

Informasi yang diekstrak dari data pengguna oleh sistem penemuan. Misalnya, nama bucket Cloud Storage, properti set data BigQuery, skema tabel BigQuery turunan, dll.

Ada dua jenis {i>metadata<i}:

  • Metadata teknis seperti skema
  • Metadata operasional seperti statistik data (total jumlah dan ukuran objek di Cloud Storage)

Metrik

Metrik merepresentasikan metrik Stackdriver yang diekspos sebagai API publik oleh Dataplex, yang kemudian dapat digunakan oleh pengguna untuk menyiapkan pemberitahuan Stackdriver atau memvisualisasikannya melalui grafik. Lihat Cloud Monitoring Dataplex untuk mengetahui informasi selengkapnya tentang metrik Dataplex tertentu.

Penerapan

Mengubah konfigurasi resource tertentu akan memulai proses asinkron latar belakang untuk merekonsiliasi status resource terkelola dengan apa yang ditentukan pengguna. Misalnya, konfigurasi keamanan yang ditentukan di lake harus disebarkan ke kebijakan IAM yang berisi potensi ribuan resource terkelola (bucket/set data) di bawah lake tersebut. Hal ini tidak terjadi secara langsung saat API dipanggil. Proses ini disebut sebagai propagasi.

Status penerapan akan tercermin oleh kolom status yang relevan dan error akan ditampilkan melalui tindakan.

Resource

Resource Dataplex

Resource Google Cloud yang ditentukan oleh layanan Dataplex, seperti lake, zona data, dan aset.

Resource Turunan

Turunan dari resource terkelola. Misalnya, objek Cloud Storage atau tabel/rutin/model BigQuery. Administrasi kebijakan resource turunan tidak dilakukan secara langsung melalui Dataplex, tetapi kebijakannya yang efektif dipengaruhi oleh apa yang diwarisi dari induk.

Resource Terkelola

Resource Google Cloud yang dapat dikelola dan ditemukan melalui Dataplex. Saat ini, bucket Cloud Storage dan set data BigQuery. Resource terkelola dapat menjadi milik project yang berbeda dengan lake, tetapi resource tersebut harus milik organisasi yang sama.

Spek

Spesifikasi yang diberikan pengguna. Contoh:

  • Spesifikasi keamanan menentukan konfigurasi keamanan untuk lake/zona/asset.
  • Spesifikasi resource untuk aset menentukan pointer ke resource terkelola (bucket/set data).
  • Spesifikasi Discovery menentukan konfigurasi penemuan untuk aset.

Status

Menampilkan status spesifikasi yang diberikan pengguna. Misalnya:

  • Status keamanan mewakili status penerapan kebijakan keamanan (seperti spesifikasi keamanan) ke bucket/set data pokok.
  • Status resource mewakili status resource terkelola (ok / tidak ditemukan/izin ditolak, dll.) yang ditentukan dalam spesifikasi resource.
  • Status penemuan merepresentasikan status pekerjaan penemuan, yang didorong oleh spesifikasi penemuan.

Tabel

Tabel logis (baris & kolom) dengan skema yang ditentukan dengan baik (nama & jenis kolom) yang didukung oleh data (atau subsetnya) dalam resource terkelola. Misalnya, suatu tabel mungkin didukung oleh subset objek Cloud Storage di bucket Cloud Storage atau tabel BigQuery di set data BigQuery.

  • Tabel sebagai konsep kelas pertama ditampilkan di Dataproc Metastore, Data Catalog, dan BigQuery (pendaftaran metadata). Tabel tidak akan ditampilkan di downstream jika penemuan atau publikasi ke sistem downstream tidak diaktifkan. Misalnya, tabel yang ditemukan dari data pengguna di Cloud Storage tidak akan muncul ke BigQuery jika publikasi ke BigQuery tidak diaktifkan.
  • Ditemukan oleh sistem penemuan. Tidak dapat dibuat oleh pengguna.
  • Nama tabel dibuat agar pendek dan bermakna sehingga mudah dikueri. Nama tersebut terdiri dari tiga bagian, yaitu [Prefix_]table root path[_Sequence number].

Zone

Container logis dari satu atau beberapa resource data yang dibuat dalam Lake. Zona data dapat digunakan untuk membuat model unit bisnis dalam suatu organisasi (misalnya, penjualan vs. operasi). Zona data juga membuat model perjalanan data atau kesiapan untuk pemakaian.

Zona Mentah

Zona data yang berisi data yang memerlukan pemrosesan lebih lanjut sebelum dianggap secara umum siap untuk workload analisis dan pemakaian.

Zona Pilihan

Zona data yang berisi data yang dianggap siap untuk konsumsi dan beban kerja analisis yang lebih luas. Data terstruktur pilihan yang disimpan di Cloud Storage harus sesuai dengan format file tertentu (Parquet, Avro, dan ORC) serta diatur dalam tata letak direktori yang kompatibel dengan hive.

Apa langkah selanjutnya?