Ringkasan dataplex

Dataplex adalah data fabric yang menyatukan data terdistribusi dan mengotomatiskan pengelolaan serta tata kelola data untuk data tersebut.

Dataplex memungkinkan Anda melakukan hal berikut:

  • Bangun mesh data khusus domain di seluruh data yang disimpan di beberapa project Google Cloud, tanpa perpindahan data apa pun.
  • Atur dan pantau data secara konsisten dengan satu set izin.
  • Temukan dan seleksi metadata di berbagai silo menggunakan kemampuan katalog. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Data Catalog.
  • Buat kueri metadata dengan aman menggunakan BigQuery dan alat open source, seperti SparkSQL, Presto, dan HiveQL.
  • Menjalankan tugas pengelolaan siklus proses data dan kualitas data, termasuk tugas Spark tanpa server.
  • Jelajahi data menggunakan lingkungan Spark serverless yang terkelola sepenuhnya dengan akses mudah ke notebook dan kueri SparkSQL.

Mengapa menggunakan Dataplex?

Perusahaan memiliki data yang didistribusikan di seluruh data lake, data warehouse, dan data mart. Dengan menggunakan Dataplex, Anda dapat melakukan hal berikut:

  • Data Discover
  • Melakukan kurasi data
  • Menyatukan data tanpa pemindahan data apa pun
  • Mengatur data berdasarkan kebutuhan bisnis Anda
  • Mengelola, memantau, dan mengatur data secara terpusat

Dengan Dataplex, Anda dapat menstandarkan dan menyatukan metadata, kebijakan keamanan, tata kelola, klasifikasi, dan pengelolaan siklus proses data di seluruh data yang terdistribusi ini.

gambar

Cara kerja Dataplex

Dataplex mengelola data dengan cara yang tidak memerlukan pemindahan atau duplikasi data. Saat Anda mengidentifikasi sumber data baru, Dataplex mengambil metadata untuk data terstruktur dan tidak terstruktur, menggunakan pemeriksaan kualitas data bawaan untuk meningkatkan integritas.

Dataplex otomatis mendaftarkan semua metadata di metastore terpadu. Anda dapat mengakses data dan metadata menggunakan berbagai layanan dan alat, termasuk:

  • Layanan Google Cloud, seperti BigQuery, Dataproc Metastore, Data Catalog.
  • Alat open source, seperti Apache Spark dan Presto.

Terminologi

Dataplex memisahkan sistem penyimpanan data yang mendasarinya, dengan menggunakan konstruksi berikut:

  • Danau: Konstruksi logis yang mewakili domain data atau unit bisnis. Misalnya, untuk mengatur data berdasarkan penggunaan grup, Anda dapat menyiapkan lake untuk setiap departemen (misalnya, Retail, Penjualan, Keuangan).

  • Zona: Subdomain di dalam lake, yang berguna untuk mengategorikan data berdasarkan hal berikut:

    • Tahap: Misalnya, melakukan landing, analisis data mentah, hasil seleksi, dan data science pilihan.
    • Penggunaan: Misalnya, kontrak data.
    • Pembatasan: Misalnya, kontrol keamanan dan tingkat akses pengguna.

    Zona terdiri dari dua jenis: mentah dan pilihan.

    • Zona mentah: Berisi data yang dalam format mentah dan tidak tunduk pada pemeriksaan jenis yang ketat.

    • Zona pilihan: Berisi data yang dibersihkan, diformat, dan siap untuk analisis. Data berbentuk kolom, dipartisi Hive, dan disimpan di file Parquet, Avro, Orc, atau tabel BigQuery. Data menjalani pemeriksaan jenis, misalnya, untuk melarang penggunaan file CSV karena performanya tidak baik untuk akses SQL.

  • Aset: Memetakan data ke data yang disimpan di Cloud Storage atau BigQuery. Anda dapat memetakan data yang disimpan di project Google Cloud yang terpisah sebagai aset ke dalam satu zona.

  • Entitas: Mewakili metadata untuk data terstruktur dan semi-terstruktur (tabel) dan data tidak terstruktur (fileset).

Kasus penggunaan umum

Bagian ini menjelaskan kasus penggunaan umum penggunaan Dataplex.

Mesh data yang berfokus pada domain

Dengan jenis mesh data ini, data diatur menjadi beberapa domain dalam sebuah perusahaan, misalnya, Penjualan, Pelanggan, dan Produk. Kepemilikan data dapat didesentralisasi. Anda dapat berlangganan data dari berbagai domain. Misalnya, data scientist dan analis data dapat mengambil data dari berbagai domain untuk mencapai tujuan bisnis seperti machine learning dan business intelligence.

Dalam diagram berikut, domain diwakili oleh danau Dataplex dan dimiliki oleh produser data yang terpisah. Produsen data memiliki kreasi, seleksi, dan kontrol akses di domain mereka. Konsumen data kemudian dapat meminta akses ke lake (domain) atau zona (subdomain) untuk analisis mereka.

Membuat mesh data

Dalam hal ini, petugas data harus mempertahankan tampilan menyeluruh dari seluruh lanskap data.

Diagram ini mencakup elemen-elemen berikut:

  • Dataplex: Mesh berisi beberapa domain data.
  • Domain: Data penjualan, pelanggan, dan produk.
  • Zona dalam domain: Untuk masing-masing tim atau untuk menyediakan kontrak data terkelola.
  • Aset: Data yang disimpan di bucket Cloud Storage atau set data BigQuery, yang dapat berada di project Google Cloud terpisah dari mesh Dataplex Anda.

Anda dapat memperluas skenario ini dengan membagi data yang berada di dalam zona menjadi lapisan mentah dan lapisan pilihan. Anda dapat melakukan pendekatan ini dengan membuat zona untuk setiap permutasi domain dan data mentah atau yang telah diseleksi:

  • Penjualan mentah
  • Penjualan diseleksi
  • Pelanggan mentah
  • Pelanggan diseleksi
  • Produk mentah
  • Produk yang diseleksi

Penyertaan data berdasarkan kesiapan

Kasus penggunaan umum lainnya adalah ketika data Anda hanya dapat diakses oleh data engineer, kemudian disempurnakan dan disediakan untuk data scientist dan analis. Dalam hal ini, Anda dapat menyiapkan lake agar memiliki hal berikut:

  • Zona mentah untuk data yang dapat diakses oleh para insinyur/perekayasa.
  • Zona pilihan untuk data yang tersedia bagi data scientist dan analis.

Danau dan zona

Langkah selanjutnya