Silsilah data Spark

Ringkasan

Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak pergerakan data di dalam sistem Anda: dari mana asalnya, ke mana data diteruskan, dan transformasi apa yang diterapkan padanya.

Setelah Anda mengaktifkan silsilah data, workload Dataproc Serverless untuk Spark akan menangkap peristiwa silsilah data dan memublikasikannya ke Data Lineage API Dataplex. Dataproc Serverless untuk Spark terintegrasi dengan Data Lineage API melalui OpenLineage, menggunakan plugin OpenLineage Spark.

Anda dapat mengakses informasi silsilah melalui Dataplex menggunakan grafik visualisasi Lineage dan Data Lineage API. Untuk mengetahui informasi selengkapnya, lihat Melihat grafik silsilah di Dataplex.

Ketersediaan, kemampuan, dan batasan

Silsilah data tersedia untuk Dataproc Serverless untuk runtime 1.x Spark, dimulai dengan versi runtime 1.1.50. Ini mencakup sumber data silsilah BigQuery dan Cloud Storage.

Dukungan silsilah tidak disediakan untuk hal berikut:

Konektor BigQuery versi 2 (API sumber data Spark versi 2)
Workload streaming Spark

Sebelum memulai

Pada halaman pemilih project di Konsol Google Cloud, pilih project yang akan digunakan untuk Dataproc Serverless untuk workload Spark.

Buka pemilih project
Aktifkan Data Lineage API dan Data Catalog API.

Aktifkan API

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk menggunakan silsilah data di Dataproc Serverless untuk Spark, minta administrator Anda untuk memberi Anda peran IAM berikut pada akun layanan VM cluster Dataproc:

Lihat visualisasi silsilah di Data Catalog atau untuk menggunakan Data Lineage API: Data Lineage Viewer (roles/datalineage.viewer)
Buat silsilah secara manual menggunakan API: Data Lineage Events prod (roles/datalineage.producer)
Edit silsilah menggunakan API: Data Lineage Editor (roles/datalineage.editor)
Menjalankan semua operasi pada silsilah: Administrator Silsilah Data (roles/datalineage.admin)

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Mengaktifkan silsilah data untuk workload batch Spark

Anda dapat mengaktifkan silsilah data Spark untuk workload batch dengan menetapkan properti spark.dataproc.lineage.enabled ke true saat mengirimkan beban kerja,

Contoh Google Cloud CLI:

gcloud dataproc batches submit pyspark FILENAME.py
    --region=REGION \
    --version=1.1 \
    --properties=spark.dataproc.lineage.enabled=true \
    other args ...

Lihat grafik silsilah di Dataplex

Grafik visualisasi silsilah menampilkan hubungan antara resource project Anda dan proses yang membuatnya. Anda dapat melihat informasi silsilah data dalam visualisasi grafik di Google Cloud Console atau mengambil informasi dari Data Lineage API sebagai data JSON.

Untuk mengetahui informasi selengkapnya, lihat Menggunakan silsilah data dengan sistem Google Cloud .

Contoh:

Workload Spark berikut membaca data dari tabel BigQuery, lalu menulis output ke tabel BigQuery yang berbeda.

#!/usr/bin/env python

from pyspark.sql import SparkSession
import sys

spark = SparkSession \
  .builder \
  .appName('LINEAGE_BQ_TO_BQ') \
  .getOrCreate()

bucket = lineage-ol-test
spark.conf.set('temporaryGcsBucket', bucket)

source = sample.source
words = spark.read.format('bigquery') \
  .option('table', source) \
  .load()
words.createOrReplaceTempView('words')

word_count = spark.sql('SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')

destination = sample.destination
word_count.write.format('bigquery') \
  .option('table', destination) \
  .save()

Workload Spark ini membuat grafik silsilah berikut di UI Dataplex:

Contoh grafik silsilah

Langkah selanjutnya

Pelajari silsilah data lebih lanjut.