Dokumen ini menunjukkan cara mengaktifkan dan menggunakan lineage data untuk tugas Hive Dataproc.
Anda mengaktifkan Linimasa data untuk tugas Hive Dataproc menggunakan tindakan inisialisasi saat membuat cluster.
Saat Anda mengaktifkan garis keturunan Data Hive di cluster, tugas Hive yang Anda kirimkan ke cluster akan merekam peristiwa garis keturunan data dan memublikasikannya ke Dataplex.
Memvisualisasikan informasi silsilah
Grafik silsilah data menampilkan hubungan antara resource project dan proses yang membuatnya. Anda dapat mengakses grafik silsilah menggunakan Dataplex, BigQuery Studio, dan Vertex AI di konsol Google Cloud.
Harga
Lineage data Hive Dataproc ditawarkan selama Pratinjau tanpa biaya tambahan. Harga Dataproc standar berlaku.
Sebelum memulai
Di konsol Google Cloud, pada halaman pemilih project, pilih project yang berisi cluster Dataproc yang ingin Anda lacak silsilahnya.
Aktifkan Data Lineage API dan Dataplex API.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan guna menggunakan silsilah data di Dataproc, minta administrator untuk memberi Anda peran IAM berikut di akun layanan VM cluster Dataproc:
-
Lihat urutan data di Dataplex atau gunakan Data Lineage API:
Data Lineage Viewer (
roles/datalineage.viewer
) -
Buat lineage data secara manual menggunakan API:
Data Lineage Events Producer (
roles/datalineage.producer
) -
Mengedit lineage data menggunakan API:
Data Lineage Editor (
roles/datalineage.editor
) -
Melakukan semua operasi pada silsilah data:
Administrator Silsilah Data (
roles/datalineage.admin
)
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Mengaktifkan silsilah data Hive
Untuk mengaktifkan garis keturunan data Hive di cluster, tentukan tindakan inisialisasi hive-lineage.sh
saat Anda membuat cluster Dataproc.
Tindakan inisialisasi ini disimpan dalam bucket regional di Cloud Storage.
Contoh pembuatan cluster gcloud CLI:
gcloud dataproc clusters create CLUSTER_NAME \
--project PROJECT_ID \
--region REGION \
--image-version IMAGE_VERSION \
--initialization-actions gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh
Ganti kode berikut:
- CLUSTER_NAME: Nama cluster.
- PROJECT_ID: Google Cloud Project ID Anda. Project ID tercantum di bagian Project info di Dasbor konsol Google Cloud.
- REGION: Region Compute Engine tempat cluster akan ditempatkan.
- IMAGE_VERSION Versi image yang diinginkan untuk cluster.
--initialization-actions
: Menentukan tindakan penginstalan yang berada di lokasi regional Cloud Storage, yang mengaktifkan lineage data Hive.- Secara opsional, tambahkan tindakan inisialisasi konektor Hive-BigQuery. Jika ingin mengintegrasikan tabel BigQuery dengan beban kerja Hive, Anda harus menginstal konektor Hive-BigQuery di cluster. Lihat Contoh garis keturunan data Hive dengan BigQuery, yang menjalankan tindakan inisialisasi konektor untuk menginstal konektor Hive-BigQuery di cluster.
Mengirim tugas Hive
Saat Anda mengirimkan tugas Hive ke cluster Dataproc yang dibuat dengan mengaktifkan silsilah data Hive, Dataproc akan mengambil dan melaporkan informasi silsilah data ke Dataplex.
Contoh pengiriman tugas Hive gcloud CLI:
gcloud dataproc jobs submit hive \
--cluster=CLUSTER_NAME \
--project PROJECT_ID \
--region REGION \
--properties=hive.openlineage.namespace=CUSTOM_NAMESPACE \
--execute HIVE_QUERY
Ganti kode berikut:
- CLUSTER_NAME: Nama cluster.
- PROJECT_ID: Google Cloud Project ID Anda. Project ID tercantum di bagian Project info di Dasbor konsol Google Cloud.
- REGION: Region Compute Engine tempat cluster Anda berada.
- CUSTOM_NAMESPACE: Namespace Hive kustom opsional yang dapat Anda tentukan untuk mengidentifikasi tugas Hive.
- HIVE_QUERY: Kueri Hive yang akan dikirim ke cluster.
Daripada menentukan kueri, Anda dapat mengganti flag
--execute HIVE_QUERY
dengan flag--file SQL_FILE
untuk menentukan lokasi file yang berisi kueri.
Melihat silsilah di Dataplex
Grafik silsilah menampilkan hubungan antara resource project dan proses yang membuatnya. Anda dapat melihat informasi silsilah data di Konsol Google Cloud, atau mengambilnya dari Data Lineage API dalam bentuk data JSON.
Contoh garis keturunan data Hive dengan BigQuery
Contoh di bagian ini terdiri dari langkah-langkah berikut:
- Buat cluster Dataproc yang mengaktifkan silsilah data Hive dan menginstal konektor Hive-BigQuery di cluster.
- Jalankan kueri Hive di cluster untuk menyalin data antartabel Hive.
- Lihat grafik silsilah data yang dihasilkan di BigQuery Studio.
Membuat cluster Dataproc
Jalankan perintah berikut di jendela terminal lokal atau di Cloud Shell untuk membuat cluster Dataproc.
gcloud dataproc clusters create CLUSTER_NAME \ --project PROJECT_ID \ --region REGION \ --image-version IMAGE_VERSION \ --initialization-actions gs://goog-dataproc-initialization-actions-REGION/connectors/connectors.sh, gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh \ --metadata hive-bigquery-connector-version=HIVE_BQ_VERSION
Catatan:
- CLUSTER_NAME: Nama cluster.
- PROJECT_ID: Google Cloud Project ID Anda. Project ID tercantum di bagian Project info di Dasbor konsol Google Cloud.
- REGION: Region Compute Engine tempat cluster akan ditempatkan.
- IMAGE_VERSION Versi image yang diinginkan untuk cluster.
--initialization-actions
: Tindakan penginstalan ini, yang terletak di Cloud Storage, menginstal konektor Hive-BigQuery dan mengaktifkan lineage data Hive.- HIVE_BQ_VERSION: Menentukan
versi konektor Hive-BigQuery.
Flag
--metadata
meneruskan versi ke tindakan inisialisasiconnectors.sh
untuk menginstal konektor Hive-BigQuery di cluster.
Menjalankan kueri Hive
Jalankan kueri Hive untuk melakukan tindakan berikut:
- Buat tabel eksternal
us_states
dengan input data sampel darigs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout
. - Buat tabel terkelola
us_states_copy
di set data BigQuery yang ditentukan. - Salin seluruh data dari
us_states
keus_states_copy
.
Untuk menjalankan kueri:
- Di jendela terminal lokal atau di Cloud Shell,
gunakan editor teks, seperti
vi
ataunano
, untuk menyalin pernyataan kueri Hive berikut ke dalam filehive-example.sql
, lalu simpan file di direktori saat ini. - Kirim file
hive-example.sql
ke cluster Dataproc yang dibuat sebelumnya dengan mengganti flag--execute HIVE_QUERY
dengan flag--file SQL_FILE
untuk menentukan lokasi filehive-example.sql
yang disimpan. Perhatikan bahwa variabel PROJECT dan BQ_DATASET harus diisi.
Hive BigQueryStorageHandler
CREATE EXTERNAL TABLE us_states ( name STRING, post_abbr STRING ) STORED AS PARQUET LOCATION 'gs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout'; CREATE TABLE us_states_copy ( name STRING, post_abbr STRING ) STORED BY 'com.google.cloud.hive.bigquery.connector.BigQueryStorageHandler' TBLPROPERTIES ( 'bq.table'='PROJECT.BQ_DATASET.us_states_copy' ); INSERT INTO us_states_copy SELECT * FROM us_states;
Melihat grafik silsilah data
Setelah tugas Hive berhasil selesai, lihat silsilah data di BigQuery Studio di konsol Google Cloud:
Untuk informasi tentang cara menampilkan grafik di BigQuery Studio, lihat artikel Melihat silsilah di BigQuery. Untuk informasi tentang cara memahami grafik, lihat Model informasi silsilah data.
Langkah berikutnya
- Pelajari silsilah data lebih lanjut.