Dataproc에서 데이터 계보 사용

데이터 계보는 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적할 수 있는 Dataplex 기능입니다.

데이터 계보는 Dataproc Compute Engine 2.0.74 이상 및 2.1.22 이상 이미지를 통해 SparkR을 제외하고 모든 Dataproc Spark 작업에 사용할 수 있습니다. 계보는 BigQuery 및 Cloud Storage 데이터 소스에 사용할 수 있습니다.

Dataproc 클러스터에서 이 기능을 사용 설정하면 Dataproc Spark 작업이 계보 이벤트를 캡처하여 Dataplex Data Lineage API에 게시합니다. Dataproc은 OpenLineage Spark 플러그인을 사용하여 OpenLineage를 통해 Data Lineage API와 통합됩니다.

다음을 사용하여 Dataplex를 통해 계보 정보에 액세스할 수 있습니다.

제한사항

계보는 다음에서 지원되지 않습니다.

  • BigQuery 커넥터 버전 2(Spark의 데이터 소스 API 버전 2)
  • Spark 스트리밍 워크로드

시작하기 전에

  1. Google Cloud 콘솔의 프로젝트 선택기 페이지에서 계보를 추적할 Dataproc 클러스터가 포함된 프로젝트를 선택합니다.

    프로젝트 선택기로 이동

  2. Data Lineage API 및 Data Catalog API를 사용 설정합니다.

    API 사용 설정

필요한 역할

Dataproc에서 데이터 계보를 사용하는 데 필요한 권한을 얻으려면 관리자에게 Dataproc 클러스터 VM 서비스 계정에 대해 다음 IAM 역할을 부여해 달라고 요청하세요.

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

Dataproc에서 데이터 계보 사용 설정

제출된 모든 클러스터의 Spark 작업이 계보 정보를 Data Lineage API에 보고하도록 클러스터 수준에서 계보를 사용 설정합니다.

Dataproc 클러스터 만들기

dataproc:dataproc.lineage.enabled 속성을 true로 설정하여 Dataproc 클러스터를 만듭니다.

gcloud dataproc clusters create CLUSTER_NAME \
--region REGION \
--zone ZONE \
--project PROJECT_ID \
--properties 'dataproc:dataproc.lineage.enabled=true' \
--scopes https://www.googleapis.com/auth/cloud-platform

Spark 작업 제출

계보가 사용 설정된 상태로 만들어진 Dataproc 클러스터에서 Spark 작업을 제출하면 Dataproc이 계보 정보를 캡처하여 Data Lineage API에 보고합니다.

gcloud dataproc jobs submit spark \
--project PROJECT_ID \
--cluster=CLUSTER_NAME \
--region REGION \
--class CLASS \
--jars=gs://APPLICATION_BUCKET/spark-application.jar \
--properties=spark.openlineage.namespace=CUSTOM_NAMESPACE,spark.openlineage.appName=CUSTOM_APPNAME

spark.openlineage.namespacespark.openlineage.appName 속성은 선택사항이며 작업을 고유하게 식별하는 데 사용됩니다. 이러한 속성을 전달하지 않으면 Dataproc은 다음 기본값을 사용합니다.

  • spark.openlineage.namespace 기본값: PROJECT_ID
  • spark.openlineage.appName 기본값: spark.app.name

Dataplex에서 계보 그래프 보기

계보 시각화 그래프에는 프로젝트 리소스와 이를 만든 프로세스 간의 관계가 표시됩니다. Google Cloud 콘솔에서 그래프 시각화 형식으로 데이터 계보 정보를 보거나 JSON 데이터 형식으로 Data Lineage API에서 검색할 수 있습니다.

자세한 내용은 Dataplex UI에서 계보 그래프 보기를 참조하세요.

BigQuery 테이블에서 데이터를 읽고 다른 BigQuery 테이블에 쓰는 다음 Spark 작업을 살펴봅시다.

#!/usr/bin/env python

from pyspark.sql import SparkSession
import sys

spark = SparkSession \
  .builder \
  .appName('LINEAGE_BQ_TO_BQ') \
  .getOrCreate()

bucket = lineage-ol-test
spark.conf.set('temporaryGcsBucket', bucket)

source = sample.source
words = spark.read.format('bigquery') \
  .option('table', source) \
  .load()
words.createOrReplaceTempView('words')

word_count = spark.sql('SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')

destination = sample.destination
word_count.write.format('bigquery') \
  .option('table', destination) \
  .save()

이 Spark 작업은 Dataplex UI에서 다음 계보 그래프를 만듭니다.

샘플 계보 그래프

Dataproc에서 데이터 계보 사용 중지

클러스터를 만들 때 계보를 사용 설정하면 클러스터 수준에서 계보를 사용 중지할 수 없습니다. Dataproc 클러스터에서 계보를 사용 중지하려면 dataproc:dataproc.lineage.enabled 속성 없이 클러스터를 다시 만듭니다.

계보가 사용 설정된 상태로 생성된 클러스터에서 특정 작업의 계보를 사용 중지하려면 작업을 제출할 때 spark.extraListeners 속성을 빈 값으로 전달해야 합니다.

다음 단계