이 문서에서는 Spark용 Dataproc Serverless 일괄 워크로드 및 대화형 세션에서 프로젝트, 일괄 워크로드 또는 대화형 세션 수준에서 데이터 계보를 사용 설정하는 방법을 설명합니다.
개요
데이터 계보는 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적할 수 있는 Dataplex 기능입니다.
Spark를 위한 서버리스 Dataproc 워크로드 및 세션은 계보 이벤트를 캡처하여 Dataplex Data Lineage API에 게시합니다. Spark를 위한 서버리스 Dataproc은 OpenLineage Spark 플러그인을 사용하여 OpenLineage를 통해 Data Lineage API와 통합됩니다.
계보 시각화 그래프 및 Data Lineage API를 사용하면 Dataplex를 통해 계보 정보에 액세스할 수 있습니다. 자세한 내용은 Dataplex에서 계보 그래프 보기를 참조하세요.
가용성, 기능 및 제한사항
BigQuery 및 Cloud Storage 데이터 소스를 지원하는 데이터 계보는 Spark용 Dataproc Serverless 런타임 버전 1.1
, 1.2
, 2.2
으로 실행되는 워크로드 및 세션에 사용할 수 있으며 다음과 같은 예외 및 제한사항이 적용됩니다.
- SparkR 또는 Spark 스트리밍 워크로드 또는 세션에는 데이터 계보를 사용할 수 없습니다.
시작하기 전에
Google Cloud 콘솔의 프로젝트 선택기 페이지에서 Spark용 서버리스 Dataproc 워크로드 또는 세션에 사용할 프로젝트를 선택합니다.
Data Lineage API 및 Data Catalog API를 사용 설정합니다.
필요한 역할
Spark용 Dataproc Serverless에서 데이터 계보를 사용하는 데 필요한 권한을 얻으려면 관리자에게 Dataproc 클러스터 VM 서비스 계정에 대해 다음 IAM 역할을 부여해 달라고 요청하세요.
- Data Catalog에서 계보 시각화를 보거나 Data Lineage API를 사용:
Data Lineage 뷰어(
roles/datalineage.viewer
) - API를 사용하여 수동으로 계보 생성:
데이터 계보 이벤트 제작자(
roles/datalineage.producer
) - API를 사용하여 계보 수정:
데이터 계보 편집자(
roles/datalineage.editor
) -
계보에서 모든 작업 수행:
데이터 계보 관리자(
roles/datalineage.admin
)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
프로젝트 수준에서 데이터 라인 사용 설정
프로젝트 수준에서 데이터 계보를 사용 설정할 수 있습니다. 프로젝트 수준에서 사용 설정하면 프로젝트에서 실행하는 후속 일괄 워크로드와 대화형 세션에 모두 Spark 라인지가 사용 설정됩니다.
프로젝트 수준에서 데이터 계보를 사용 설정하는 방법
프로젝트 수준에서 데이터 라인을 사용 설정하려면 다음 커스텀 프로젝트 메타데이터를 설정합니다.
키 | 값 |
---|---|
DATAPROC_LINEAGE_ENABLED |
true |
DATAPROC_CLUSTER_SCOPES |
https://www.googleapis.com/auth/cloud-platform |
DATAPROC_LINEAGE_ENABLED
메타데이터를 false
로 설정하여 프로젝트 수준에서 데이터 계보를 사용 중지할 수 있습니다.
Spark 일괄 워크로드에 데이터 계보 사용 설정
워크로드를 제출할 때 spark.dataproc.lineage.enabled
속성을 true
로 설정하여 일괄 워크로드에 데이터 계보를 사용 설정할 수 있습니다.
일괄 워크로드 예시
이 예에서는 Spark 라인지가 사용 설정된 배치 lineage-example.py
워크로드를 제출합니다.
gcloud dataproc batches submit pyspark lineage-example.py \ --region=REGION \ --properties=spark.dataproc.lineage.enabled=true
lineage-example.py
는 BigQuery 테이블에서 데이터를 읽고 출력을 다른 BigQuery 테이블에 씁니다.
#!/usr/bin/env python
from pyspark.sql import SparkSession
import sys
spark = SparkSession \
.builder \
.appName('LINEAGE_BQ_TO_BQ') \
.getOrCreate()
bucket = lineage-demo
spark.conf.set('temporaryCloudStorageBucket', bucket)
source = sample.source
words = spark.read.format('bigquery') \
.option('table', source) \
.load()
words.createOrReplaceTempView('words')
word_count = spark.sql('SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')
destination = sample.destination
word_count.write.format('bigquery') \
.option('table', destination) \
.save()
Dataplex UI에서 계보 그래프를 볼 수 있습니다.
Spark 대화형 세션에 데이터 계보 사용 설정
세션 또는 세션 템플릿을 만들 때 spark.dataproc.lineage.enabled
속성을 true
로 설정하여 Spark 대화형 세션에서 데이터 계보를 사용 설정할 수 있습니다.
대화형 세션 예
다음 PySpark 노트북 코드는 비공개 Google 액세스 VPC 리전 서브넷에서 실행되며 Spark 데이터 라인이 사용 설정된 Dataproc Serverless Interactive 세션을 구성합니다. 그런 다음 공개 BigQuery Shakespeare 데이터 세트에서 단어 수 쿼리를 실행하고 출력을 BigQuery 테이블에 쓰는 Spark Connect 세션을 만듭니다.
from dataproc_spark_session.session.spark.connect import DataprocSparkSession
from google.cloud.dataproc_v1 import Session
session = Session()
# Configure the Dataproc Serverless interactive session. Enable Spark data lineage.
project_id = "sample-project-id"
region = "us-central1"
subnet_name = "sample-private-google-access-subnet"
session.environment_config.execution_config.subnetwork_uri = f"projects/{project_id}/regions/{region}/subnetworks/{subnet_name}"
session.runtime_config.properties["spark.dataproc.lineage.enabled"] = "true"
session.runtime_config.version = "2.2"
# Create the Spark Connect session.
spark = (
DataprocSparkSession.builder
.appName("LINEAGE_BQ_TO_BQ")
.dataprocConfig(session)
.getOrCreate()
)
# Run a wordcount query on the public BigQuery Shakespeare dataset.
source = "bigquery-public-data:samples.shakespeare"
words = spark.read.format("bigquery").option("table", source).load()
words.createOrReplaceTempView('words')
word_count = spark.sql(
'SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')
# Output the results to a BigQuery destination table.
destination = sample.destination
word_count.write.format('bigquery') \
.option('table', destination) \
.save()
BigQuery 탐색기 페이지의 탐색창에 나열된 대상 테이블 이름을 클릭한 다음 테이블 세부정보 창에서 라인에이지를 선택하면 데이터 라인에이지에 관한 그래프를 볼 수 있습니다.
Dataplex에서 계보 그래프 보기
계보 시각화 그래프에는 프로젝트 리소스와 이를 만든 프로세스 간의 관계가 표시됩니다. Google Cloud 콘솔의 그래프 시각화에서 데이터 계보 정보를 확인하거나 Data Lineage API에서 JSON 데이터로 정보를 가져올 수 있습니다.
자세한 내용은 시스템에 데이터 계보 사용 Google Cloud 을 참고하세요.
다음 단계
- 데이터 계보에 대해 자세히 알아보세요.