Dataplex에서 계보 보기

이 페이지에서는 검색 및 거버넌스 목적으로 Google Cloud에서 다른 데이터 이동과 함께 Cloud Data Fusion 파이프라인에서 생성된 데이터 계보를 보는 방법을 설명합니다. 콘솔의 Dataplex 페이지에서 지원되는 데이터 소스의 계보 그래프를 확인하거나 Data Lineage API를 사용하여 전체 데이터 계보 레코드를 검색할 수 있습니다.

Dataplex 데이터 계보를 지원하는 플러그인

Cloud Data Fusion 및 Dataplex는 다음 플러그인에 대한 애셋 수준 계보를 지원합니다.

  • Amazon S3
  • BigQuery
  • BigQuery 멀티 테이블 싱크(버전 6.9.1 이상)
  • Spanner
  • Cloud Storage
  • MySQL용 Cloud SQL
  • PostgreSQL용 Cloud SQL
  • Dataplex
  • FTP
  • 일반 데이터베이스
  • HTTP
  • MSSQL/SQL 서버
  • 여러 데이터베이스 테이블 소스(버전 6.9.1 이상)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 테이블

자세한 내용은 Cloud Data Fusion 플러그인을 참조하세요.

시작하기 전에

콘솔의 Dataplex 페이지에서 Cloud Data Fusion 계보 그래프를 사용 설정하려면 다음 안내를 따르세요.

  1. 지원되는 플러그인만 사용하는 데이터 파이프라인을 만듭니다.

  2. Cloud Data Fusion 인스턴스가 포함된 프로젝트에서 Data Lineage API를 사용 설정합니다.

  3. Cloud Data Fusion API 서비스 에이전트인 Cloud Data Fusion 관리형 서비스 계정인에 데이터 계보 이벤트 제작자 역할(roles/datalineage.producer)을 부여합니다. 인스턴스가 이전 버전의 Cloud Data Fusion에서 실행되고 RBAC가 사용 설정된 경우 프로세스가 다릅니다.

    6.10+ 또는 RBAC 없음

    Cloud Data Fusion 인스턴스가 버전 6.10.0 이상을 사용하는 경우 또는 인스턴스가 이전 버전을 사용하고 RBAC가 사용 설정되지 않은 경우 다음 단계를 따르세요.

    1. Google Cloud 콘솔에서 IAM 페이지로 이동합니다.

      IAM으로 이동

    2. Google 제공 역할 부여 포함 체크박스를 선택합니다.

    3. Cloud Data Fusion API 서비스 에이전트 서비스 계정을 선택하고 수정을 클릭합니다.

    4. 다른 역할 추가를 클릭하고 Data Lineage 이벤트 제작자 역할을 선택합니다.

    5. 저장을 클릭합니다.

    RBAC를 사용하는 6.10개 이하

    Cloud Data Fusion 인스턴스가 6.10.0보다 이전 버전을 사용하고 RBAC가 사용 설정된 경우 IAM 페이지의 주 구성원 목록에 서비스 계정이 표시되지 않습니다. 서비스 계정 이름을 직접 입력해야 합니다.

    필요한 역할을 부여하려면 다음 단계를 따르세요.

    1. Google Cloud 콘솔에서 IAM 페이지로 이동합니다.

      IAM으로 이동

    2. 액세스 권한 부여를 클릭합니다.

    3. 새 주 구성원 필드에 Cloud Data Fusion API 서비스 에이전트 서비스 계정을 입력합니다. datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com 형식을 사용합니다.

      TENANT_PROJECT_ID를 인스턴스의 테넌트 ID로 바꿉니다. 테넌트 프로젝트 ID를 보려면 인스턴스 페이지로 이동하고 인스턴스 세부정보의 인스턴스 이름을 클릭합니다.

      인스턴스로 이동

    4. Data Lineage 이벤트 제작자 역할을 선택합니다.

    5. 저장을 클릭합니다.

Cloud Data Fusion에서 Dataplex 데이터 계보 사용 설정

Cloud Data Fusion의 새 인스턴스에서는 Dataplex 데이터 계보가 기본적으로 사용 중지됩니다. 2024년 1월 27일 이전에 버전 6.8.0 이상으로 인스턴스를 만든 경우 시작하기 전에의 단계를 완료한 후 기본적으로 사용 설정됩니다.

인스턴스를 만들 때 Dataplex 데이터 계보 사용 설정

콘솔

인스턴스를 만들 때 Dataplex 데이터 계보를 사용 설정하려면 다음 단계를 따르세요.

  1. Cloud Data Fusion 인스턴스 페이지로 이동하고 인스턴스 만들기를 클릭합니다.

    인스턴스 만들기

  2. 인스턴스를 구성할 때 고급 옵션 섹션을 펼치고 Dataplex 데이터 계보와의 통합 사용 설정을 클릭합니다. 인스턴스 만들기에 대한 자세한 내용은 공개 인스턴스 만들기를 참조하세요.

REST API

인스턴스를 만들 때 Dataplex 데이터 계보를 사용 설정하려면 선택사항인 dataplex_data_lineage_integration_enabled 속성을 true로 설정합니다.

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

사용 중지하려면 속성을 false로 설정하거나 속성을 생략합니다. 새 인스턴스를 만들 때 계보가 기본적으로 사용 중지되기 때문입니다.

기존 인스턴스에서 Dataplex 데이터 계보 사용 설정 또는 사용 중지

콘솔

Cloud Data Fusion의 기존 인스턴스에서 Dataplex 데이터 계보를 사용 설정 또는 사용 중지하려면 다음 단계를 따르세요.

  1. 인스턴스 세부정보를 확인합니다.
    1. Google Cloud 콘솔에서 Cloud Data Fusion 페이지로 이동합니다.

    2. 인스턴스를 클릭한 후 인스턴스 이름을 클릭하여 인스턴스 세부정보 페이지로 이동합니다.

      인스턴스로 이동

  2. Dataplex 데이터 계보 통합 필드에서 수정을 클릭합니다.
  3. Dataplex 데이터 계보를 사용 설정 또는 사용 중지한 다음 저장을 클릭합니다.

REST API

Cloud Data Fusion의 기존 인스턴스에서 Dataplex 데이터 계보를 사용 설정하려면 dataplex_data_lineage_integration_enabled 속성을 true로 설정하고 updateMask 매개변수 값을 포함합니다.

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Cloud Data Fusion의 기존 인스턴스에서 Dataplex 데이터 계보를 사용 중지하려면 dataplex_data_lineage_integration_enabled 속성을 false로 설정하고 updateMask 매개변수 값을 포함합니다.

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

데이터 계보 그래프 보기

모든 Google Cloud 서비스에서 항목의 계보 그래프를 보려면 다음을 수행합니다.

  1. Cloud Data Fusion의 인스턴스로 이동하여 지원되는 플러그인을 사용하는 데이터 파이프라인을 실행합니다.

  2. 콘솔의 Dataplex 페이지에서 계보 그래프를 확인하고 계보 정보를 보려는 애셋을 찾습니다.

제한사항

Dataplex에서 계보를 보는 데는 다음과 같은 제한사항이 있습니다.

다음 단계