데이터 계보를 사용하면 데이터 애셋과 이를 변환하는 프로세스 간의 관계를 추적하여 시스템 안에서 데이터가 이동하는 방식을 파악할 수 있습니다. Google Cloud 콘솔은 이 계보 정보를 그래프와 목록으로 제공합니다
이 문서에서는 데이터 계보 정보 모델, 테이블 수준 및 열 수준 계보 세부정보, 그래프 및 목록 뷰를 사용하여 데이터 계보를 탐색하는 방법을 안내합니다.
데이터 계보 정보 모델
계보는 소스에서 타겟으로 변환되는 데이터의 레코드입니다. Data Lineage API는 이 정보를 수집하여 프로세스, 실행, 이벤트의 개념을 사용하는 계층적 데이터 모델로 구성합니다.
프로세스
프로세스는 특정 시스템에서의 데이터 변환 작업의 정의입니다. BigQuery 계보에서 프로세스는 지원되는 작업 유형의 작업입니다. 동일한 SQL 쿼리의 모든 실행은 단일 프로세스에 연결되므로 특정 변환 로직이 사용되는 모든 인스턴스를 추적할 수 있습니다.
예를 들어 다음 SQL 쿼리는 프로세스입니다. 이 쿼리는 두 소스 테이블에서 각 공급업체의 총 여행 수를 집계하여 테이블을 만듭니다.
CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
AS
SELECT
vendor_id,
COUNT(*) AS number_of_trips
FROM
(
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
UNION ALL
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY
vendor_id;
프로세스의 REST 리소스 이름 형식은 projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID
입니다.
예시: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6
process
리소스에 관한 자세한 내용은 프로세스 리소스 참고를 참고하세요.
실행
실행은 프로세서의 단일 실행입니다. 프로세스는 여러 번 실행될 수 있습니다.
각 실행은 startTime
, endTime
, 최종 상태(예: COMPLETED
, FAILED
, ABORTED
) 같은 특징을 갖는 고유한 작업입니다.
예를 들어 오전 9시에 프로세스 섹션에서 SQL 쿼리를 실행하면 특정 실행이 생성됩니다. 오전 10시에 동일한 쿼리를 다시 실행하면 새로운 별도의 실행이 생성됩니다. 두 실행 모두 동일한 상위 프로세스에 연결됩니다.
실행의 REST 리소스 이름 형식은 실행이 프로세스의 하위 요소임을 보여줍니다(projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID
).
예시: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1
run
리소스에 관한 자세한 내용은 실행 리소스 참고를 참고하세요.
이벤트
이벤트는 데이터 변환이 소스와 타겟 항목 간에 데이터를 이동하는 특정 시점을 나타냅니다. 이벤트는 특정 실행의 소스 테이블과 타겟 테이블을 연결하는 특정 데이터 이동의 세부 레코드입니다. 이벤트에는 여러 소스와 타겟이 있을 수도 있습니다.
예를 들어 실행에서 프로세스 섹션에 설명된 SQL 쿼리를 실행하는 경우 계보 이벤트는 nyc_green_trips_2021
및 nyc_green_trips_2022
소스 테이블이 total_green_trips_22_21
타겟 테이블을 만드는 데 사용된다고 기록합니다.
계보 이벤트에는 소스와 타겟을 정의하는 링크 목록이 포함됩니다. 이벤트는 계보 그래프를 만드는 데 사용됩니다. Google Cloud 콘솔에는 이러한 계보 그래프가 표시되지만 개별 이벤트는 직접 표시되지 않습니다. Data Lineage API를 사용하여 이벤트를 만들고, 읽고, 삭제할 수 있지만 업데이트할 수는 없습니다.
이벤트 내의 각 링크는 소스 항목에서 타겟 항목으로의 단일 데이터 흐름 경로를 정의합니다. 항목은 BigQuery 테이블과 같은 데이터 애셋에 대한 참조이며 정규화된 이름(FQN)으로 식별됩니다. 단일 이벤트에 여러 링크가 포함될 수 있습니다. 이는 여러 소스가 하나의 타겟에 기여하는 테이블 조인과 같은 작업에서 흔히 발생합니다.
이벤트가 열 수준 계보를 지원하는 방법에 관한 자세한 내용은 열 수준 계보를 참고하세요.
계보 세부사항
데이터 계보를 사용하면 테이블 및 열 수준에서 데이터의 출처와 변환 경로를 추적할 수 있습니다.
테이블 수준 계보
테이블 수준 계보는 전체 테이블 간의 관계를 보여주어 데이터 파이프라인을 개괄적으로 보여줍니다. 다음과 같은 매크로 수준 작업에는 테이블 수준 계보를 사용합니다.
데이터 검색. 새 대시보드를 빌드하는 분석가는 테이블 수준 계보를 사용하여 요약 테이블을 소스로 추적하고 데이터가 공신력 있는 데이터베이스에서 비롯되었는지 확인할 수 있습니다.
마이그레이션 계획. 핵심 데이터베이스를 이전하려는 데이터베이스 관리자는 테이블 수준 계보를 사용하여 핵심 데이터베이스에 종속된 모든 다운스트림 보고서와 대시보드를 식별할 수 있습니다.
감사 및 거버넌스. 데이터 관리자는 테이블 수준 및 열 수준 계보를 사용하여 개인 식별 정보(PII)가 포함된 테이블의 데이터가 파이프라인을 통해 어떻게 흐르는지 확인할 수 있습니다.
열 수준 계보
열 수준 계보는 개별 열 간의 데이터 흐름을 추적하여 더 세부적인 뷰를 제공합니다. 이 뷰에서 계보 이벤트 내의 링크는 소스 열과 타겟 열 간의 관계를 나타냅니다. 이러한 각 열 수준 링크에는 변환을 설명하는 종속 항목 유형이 있습니다.
Exact copy
: 열 간에 값이 복사됨Other
: 열 간의 기타 종속 항목 유형
다음과 같은 작업에 열 수준 계보를 사용합니다.
근본 원인 분석 데이터 분석가가 열에서 잘못된 값을 발견하면 열 수준 계보를 사용하여 소스 열로 다시 추적하여 근본 원인을 찾을 수 있습니다.
영향 분석. 데이터 엔지니어는 열을 지원 중단하기 전에 열 수준 계보를 사용하여 해당 열에 종속된 모든 다운스트림 열을 찾을 수 있습니다.
측정항목의 데이터 소스 확인 데이터 분석가는 열 수준 계보를 사용하여 복잡한 SQL 쿼리를 해독하지 않고도 측정항목을 계산하는 데 사용되는 소스 열을 식별할 수 있습니다.
다음 유형의 BigQuery 작업에 대해 열 수준 계보가 자동으로 수집됩니다.
Google Cloud 콘솔의 계보 뷰
Google Cloud 콘솔의 데이터 계보를 사용하면 두 가지 방법으로 계보 정보와 상호작용할 수 있습니다. 사용 가능한 여러 리전에서 계보 그래프를 탐색하거나 계보 탐색기 패널을 사용하여 특정 리전 내에서 더 포커스가 지정된 뷰를 확인할 수 있습니다. 그래프 뷰와 목록 뷰 간에 전환하여 다양한 세부정보 수준에서 데이터 흐름을 분석할 수도 있습니다.
계보 뷰는 Dataplex Universal Catalog 항목, BigQuery 애셋, Vertex AI 리소스(모델, 데이터 세트, 특성 스토어 뷰, 특성 그룹)에만 사용할 수 있습니다.
이 페이지에서 설명하는 다양한 뷰를 확인하려면 Google Cloud 시스템에서 데이터 계보 사용을 참고하세요.
계보 그래프 뷰
그래프 뷰는 시스템과 리전 전반의 데이터 애셋 흐름과 관계를 시각화하여 데이터 아키텍처를 이해하고, 출처와 타겟을 추적하고, 패턴을 식별하는 데 도움이 됩니다. 특정 Dataplex Universal Catalog 항목에 대해 Data Lineage API 서비스에서 생성된 이러한 계보 그래프는 시간이 지남에 따라 데이터가 변환되는 방식을 보여주며, 선택한 루트 항목의 업스트림, 다운스트림 또는 양쪽 흐름을 표시합니다.
Data Lineage API는 지원되는 시스템에서 자동으로 그리고 커스텀 소스의 API 호출을 통해 애셋 정보를 수신합니다.
그래프의 주요 요소는 다음과 같습니다.
노드. 데이터 항목을 나타냅니다. 테이블 수준 뷰에서 노드는 테이블 이름과 열을 보여줍니다. 열 수준 뷰에서 각 노드는 특정 테이블과 열을 나타냅니다.
에지 노드를 연결하고 노드 간에 발생하는 프로세스를 나타내는 선입니다. 가장자리의 모양은 계보 뷰에 따라 달라집니다.
- 테이블 수준 뷰에서 가장자리에는 데이터 변환을 나타내는 아이콘이 있습니다.
- 열 수준 뷰에서 에지에는 데이터 변환을 나타내는 라벨이 있습니다. 예를 들어 소스 열이 타겟 열에 복사된 방식을 설명하기 위해
Exact copy
라고 표시된 에지 라벨이 있을 수 있습니다.
아이콘 및 라벨을 처리합니다. 변환에 관한 자세한 정보를 제공하기 위해 가장자리에 표시됩니다.
- 아이콘. 변환 프로세스를 나타냅니다. 그래프를 수동으로 탐색할 때 가장자리의 아이콘은 프로세스의 소스 시스템(예: BigQuery 또는 Vertex AI)을 나타냅니다. 여러 프로세스가 포함된 경우 '여러 프로세스' 아이콘이 표시됩니다. 프로세스 소스 시스템을 알 수 없는 경우 기어 아이콘이 사용됩니다. 필터를 적용하면 모든 프로세스에 기어 아이콘이 사용됩니다.
- 라벨. 열 수준 계보 뷰에서 라벨은 열 간 종속 항목 유형(
Exact copy
또는Other
)을 설명합니다.
계보 그래프 수동 탐색
계보 탭을 열면 기본 그래프 뷰가 표시됩니다. 기본 뷰는 시스템과 리전 전반의 대략적인 개요를 제공하며, 한 번에 5개의 노드를 로드할 수 있는 수동 및 증분 그래프 확장을 지원합니다. 가장자리에 있는 프로세스 아이콘은 소스 시스템을 나타내거나 여러 프로세스를 나타냅니다.

포커스가 지정된 계보 뷰를 위해 필터 적용
특정 지역 내에서 집중 분석을 위해 계보 데이터를 필터링하려면 계보 탐색기 패널을 사용하세요. 다음은 포커스가 지정된 뷰로 전환하는 데 사용할 수 있는 몇 가지 기준입니다.
- 열 이름: 열 이름으로 계보를 필터링하여 열 수준 세부정보를 확인합니다.
- 방향: 업스트림 또는 다운스트림 계보 또는 둘 다를 표시합니다.
- 기간: 특정 시작 시간 또는 종료 시간을 기준으로 계보를 필터링합니다.
- 종속 항목 유형: 종속 항목 유형에 따라 열 수준 계보를 필터링합니다.
사용 가능한 옵션의 예로는
All
또는Exact copy
가 있습니다.

포커스가 지정된 뷰는 그래프를 최대 3단계까지 자동으로 확장하여 필터 기준과 일치하는 모든 계보를 로드합니다. 선택한 노드에서 루트로 돌아가는 경로 시각화를 비롯해 테이블 수준과 열 수준 계보를 모두 지원합니다. 이 포커스 뷰에서는 모든 프로세스에 일반 기어 아이콘이 사용됩니다.

열 수준 계보를 보려면 다음 방법 중 하나를 따르세요.
포커스가 지정된 그래프 뷰에서 테이블의 열 아이콘을 클릭하여 열 수준 계보로 전환합니다.
열 아이콘 기본 그래프 뷰 또는 포커스가 지정된 그래프 뷰에서 계보 탐색기 패널의 열 이름을 적용합니다.

모든 필터를 삭제하고 기본 뷰로 돌아가려면
재설정을 클릭합니다.노드 세부정보
노드의 세부정보를 보려면 노드를 클릭합니다. 측면 패널이 표시되고 선택한 데이터 애셋에 대한 자세한 정보가 표시됩니다. 예를 들어 테이블 수준 계보 뷰에서 노드를 클릭하면 애셋의 정규화된 이름, 유형, 기타 관련 속성과 같은 정보가 표시됩니다.

감사 및 실행 기록
전체 계보 그래프는 여러 다른 작업의 실행 결과이며 각 작업은 그래프에서 특정 링크를 만듭니다. 여러 실행이 새 실행으로 로깅되지만 그래프의 정적 모양은 변경되지 않습니다.
이러한 개별 실행의 세부정보를 보려면 그래프에서 프로세스가 있는 가장자리를 클릭합니다. 표시되는 쿼리 패널에서 실행 탭을 클릭합니다.

변환 로직 검사
코드를 검색하지 않고 변환의 비즈니스 로직을 이해하려면 실행된 정확한 SQL 쿼리를 확인하면 됩니다. SQL 코드를 보려면 그래프에서 프로세스가 있는 가장자리를 클릭합니다. 표시되는 측면 패널에서 세부정보 탭을 클릭합니다.
계보 경로 시각화
계보 경로 시각화를 사용하면 그래프에서 선택한 노드에서 루트 항목까지의 경로를 추적할 수 있습니다. 노드를 선택하고 경로 시각화를 클릭하면 그래프에서 루트 항목으로 이어지는 직접 계보 경로를 구성하는 노드와 프로세스만 강조 표시됩니다.
계보 경로 시각화를 보려면 계보 탐색기 패널에서 필터를 적용하여 포커스가 지정된 그래프 뷰를 만듭니다. 그런 다음 포커스가 지정된 그래프 뷰에서 노드를 선택합니다. 선택한 노드의 세부정보 패널에서 경로 시각화를 클릭합니다.
계보 경로 시각화는 테이블 수준 및 열 수준(프리뷰) 계보에 사용할 수 있습니다. 목록 뷰에서 계보 경로 시각화를 사용할 수도 있습니다.

계보 목록 뷰
목록 뷰는 그래프 뷰와 동기화된 계보의 표 형식 구조화된 표현을 제공합니다. 데이터 애셋의 정렬, 필터링, 다운로드를 지원합니다. 이 뷰는 소스-타겟 관계를 분석하고, 관련 애셋을 자세히 설명하고, 계보 데이터를 내보내는 데 적합합니다.
목록 뷰는 테이블 수준 및 열 수준 계보 모두에서 사용할 수 있습니다. 다음과 같은 상세 목록 뷰와 단순 목록 뷰 간에 전환할 수 있습니다.
간소화된 목록 뷰: 이 뷰는 계보에 포함된 모든 애셋의 압축된 고유 목록을 확인하는 데 유용합니다. 시스템, 프로젝트, 항목, FQN(정규화된 이름), 방향, 깊이와 같은 열을 사용하면 계보의 모든 데이터 애셋, 데이터 애셋이 있는 위치, 원래 소스, 분석 중인 중앙 애셋과의 거리를 확인할 수 있습니다. 데이터 흐름에 참여하는 모든 항목의 전체적인 개요를 확인하는 데 적합하며, 기본 뷰입니다.
세부 목록 뷰: 이 뷰는 개별 소스-타겟 관계를 분석하기 위해 설계되었습니다. 소스 및 타겟에 별도의 열을 제공하면 각 특정 데이터 변환 링크를 확인할 수 있습니다. 이 뷰는 개별 데이터 흐름을 감사하거나, 테이블 간의 종속성을 이해하거나, 각 연결에 대한 상세 계보 레코드를 내보내는 등 특정 애셋 쌍 간의 데이터 이동 방식을 깊이 이해해야 하는 작업에 적합합니다.
테이블 수준 계보 목록 뷰
이 뷰는 테이블 간의 관계를 전체적으로 보여줍니다. 제공된 필터를 사용하여 필요한 열을 선택합니다.

다음 섹션을 펼쳐 테이블 수준 목록 뷰에 사용할 수 있는 열을 확인하세요.
간소화된 테이블 수준 목록 뷰에서 사용할 수 있는 열
- 시스템: 데이터 애셋이 있는 시스템. 예로는 BigQuery가 있습니다.
- 프로젝트: 데이터 애셋을 포함하는 Google Cloud 프로젝트 ID
- 항목: 데이터 애셋의 이름. 예시에 테이블 이름이 포함됩니다.
- FQN: 원래 소스 항목 또는 열의 정규화된 이름(FQN)
- 방향: 계보 흐름에서 나열된 애셋이 업스트림(소스)인지 다운스트림(타겟)인지 나타냅니다.
- 깊이: 분석 중인 중앙 애셋의 계보 단계 수
세부 테이블 수준 목록 뷰에서 사용할 수 있는 열
- 소스 시스템: 소스 데이터 애셋이 있는 시스템. 예로는 BigQuery가 있습니다.
- 소스 프로젝트: 소스 데이터 애셋을 포함하는 Google Cloud 프로젝트 ID
- 소스: 소스 데이터 애셋의 이름. 예로는 테이블 이름이 있습니다.
- 소스 FQN: 소스 항목의 FQN
- 타겟 시스템: 타겟 데이터 애셋이 있는 시스템. 예로는 BigQuery가 있습니다.
- 타겟 프로젝트: 타겟 데이터 애셋을 포함하는 Google Cloud 프로젝트 ID
- 타겟: 타겟 데이터 애셋의 이름. 예로는 테이블 이름이 있습니다.
- 타겟 FQN: 타겟 항목의 FQN
- 방향: 계보 흐름에서 나열된 애셋이 업스트림(소스)인지 다운스트림(타겟)인지 나타냅니다.
- 깊이: 분석 중인 중앙 애셋의 계보 단계 수
열 수준 계보 목록 뷰
이 뷰는 소스 테이블과 타겟 테이블의 개별 열 간의 관계를 보여줍니다. 제공된 필터를 사용하여 필요한 열을 선택합니다.

다음 섹션을 펼쳐 열 수준 목록 뷰에서 사용할 수 있는 열을 확인하세요.
간소화된 열 수준 목록 뷰에서 사용할 수 있는 열
- 시스템: 데이터 애셋이 있는 시스템. 예로는 BigQuery가 있습니다.
- 프로젝트: 데이터 애셋을 포함하는 Google Cloud 프로젝트 ID
- 항목: 데이터 애셋의 이름. 예시에 테이블 이름이 포함됩니다.
- 열: 항목 내에서 계보 탐색기 패널에 선택된 특정 열
- FQN: 원래 소스 항목 또는 열의 정규화된 이름(FQN)
- 방향: 계보 흐름에서 나열된 애셋이 업스트림(소스)인지 다운스트림(타겟)인지 나타냅니다.
- 깊이: 분석 중인 중앙 애셋의 계보 단계 수
세부 열 수준 목록 뷰에서 사용할 수 있는 열
- 소스 시스템: 소스 데이터 애셋이 있는 시스템.
- 소스 프로젝트: 소스 데이터 애셋이 포함된 Google Cloud 프로젝트 ID
- 소스 FQN: 소스 열의 FQN
- 타겟 시스템: 타겟 데이터 애셋이 있는 시스템.
- 타겟 프로젝트: 타겟 데이터 애셋을 포함하는 Google Cloud 프로젝트 ID
- 타겟 FQN: 타겟 열의 FQN
- 방향: 데이터 흐름이 업스트림인지 다운스트림인지 나타냅니다.
- 종속 항목 유형: 열 간의 관계의 특성을 설명합니다.
- 깊이: 분석 중인 중앙 애셋에서 계보 단계 수
다음 단계
계보 소스에 대해 알아보기
BigQuery 테이블 복사 및 쿼리 작업의 데이터 계보를 추적하는 방법 알아보기