메타데이터를 사용하여 데이터 계보 살펴보기


이 튜토리얼에서는 Cloud Data Fusion을 사용하여 데이터 계보, 즉 데이터의 출처와 시간 경과에 따른 이동을 탐색하는 방법을 설명합니다.

Data Catalog 애셋 계보 통합에 대한 자세한 내용은 Dataplex의 계보 보기를 참조하세요.

Cloud Data Fusion 데이터 계보

Cloud Data Fusion 데이터 계보를 사용하여 다음을 수행할 수 있습니다.

  • 잘못된 데이터 이벤트의 근본 원인 감지

  • 데이터를 변경하기 전에 영향 분석 수행

Cloud Data Fusion은 데이터 세트 수준 및 필드 수준의 계보를 제공하며 시간 경과에 따른 계보를 표시하는 시간이 제한됩니다.

  • 데이터 세트 수준 계보는 선택한 시간 간격으로 데이터 세트와 파이프라인 간의 관계를 보여줍니다.

  • 필드 수준 계보는 대상 데이터 세트의 다른 필드 집합을 생성하도록 소스 데이터 세트의 필드 집합에서 수행된 작업을 보여줍니다.

튜토리얼 시나리오

이 튜토리얼에서는 다음 두 가지 파이프라인을 작업합니다.

  • Shipment Data Cleansing 파이프라인은 작은 샘플 데이터 세트에서 원시 배송 데이터를 읽고 변환을 적용하여 데이터를 정리합니다.

  • 그런 다음 Delayed Shipments USA 파이프라인은 정리된 배송 데이터를 읽고 분석하며 임곗값을 초과하여 지연된 미국 내 배송을 찾습니다.

이 튜토리얼 파이프라인은 원시 데이터가 정리된 후 다운스트림을 처리할 수 있도록 전송되는 일반적인 시나리오를 보여줍니다. Cloud Data Fusion 계보 기능을 사용하여 원시 데이터에서 정리된 배송 데이터, 분석 출력까지 이 데이터 추적을 탐색할 수 있습니다.

목표

  • 샘플 파이프라인을 실행하여 계보 생성
  • 데이터 세트 및 필드 수준 계보 살펴보기
  • 업스트림 파이프라인에서 다운스트림 파이프 라인으로 핸드 셰이크 정보를 전달하는 방법 알아보기

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Cloud Data Fusion 인스턴스를 만듭니다.
  8. 다음 링크를 클릭하여 작은 샘플 데이터 세트를 로컬 머신에 다운로드합니다.

Cloud Data Fusion UI 열기

Cloud Data Fusion을 사용할 때는 Google Cloud 콘솔과 별도의 Cloud Data Fusion UI를 모두 사용합니다. Google Cloud 콘솔에서 Google Cloud 콘솔 프로젝트를 만들고 Cloud Data Fusion 인스턴스를 만들고 삭제할 수 있습니다. Cloud Data Fusion UI에서 계보와 같은 다양한 페이지를 사용하여 Cloud Data Fusion 기능에 액세스할 수 있습니다.

  1. Google Cloud 콘솔에서 인스턴스 페이지를 엽니다.

    인스턴스 페이지 열기

  2. 인스턴스의 작업 열에서 인스턴스 보기 링크를 클릭합니다. Cloud Data Fusion UI가 새 브라우저 탭에서 열립니다.

  3. 통합 창에서 Studio를 클릭하여 Cloud Data Fusion Studio 페이지를 엽니다.

파이프라인 배포 및 실행

  1. 원시 배송 데이터를 가져옵니다. 스튜디오 페이지에서 가져오기를 클릭하거나 +> 파이프라인> 가져오기를 클릭한 후 시작하기 전에 다운로드한 배송 데이터 정리 파이프라인을 선택하여 가져옵니다.

  2. 파이프라인 배포 Studio 페이지의 오른쪽 상단에 있는 배포를 클릭합니다. 배포 후 파이프라인 페이지가 열립니다.

  3. 파이프라인을 실행합니다. 파이프라인 페이지 가운데 상단에 있는 실행을 클릭합니다.

  4. 지연된 배송 데이터와 파이프라인을 가져오고, 배포하고, 실행합니다. 배송 데이터 정리 상태가 완료됨으로 표시되면 시작하기 전에에서 다운로드한 지연된 배송 미국 데이터에 이전 단계를 적용합니다. Studio 페이지로 돌아가 데이터를 가져온 후 파이프라인 페이지에서 이 두 번째 파이프라인을 배포 및 실행합니다. 두 번째 파이프라인이 성공적으로 완료되면 나머지 단계를 진행합니다.

데이터 세트 탐색

계보를 살펴보기 전에 데이터 세트를 탐색해야 합니다. Cloud Data Fusion UI 왼쪽 탐색 패널에서 메타데이터를 선택하여 메타데이터 검색 페이지를 엽니다. 배송 데이터 정리 데이터 세트가 참조 데이터 세트로 Cleaned-Shipments를 지정했으므로 검색창에 shipment를 삽입합니다. 검색결과에 이 데이터 세트가 포함됩니다.

태그를 사용하여 데이터 세트 탐색

메타데이터 검색은 Cloud Data Fusion 파이프라인에서 사용, 처리 또는 생성한 데이터 세트를 검색합니다. 파이프라인은 기술 및 운영 메타데이터를 생성 및 수집하는 구조화된 프레임워크에서 실행됩니다. 기술 메타데이터에는 데이터 세트 이름, 유형, 스키마, 필드, 생성 시간, 처리 정보가 포함됩니다. 이 기술 정보는 Cloud Data Fusion 메타데이터 검색 및 계보 기능에서 사용됩니다.

Cloud Data Fusion은 검색 기준으로 사용할 수 있는 태그 및 키-값 속성과 같은 비즈니스 메타데이터가 있는 데이터 세트 주석도 지원합니다. 예를 들어 원시 배송 데이터 세트에 비즈니스 태그 주석을 추가하고 검색하려면 다음 안내를 따르세요.

  1. 배송 데이터 정리 파이프라인 페이지에서 원시 배송 데이터의 속성 버튼을 클릭하여 Cloud Storage 속성 페이지를 엽니다.

  2. 메타데이터 보기를 클릭하여 검색 페이지를 엽니다.

  3. 비즈니스 태그에서 +를 클릭한 후 태그 이름(영숫자 및 밑줄 문자 사용 가능)을 삽입하고 Enter 키를 누릅니다.

계보 살펴보기

데이터 세트 수준 계보

데이터 세트 검색의 검색 페이지에 나와 있는 정리된 배송 데이터 세트 이름을 클릭한 후 계보 탭을 클릭합니다. 계보 그래프는 이 데이터 세트는 Raw_Shipping_Data 데이터 세트를 사용한 Shipments-Data-Cleansing 파이프라인에서 생성되었음을 보여줍니다.

왼쪽 및 오른쪽 화살표를 사용하면 이전 또는 이후 데이터 세트 계보를 앞뒤로 탐색할 수 있습니다. 이 예시에서 그래프는 Cleaned-Shipments 데이터 세트의 전체 계보를 표시합니다.

필드 수준 계보

Cloud Data Fusion 필드 수준 계보는 데이터 세트 필드와 다양한 필드를 생성하기 위해 필드 집합에서 수행된 변환 간의 관계를 보여줍니다. 데이터 세트 수준 계보와 같이 필드 수준 계보는 시간 제한적이며 결과는 시간에 따라 변경됩니다.

데이터 세트 수준 계보 단계에 이어 정리된 배송 데이터 세트 수준 계보 그래프의 오른쪽 상단에 있는 필드 수준 계보 버튼을 클릭하여 필드 수준 계보 그래프를 표시합니다.

필드 수준 계보 그래프는 필드 간의 연결을 보여줍니다. 필드를 선택하여 계보를 볼 수 있습니다. 해당 필드의 계보만 보려면 보기 > 필드 고정을 선택합니다.

영향 분석을 수행하려면 보기 > 영향 보기를 선택합니다.

원인 및 영향 링크는 필드 양측에서 수행된 변환을 사람이 읽을 수 있는 원장 형식으로 보여줍니다. 이 정보는 보고 및 거버넌스에 매우 중요합니다.

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

튜토리얼을 마쳤으면 리소스가 할당량을 차지하지 않고 이후에 요금이 청구되지 않도록 Google Cloud에 만든 리소스를 삭제합니다. 다음 섹션은 이러한 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.

튜토리얼 데이터 세트 삭제

이 튜토리얼은 프로젝트에 테이블이 여러 개 있는 logistics_demo 데이터 세트를 만듭니다.

Google Cloud 콘솔의 BigQuery 웹 UI에서 데이터 세트를 삭제할 수 있습니다.

Cloud Data Fusion 인스턴스 삭제

안내에 따라 Cloud Data Fusion 인스턴스를 삭제합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

다음 단계