Data Catalog란?

Data Catalog는 Google Cloud의 데이터 애널리틱스 제품군에서 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다.

Data Catalog가 필요한 이유는 무엇인가요?

오늘날 대부분의 조직은 점점 증가하는 대규모 데이터 애셋을 다룹니다.

조직 내의 데이터 이해관계자(소비자, 제작자, 관리자)는 여러 문제를 겪고 있습니다.

  • 유용한 데이터 검색:

    • 데이터 소비자는 데이터의 위치와 출처를 알 수 없습니다. 데이터 '늪'을 탐색해야 합니다.
    • 대부분의 데이터는 잘 문서화되어 있지 않으며 문서화되어 있더라도 제대로 유지관리되어 있지 않으므로 데이터 소비자는 유용한 정보를 얻기 위해 어떤 데이터를 사용해야 할지 모릅니다.
    • 데이터가 사람들의 머리 속에만 있으면 찾을 수 없으며 손실되기 쉽습니다.
  • 데이터 이해:

    • 프로덕션에서 사용할 수 있도록 최신이며 정제, 검증, 승인된 최신 데이터인가요?
    • 여러 중복 데이터 세트 중 관련이 있는 어떤 데이터 세트가 관련성이 있고 최신인가요?
    • 하나의 데이터 세트는 다른 데이터 세트와 어떤 관련이 있나요?
    • 누가 데이터를 사용하고 누가 소유자인가요?
    • 누가 어떤 프로세스로 데이터를 변환하나요?
  • 데이터를 유용하게 활용:

    • 데이터 제작자가 소비자를 위한 데이터를 전달할 수 있는 효율적인 방법이 없습니다. 셀프서비스가 없으면 제작자는 소비자를 감당할 수 없습니다. 데이터 엔지니어 몇 명이 데이터 분석가 수천 명에게 수동으로 데이터를 제공할 수 없습니다.

    • 데이터 소비자가 데이터 액세스를 요청하는 방법을 알아내고 데이터 액세스를 요청하며 정의된 응답 시간 없이 대기하고 에스컬레이션하고 다시 대기해야 한다면 소중한 시간을 낭비하게 됩니다.

적절한 도구가 없으면 이러한 문제가 데이터를 효율적으로 활용하는 데 큰 장애물이 됩니다. Data Catalog를 사용하는 조직은 중앙 집중식 공간에서 다음을 수행할 수 있습니다.

  • 통합 뷰가 있으면 적절한 데이터를 쉽게 찾을 수 있습니다.
  • 기술 및 비즈니스 메타데이터로 데이터를 보강하여 데이터 중심의 의사결정을 지원하고 통계 시간을 단축합니다.
  • 데이터 관리를 개선하여 운영 효율성과 생산성을 향상합니다.
  • 데이터에 대한 소유권을 기반으로 신뢰성을 높입니다.

Data Catalog 함수

Data Catalog는 두 가지 기본 기능을 제공합니다.

  • 액세스 권한이 있는 데이터 항목 검색
  • 메타데이터로 데이터 항목에 태그 지정

또한 Data Catalog는 Cloud Data Loss Prevention(DLP) 스캔의 결과를 활용하여 Data Catalog 내에서 태그 템플릿 형태로 민감한 정보를 직접 식별할 수 있습니다.

Data Catalog 작동 방식

Data Catalog는 여러 Google Cloud 시스템 소스에서 가져온 데이터 항목의 메타데이터를 분류할 수 있습니다.

Data Catalog API를 사용하여 커스텀 데이터 리소스 유형의 항목을 만들고 관리할 수도 있습니다.

데이터가 카탈로그화된 후 태그를 사용하여 고유한 메타데이터를 이러한 자산에 추가할 수 있습니다.

Data Catalog는 Pub/Sub, BigQuery, Dataplex, Dataproc Metastore, Cloud Storage의 데이터 항목을 분류합니다.

그림 1. Data Catalog 아키텍처

Data Catalog 메타데이터

Data Catalog는 기술 메타데이터비즈니스 메타데이터라는 두 가지 유형의 메타데이터를 처리합니다. 메타데이터에 대한 자세한 내용은 Data Catalog 메타데이터를 참조하세요.

검색 및 탐색

Data Catalog는 데이터 항목과 연결된 기술 및 비즈니스 메타데이터에 대해 간단하면서도 강력한 조건자 기반 검색 환경을 제공합니다. 메타데이터에 검색 및 탐색을 적용하려면 데이터 항목의 메타데이터를 읽을 수 있는 권한이 있어야 합니다. Data Catalog는 데이터 항목 내의 데이터에 대한 색인을 생성하지 않습니다. Data Catalog는 애셋을 설명하는 메타데이터의 색인만 생성합니다.

Data Catalog는 사용자가 생성한 태그 같은 일부 메타데이터를 제어합니다. 기본 스토리지 시스템에서 가져온 모든 메타데이터에 대해 Data Catalog는 기본 스토리지 시스템에서 제공하는 메타데이터와 권한을 반영하는 읽기 전용 서비스입니다. 기본 스토리지 시스템에서 편집하여 데이터 항목의 메타데이터를 추가, 업데이트 또는 삭제할 수 있습니다.

Data Catalog 검색에 대한 자세한 내용은 Data Catalog로 데이터 애셋 검색을 참조하세요.

애셋 자동 카탈로그

특정 프로젝트의 경우 Data Catalog는 다음 Google Cloud 애셋을 자동으로 분류합니다.

  • BigQuery 데이터 세트, 테이블, 뷰
  • Pub/Sub 주제
  • Dataplex 레이크, 영역, 테이블, 파일 세트
  • (공개 미리보기): Dataproc Metastore 서비스, 데이터베이스, 테이블
  • (공개 미리보기): Analytics Hub 연결 데이터 세트

메타데이터 액세스 권한이 있는 프로젝트 ID 내의 애셋을 분류하는 것 외에 Data Catalog는 공개 데이터 세트가 포함된 BigQuery 프로젝트에 저장된 데이터를 분류할 수 있습니다.

GCP가 아닌 애셋 카탈로그

GCP가 아닌 시스템의 메타데이터를 카탈로그로 분류하려면 다음을 사용합니다.

Data Catalog 액세스

다음 방법 중 하나를 사용하여 Data Catalog에 액세스할 수 있습니다.

다음 단계