Data Catalog란?

Data Catalog는 Google Cloud의 데이터 애널리틱스 제품군에서 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다.

Data Catalog가 필요한 이유는 무엇인가요?

오늘날 대부분의 조직은 점점 증가하는 대규모 데이터 애셋을 다룹니다.

조직 내의 데이터 이해관계자(소비자, 제작자, 관리자)는 여러 문제를 겪고 있습니다.

  • 유용한 데이터 검색:

    • 데이터 소비자는 데이터가 있는 위치를 알지 못합니다. 우연히 발견한 데이터 "늪"을 탐색해야 합니다.
    • 대부분의 데이터는 잘 문서화되어 있지 않으며 문서화되어 있더라도 제대로 유지관리되어 있지 않으므로 데이터 소비자는 유용한 정보를 얻기 위해 어떤 데이터를 사용해야 할지 모릅니다.
    • 데이터가 사람들의 머리 속에만 있으면 찾을 수 없으며 손실되기 쉽습니다.
  • 데이터 이해:

    • 프로덕션에서 사용할 수 있도록 최신이며 정제, 검증, 승인된 최신 데이터인가요?
    • 여러 중복 데이터 세트 중 관련이 있는 어떤 데이터 세트가 관련성이 있고 최신인가요?
    • 하나의 데이터 세트는 다른 데이터 세트와 어떤 관련이 있나요?
    • 누가 데이터를 사용하고 누가 소유자인가요?
    • 누가 어떤 프로세스로 데이터를 변환하나요?
  • 데이터를 유용하게 활용:

    • 데이터 제작자가 소비자를 위한 데이터를 전달할 수 있는 효율적인 방법이 없습니다. 셀프서비스가 없으면 제작자는 소비자를 감당할 수 없습니다. 데이터 엔지니어 몇 명이 데이터 분석가 수천 명에게 수동으로 데이터를 제공할 수 없습니다.

    • 데이터 소비자가 데이터 액세스를 요청하는 방법을 알아내고 데이터 액세스를 요청하며 정의된 응답 시간 없이 대기하고 에스컬레이션하고 다시 대기해야 한다면 소중한 시간을 낭비하게 됩니다.

적절한 도구가 없으면 위의 모든 문제가 데이터를 효율적으로 활용하는 데 큰 장애물이 됩니다. Data Catalog는 조직에서 다음을 수행할 수 있는 중앙 집중식 공간을 제공합니다.

  • 통합 뷰가 있으면 적절한 데이터를 쉽게 찾을 수 있습니다.
  • 기술 및 비즈니스 메타데이터로 데이터를 보강하여 데이터 기반 의사 결정을 내리고 유용한 정보를 빠르게 얻을 수 있습니다.
  • 데이터 관리를 개선하여 운영 효율성과 생산성을 향상합니다.
  • 데이터에 대한 소유권을 기반으로 신뢰성을 높입니다.

Data Catalog 사용

Data Catalog와 상호작용하는 방법은 크게 2가지가 있습니다.

  • 액세스 권한이 있는 데이터 애셋 검색
  • 메타데이터로 애셋 태그하기

또한 Data Catalog는 Cloud Data Loss Prevention(DLP) 스캔의 결과를 활용하여 Data Catalog 내에서 태그 템플릿 형태로 민감한 정보를 직접 식별할 수 있습니다.

Data Catalog 작동 방식

데이터 카탈로그는 다음 Google Cloud 시스템 소스에서 데이터 자산에 대한 기본 메타데이터를 카탈로그할 수 있습니다.

  • BigQuery 데이터 세트, 테이블, 뷰
  • 게시/구독 주제
  • Dataproc Metastore 서비스, 데이터베이스, 테이블

Data Catalog API를 사용하여 커스텀 데이터 리소스 유형의 항목을 만들고 관리할 수도 있습니다.

데이터가 카탈로그화된 후 태그를 사용하여 고유한 메타데이터를 이러한 자산에 추가할 수 있습니다.

기술 및 비즈니스 메타데이터

Data Catalog는 기술 메타데이터비즈니스 메타데이터라는 두 가지 유형의 메타데이터를 처리합니다. 차이점을 이해하려면 아래의 Data Catalog 항목 예시를 참조하세요.

  • 기술 메타데이터: 위의 BigQuery 테이블 세부정보 아래에 표시되며 데이터 애셋이 있는 기본 스토리지 시스템에서 가져온 것으로 다음이 포함됩니다.

    • 프로젝트 정보(예: 이름, ID)
    • 애셋 이름 및 설명
    • Google Cloud 리소스 라벨
    • 스키마 이름 및 BigQuery 테이블과 뷰에 대한 설명
  • 비즈니스 메타데이터: 위의 태그(1) 아래에 표시된 것은 데이터 카탈로그 태그를 사용하여 자산에 적용된 사용자 생성 메타데이터입니다. 비즈니스 메타데이터는 항상 기술 메타데이터 항목과 연결됩니다.

검색 및 탐색

데이터 카탈로그는 데이터 자산에 대한 기술 및 비즈니스 메타데이터 모두에 대해 강력하고 구조화된 검색 기능과 조건자 기반 필터링을 제공합니다. 데이터 애셋을 검색하고 탐색하려면 데이터 애셋의 메타데이터를 읽을 수 있어야 합니다. Data Catalog는 데이터 애셋 내의 데이터에 대한 색인을 생성하지 않습니다. Data Catalog는 애셋을 설명하는 메타데이터의 색인을 생성합니다.

Data Catalog는 사용자가 생성한 태그 같은 일부 메타데이터를 제어하지만, 기본 스토리지 시스템에서 가져온 모든 메타데이터에 대해서는 기본 스토리지 시스템에서 제공하는 메타데이터와 권한을 제어할 수 없고 반영하기만 하는 읽기 전용 서비스입니다. 추가, 삭제, 업데이트 등 애셋의 기본 메타데이터 수정은 기본 스토리지 시스템에서 수행할 수 있습니다.

특정 프로젝트의 경우 Data Catalog는 다음 Google Cloud 애셋을 자동으로 분류합니다.

  • BigQuery 데이터 세트, 테이블, 뷰
  • 게시/구독 주제
  • (미리보기)Dataproc Metastore 서비스, 데이터베이스, 테이블

메타데이터 액세스 권한이 있는 프로젝트 ID 내의 애셋을 분류하는 것 외에 Data Catalog는 공개 데이터 세트가 포함된 BigQuery 프로젝트에 저장된 데이터를 분류할 수 있습니다.

GCP가 아닌 시스템의 메타데이터를 카탈로그로 분류하려면 다음을 사용합니다.

태그

특히 조직 내 여러 그룹에서 데이터를 사용하는 경우 대규모의 데이터 애셋을 문서화하기가 어렵습니다. 각 그룹은 데이터 애셋을 설명하는 자체 문서 모음을 보유하고 있습니다 Data Catalog 태그 템플릿을 사용하면 데이터 애셋의 공통 메타데이터를 한 곳에서 만들고 관리할 수 있습니다. 태그는 데이터 애셋에 연결되므로 Data Catalog 시스템에서 검색 가능합니다. 이 기능을 사용하면 데이터 애셋의 상황별 메타데이터를 사용하는 애플리케이션을 추가로 빌드한 후 추가 작업을 수행할 수 있습니다.

Data Catalog와 상호작용하는 방법

Cloud Console, gcloud 명령줄 인터페이스(CLI), Data Catalog API를 사용하거나 Cloud 클라이언트 라이브러리를 통해 API를 호출하여 Data Catalog에 액세스할 수 있습니다.

다음 단계