Data Catalog 개요

데이터 애셋을 관리할 때 적절한 도구가 없으면 시간과 비용이 많이 들 수 있습니다. Data Catalog를 사용하는 조직은 중앙 집중식 공간에서 데이터 애셋을 찾아 선별하고 설명할 수 있습니다.

Data Catalog는 Google Cloud의 데이터 애널리틱스 제품군에서 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다.

Data Catalog 사용

Data Catalog와 상호작용하는 방법은 크게 2가지가 있습니다.

  • 액세스 권한이 있는 데이터 애셋 검색
  • 메타데이터로 애셋 태그하기

또한 Data Catalog는 Cloud Data Loss Prevention(DLP)과 상호작용하여 Cloud Data Loss Prevention의 강력한 자동 태그 지정 방식으로 민감한 정보를 자동으로 식별합니다.

Data Catalog 작동 방식

데이터 카탈로그는 다음 Google Cloud 스토리지 시스템 소스에서 데이터 자산에 대한 기본 메타데이터를 카탈로그할 수 있습니다.

  • BigQuery 데이터세트, 테이블, 뷰
  • 게시/구독 주제

Data Catalog API를 사용하여 커스텀 데이터 리소스 유형의 항목을 만들고 관리할 수도 있습니다.

데이터가 카탈로그화된 후 태그를 사용하여 고유한 메타데이터를 이러한 자산에 추가할 수 있습니다.

기술 및 비즈니스 메타데이터

Data Catalog는 기술 메타데이터비즈니스 메타데이터라는 두 가지 유형의 메타데이터를 처리합니다. 차이점을 이해하려면 아래의 Data Catalog 항목 예시를 참조하세요.

Data Catalog 항목 예시

  • 기술 메타데이터 : 위의 빨간색 상자에 표시된 것은 데이터 자산이 존재하는 기본 스토리지 시스템에서 가져온 것으로 다음을 포함합니다.
    • 프로젝트 정보(예: 이름, ID)
    • 애셋 이름 및 설명
    • Google Cloud 리소스 라벨
    • 스키마 이름 및 BigQuery 테이블과 뷰에 대한 설명
  • 비즈니스 메타데이터: 위의 파란색 상자에 표시된 것은 데이터 카탈로그 태그를 사용하여 자산에 적용된 사용자 생성 메타데이터입니다. 비즈니스 메타데이터는 항상 기술 메타데이터 항목과 연결됩니다.

검색 및 탐색

데이터 카탈로그는 데이터 자산에 대한 기술 및 비즈니스 메타데이터 모두에 대해 강력하고 구조화된 검색 기능과 조건자 기반 필터링을 제공합니다. 데이터 애셋을 검색하고 탐색하려면 데이터 애셋의 메타데이터를 읽을 수 있어야 합니다. Data Catalog는 데이터 애셋 내의 데이터에 대한 색인을 생성하지 않습니다. Data Catalog는 애셋을 설명하는 메타데이터의 색인을 생성합니다.

Data Catalog는 사용자가 생성한 태그 같은 일부 메타데이터를 제어하지만, 기본 스토리지 시스템에서 가져온 모든 메타데이터에 대해서는 기본 스토리지 시스템에서 제공하는 메타데이터와 권한을 제어할 수 없고 반영하기만 하는 읽기 전용 서비스입니다. 추가, 삭제, 업데이트 등 애셋의 기본 메타데이터 수정은 기본 스토리지 시스템에서 수행할 수 있습니다.

지정된 프로젝트의 경우 Data Catalog는 Cloud Storage, Cloud Bigtable 또는 Google 스프레드시트의 모든 BigQuery 데이터세트, 테이블, 뷰, 외부 테이블을 자동으로 분류합니다. Data Catalog는 해당 프로젝트에서 Pub/Sub 주제도 자동으로 분류합니다.

메타데이터 액세스 권한이 있는 프로젝트 ID 내의 애셋을 분류하는 것 외에 Data Catalog는 공개 데이터세트가 포함된 BigQuery 프로젝트에 저장된 데이터를 분류할 수 있습니다.

태그

특히 조직 내 여러 그룹에서 데이터를 사용하는 경우 대규모의 데이터 애셋을 문서화하기가 어렵습니다. 각 그룹은 데이터 애셋을 설명하는 자체 문서 모음을 보유하고 있습니다 Data Catalog 태그 템플릿을 사용하면 데이터 애셋의 공통 메타데이터를 한 곳에서 만들고 관리할 수 있습니다. 태그는 데이터 애셋에 연결되므로 Data Catalog 시스템에서 검색 가능합니다. 이 기능을 사용하면 데이터 애셋의 상황별 메타데이터를 사용하는 애플리케이션을 추가로 빌드한 후 추가 작업을 수행할 수 있습니다.

Data Catalog와 상호작용하는 방법

Cloud Console, gcloud 명령줄 인터페이스(CLI), Data Catalog API를 사용하거나 Cloud 클라이언트 라이브러리를 통해 API를 호출하여 Data Catalog에 액세스할 수 있습니다.

다음 단계