Data Catalog와 데이터 소스 통합

Data Catalog는 여러 Google Cloud 데이터 소스 및 다수의 많이 사용되는 온프레미스 데이터 소스에서 최신 메타데이터를 가져오고 유지할 수 있습니다.

Data Catalog는 메타데이터를 수집하여 다음 작업을 수행합니다.

  • 검색을 통해 기존 메타데이터를 검색할 수 있도록 합니다. 자세한 내용은 검색 방법을 참조하세요.
  • 조직의 구성원이 태그를 통해 추가 비즈니스 메타데이터로 데이터를 보강할 수 있습니다. 자세한 내용은 태그 및 태그 템플릿을 참조하세요.

Google Cloud 소스와의 통합은 자동으로 수행되지만 조직에서 사용하는 커스텀 온프레미스 소스와 통합하려면 다음을 수행합니다.

시작하기 전에

Data Catalog를 이미 사용 중인 경우 Data Catalog API가 사용 설정된 프로젝트가 이미 있어야 합니다. Data Catalog에서 여러 프로젝트를 사용하는 데 권장하는 방법에 대한 자세한 내용은 여러 프로젝트에서 태그 템플릿 사용을 참조하세요.

Data Catalog와 처음 상호작용하는 경우 다음을 수행합니다.

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. Data Catalog API 사용 설정

    API 사용 설정

  5. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. Data Catalog API 사용 설정

    API 사용 설정

Google Cloud 데이터 소스 통합

Analytics Hub

Analytics Hub의 목록을 구독하면 연결된 데이터 세트가 프로젝트에 생성됩니다. Data Catalog는 연결된 데이터 세트와 데이터 세트에 포함된 모든 테이블의 메타데이터 항목을 자동으로 생성합니다. 연결된 데이터 세트와 기타 Analytics Hub 기능에 대한 자세한 내용은 Analytics Hub 소개를 참조하세요.

Data Catalog 검색에서는 연결된 데이터 세트가 표준 BigQuery 데이터 세트로 표시되지만 type=dataset.linked 조건자를 사용하여 필터링할 수 있습니다. 자세한 내용은 데이터 애셋 검색을 참조하세요.

BigQuery 및 Pub/Sub

조직에서 이미 BigQuery 및 Pub/Sub를 사용하는 경우 권한에 따라 즉시 해당 소스에서 메타데이터를 검색할 수 있습니다. 해당 항목이 검색결과에 표시되지 않으면 관리자와 프로젝트 사용자가 Identity and Access Management에서 필요할 수 있는 IAM 역할을 찾습니다.

민감한 정보 보호

또한 Data Catalog는 민감한 정보 보호와 통합되어 특정 Google Cloud 리소스에서 민감한 정보를 스캔하고 태그 형태로 결과를 Data Catalog로 보낼 수 있습니다.

자세한 내용은 Data Catalog에 민감한 정보 보호 스캔 결과 전송을 참조하세요.

Bigtable

Bigtable에 데이터를 저장하면 메타데이터가 다음 Bigtable 리소스의 Data Catalog에 자동으로 동기화됩니다.

  • 인스턴스
  • column family 세부정보를 포함한 테이블

Data Catalog를 사용하여 데이터를 검색하고 태그를 지정하는 방법은 Bigtable 문서의 Data Catalog를 사용한 데이터 애셋 관리를 참조하세요.

Spanner(미리보기)

Spanner에 데이터를 저장하면 다음 Spanner 리소스의 메타데이터가 Data Catalog에 동기화됩니다.

  • 인스턴스
  • 데이터베이스
  • 열 스키마가 있는 테이블 및 뷰

Data Catalog를 사용하여 데이터를 검색하고 태그를 지정하는 방법은 Data Catalog를 사용한 데이터 애셋 관리를 참조하세요.

Dataproc Metastore

Dataproc Metastore와 통합하려면 Data Catalog 동기화 사용 설정에 설명된 대로 신규 또는 기존 서비스에 대해 Data Catalog와 동기화를 사용 설정합니다.

Vertex AI

Vertex AI는 다음 리소스의 메타데이터를 Data Catalog에 동기화합니다.

온프레미스 데이터 소스 통합

온프레미스 데이터 소스를 통합하려면 커뮤니티에서 기부한 해당 Python 커넥터를 사용할 수 있습니다.

  1. 아래 표에서 데이터 소스를 찾습니다.
  2. GitHub 저장소를 엽니다.
  3. readme 파일의 설정 안내를 따르세요.
카테고리 구성요소 설명 저장소
RDBMS mysql-connector MySQL 데이터 소스의 샘플 코드입니다. google-datacatalog-mysql-connector
postgresql-connector PostgreSQL 데이터 소스의 샘플 코드입니다. google-datacatalog-postgresql-connector
sqlserver-connector SQLServer 데이터 소스의 샘플 코드입니다. google-datacatalog-sqlserver-connector
redshift-connector Redshift 데이터 소스의 샘플 코드입니다. google-datacatalog-redshift-connector
oracle-connector Oracle 데이터 소스의 샘플 코드입니다. google-datacatalog-oracle-connector
teradata-connector Teradata 데이터 소스의 샘플 코드입니다. google-datacatalog-teradata-connector
vertica-connector Vertica 데이터 소스의 샘플 코드입니다. google-datacatalog-vertica-connector
greenplum-connector Greenplum 데이터 소스의 샘플 코드입니다. google-datacatalog-greenplum-connector
rdbmscsv-connector 일반적인 RDBMS CSV 수집을 위한 샘플 코드입니다. google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana 데이터 소스의 샘플 코드입니다. google-datacatalog-saphana-connector
BI : 비즈니스 인텔리전스 looker-connector Looker 데이터 소스의 샘플 코드입니다. google-datacatalog-looker-connector
qlik-connector Qlik Sense 데이터 소스의 샘플 코드입니다. google-datacatalog-qlik-connector
tableau-connector Tableau 데이터 소스의 샘플 코드입니다. google-datacatalog-tableau-connector
Hive hive-connector Hive 데이터 소스의 샘플 코드입니다. google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas 데이터 소스의 샘플 코드입니다. google-datacatalog-apache-atlas-connector

지원되지 않는 데이터 소스 통합

데이터 소스의 커넥터를 찾을 수 없는 경우에도 항목 그룹 및 커스텀 항목을 만들어 수동으로 통합할 수 있습니다. 이렇게 하려면 다음을 수행하세요.

소스를 통합하려면 먼저 항목 및 항목 그룹을 알아본 후 데이터 소스의 커스텀 Data Catalog 항목 만들기의 안내를 따르세요.

다음 단계