Data Catalog와 데이터 소스 통합

Data Catalog는 여러 Google Cloud 데이터 소스 및 다수의 많이 사용되는 온프레미스 데이터 소스에서 최신 메타데이터를 수집하고 유지할 수 있습니다.

Data Catalog는 메타데이터를 수집하여 다음 작업을 수행합니다.

  • 검색을 통해 기존 메타데이터를 검색할 수 있도록 합니다. 자세한 내용은 검색 방법을 참조하세요.
  • 조직의 구성원이 태그를 통해 추가 비즈니스 메타데이터로 데이터를 보강할 수 있습니다. 자세한 내용은 태그 및 태그 템플릿을 참조하세요.

Google Cloud 소스와의 통합은 자동으로 수행되지만 조직에서 사용하는 커스텀 온프레미스 소스와 통합하려면 다음을 수행합니다.

시작하기 전에

Data Catalog를 이미 사용 중인 경우 Data Catalog API가 사용 설정된 프로젝트가 이미 있어야 합니다. Data Catalog에서 여러 프로젝트를 사용하는 데 권장하는 방법에 대한 자세한 내용은 여러 프로젝트에서 태그 템플릿 사용을 참조하세요.

Data Catalog와 처음 상호작용하는 경우 다음을 수행합니다.

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Data Catalog API를 사용 설정합니다.

    API 사용 설정

Google Cloud 데이터 소스 통합

BigQuery 및 Pub/Sub

조직에서 이미 BigQuery 및 Pub/Sub를 사용하는 경우 권한에 따라 즉시 해당 소스에서 메타데이터를 검색할 수 있습니다. 해당 항목이 검색결과에 표시되지 않으면 관리자와 프로젝트 사용자가 Identity and Access Management에서 필요할 수 있는 IAM 역할을 찾습니다.

Dataproc Metastore(미리보기)

Dataproc Metastore와 통합하려면 Data Catalog 동기화 사용 설정에 설명된 대로 신규 또는 기존 서비스에 대해 Data Catalog와 동기화를 사용 설정합니다.

Cloud Data Loss Prevention(Cloud DLP)

또한 Data Catalog는 Cloud Data Loss Prevention과 통합되어 특정 Google Cloud 리소스에서 민감한 정보를 스캔하고 태그 형태로 결과를 Data Catalog로 보낼 수 있습니다.

자세한 내용은 Cloud DLP 스캔 결과를 Data Catalog로 전송을 참조하세요.

온프레미스 데이터 소스 통합

온프레미스 데이터 소스를 통합하려면 커뮤니티에서 기부한 해당 Python 커넥터를 사용할 수 있습니다.

  1. 아래 표에서 데이터 소스를 찾습니다.
  2. GitHub 저장소를 엽니다.
  3. readme 파일의 설정 안내를 따르세요.

카테고리 구성요소 설명 저장소
RDBMS mysql-connector MySQL 데이터 소스의 샘플 코드입니다. google-datacatalog-mysql-connector
postgresql-connector PostgreSQL 데이터 소스의 샘플 코드입니다. google-datacatalog-postgresql-connector
sqlserver-connector SQLServer 데이터 소스의 샘플 코드입니다. google-datacatalog-sqlserver-connector
redshift-connector Redshift 데이터 소스의 샘플 코드입니다. google-datacatalog-redshift-connector
oracle-connector Oracle 데이터 소스의 샘플 코드입니다. google-datacatalog-oracle-connector
teradata-connector Teradata 데이터 소스의 샘플 코드입니다. google-datacatalog-teradata-connector
vertica-connector Vertica 데이터 소스의 샘플 코드입니다. google-datacatalog-vertica-connector
greenplum-connector Greenplum 데이터 소스의 샘플 코드입니다. google-datacatalog-greenplum-connector
rdbmscsv-connector 일반적인 RDBMS CSV 수집을 위한 샘플 코드입니다. google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana 데이터 소스의 샘플 코드입니다. google-datacatalog-saphana-connector
BI : 비즈니스 인텔리전스 looker-connector Looker 데이터 소스의 샘플 코드입니다. google-datacatalog-looker-connector
qlik-connector Qlik Sense 데이터 소스의 샘플 코드입니다. google-datacatalog-qlik-connector
tableau-connector Tableau 데이터 소스의 샘플 코드입니다. google-datacatalog-tableau-connector
Hive hive-connector Hive 데이터 소스의 샘플 코드입니다. google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas 데이터 소스의 샘플 코드입니다. google-datacatalog-apache-atlas-connector

지원되지 않는 데이터 소스 통합

데이터 소스의 커넥터를 찾을 수 없는 경우에도 항목 그룹 및 커스텀 항목을 만들어 수동으로 통합할 수 있습니다. 이렇게 하려면 다음을 수행하세요.

소스를 통합하려면 먼저 항목 및 항목 그룹을 알아본 후 데이터 소스의 커스텀 Data Catalog 항목 만들기의 안내를 따르세요.

다음 단계