Data Catalog는 여러 Google Cloud 데이터 소스 및 다수의 많이 사용되는 온프레미스 데이터 소스에서 최신 메타데이터를 가져오고 유지할 수 있습니다.
Data Catalog는 메타데이터를 수집하여 다음 작업을 수행합니다.
- 검색을 통해 기존 메타데이터를 검색할 수 있도록 합니다. 자세한 내용은 검색 방법을 참조하세요.
- 조직의 구성원이 태그를 통해 추가 비즈니스 메타데이터로 데이터를 보강할 수 있습니다. 자세한 내용은 태그 및 태그 템플릿을 참조하세요.
Google Cloud 소스와의 통합은 자동으로 수행되지만 조직에서 사용하는 커스텀 온프레미스 소스와 통합하려면 다음을 수행합니다.
- 커뮤니티에서 제공하는 해당 커넥터를 설정하고 실행합니다.
- 또는 커스텀 항목에 Data Catalog API를 활용합니다.
시작하기 전에
Data Catalog를 이미 사용 중인 경우 Data Catalog API가 사용 설정된 프로젝트가 이미 있어야 합니다. Data Catalog에서 여러 프로젝트를 사용하는 데 권장하는 방법에 대한 자세한 내용은 여러 프로젝트에서 태그 템플릿 사용을 참조하세요.
Data Catalog와 처음 상호작용하는 경우 다음을 수행합니다.
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog API.
Google Cloud 데이터 소스 통합
Analytics Hub
Analytics Hub의 목록을 구독하면 연결된 데이터 세트가 프로젝트에 생성됩니다. Data Catalog는 연결된 데이터 세트와 데이터 세트에 포함된 모든 테이블의 메타데이터 항목을 자동으로 생성합니다. 연결된 데이터 세트와 기타 Analytics Hub 기능에 대한 자세한 내용은 Analytics Hub 소개를 참조하세요.
Data Catalog 검색에서는 연결된 데이터 세트가 표준 BigQuery 데이터 세트로 표시되지만 type=dataset.linked
조건자를 사용하여 필터링할 수 있습니다. 자세한 내용은 데이터 애셋 검색을 참조하세요.
BigQuery 및 Pub/Sub
조직에서 이미 BigQuery 및 Pub/Sub를 사용하는 경우 권한에 따라 즉시 해당 소스에서 메타데이터를 검색할 수 있습니다. 해당 항목이 검색결과에 표시되지 않으면 관리자와 프로젝트 사용자가 Identity and Access Management에서 필요할 수 있는 IAM 역할을 찾습니다.
Bigtable
Bigtable에 데이터를 저장하면 메타데이터가 다음 Bigtable 리소스의 Data Catalog에 자동으로 동기화됩니다.
- 인스턴스
- column family 세부정보를 포함한 테이블
Data Catalog를 사용하여 데이터를 검색하고 태그를 지정하는 방법은 Bigtable 문서의 Data Catalog를 사용한 데이터 애셋 관리를 참조하세요.
Dataproc Metastore
Dataproc Metastore와 통합하려면 Data Catalog 동기화 사용 설정에 설명된 대로 신규 또는 기존 서비스에 대해 Data Catalog와 동기화를 사용 설정합니다.
Sensitive Data Protection
또한 Data Catalog는 민감한 정보 보호와 통합되어 특정 Google Cloud 리소스에서 민감한 정보를 스캔하고 태그 형태로 결과를 Data Catalog로 보낼 수 있습니다.
자세한 내용은 Data Catalog에 민감한 정보 보호 스캔 결과 전송을 참조하세요.
Spanner(미리보기)
Spanner에 데이터를 저장하면 다음 Spanner 리소스의 메타데이터가 Data Catalog에 동기화됩니다.
- 인스턴스
- 데이터베이스
- 열 스키마가 있는 테이블 및 뷰
Data Catalog를 사용하여 데이터를 검색하고 태그를 지정하는 방법은 Data Catalog를 사용한 데이터 애셋 관리를 참조하세요.
Vertex AI
Vertex AI는 다음 리소스의 메타데이터를 Data Catalog에 동기화합니다.
온프레미스 데이터 소스 통합
온프레미스 데이터 소스를 통합하려면 커뮤니티에서 기부한 해당 Python 커넥터를 사용할 수 있습니다.
- 아래 표에서 데이터 소스를 찾습니다.
- GitHub 저장소를 엽니다.
- readme 파일의 설정 안내를 따르세요.
카테고리 | 구성요소 | 설명 | 저장소 |
---|---|---|---|
RDBMS | mysql-connector | MySQL 데이터 소스의 샘플 코드입니다. | google-datacatalog-mysql-connector |
postgresql-connector | PostgreSQL 데이터 소스의 샘플 코드입니다. | google-datacatalog-postgresql-connector | |
sqlserver-connector | SQLServer 데이터 소스의 샘플 코드입니다. | google-datacatalog-sqlserver-connector | |
redshift-connector | Redshift 데이터 소스의 샘플 코드입니다. | google-datacatalog-redshift-connector | |
oracle-connector | Oracle 데이터 소스의 샘플 코드입니다. | google-datacatalog-oracle-connector | |
teradata-connector | Teradata 데이터 소스의 샘플 코드입니다. | google-datacatalog-teradata-connector | |
vertica-connector | Vertica 데이터 소스의 샘플 코드입니다. | google-datacatalog-vertica-connector | |
greenplum-connector | Greenplum 데이터 소스의 샘플 코드입니다. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | 일반적인 RDBMS CSV 수집을 위한 샘플 코드입니다. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Sap Hana 데이터 소스의 샘플 코드입니다. | google-datacatalog-saphana-connector | |
BI : 비즈니스 인텔리전스 | looker-connector | Looker 데이터 소스의 샘플 코드입니다. | google-datacatalog-looker-connector |
qlik-connector | Qlik Sense 데이터 소스의 샘플 코드입니다. | google-datacatalog-qlik-connector | |
tableau-connector | Tableau 데이터 소스의 샘플 코드입니다. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Hive 데이터 소스의 샘플 코드입니다. | google-datacatalog-hive-connector |
apache-atlas-connector | Apache Atlas 데이터 소스의 샘플 코드입니다. | google-datacatalog-apache-atlas-connector |
지원되지 않는 데이터 소스 통합
데이터 소스의 커넥터를 찾을 수 없는 경우에도 항목 그룹 및 커스텀 항목을 만들어 수동으로 통합할 수 있습니다. 이렇게 하려면 다음을 수행하세요.
- C#, Go, Java, Node.js, PHP, Python, Ruby 언어 중 하나로 Data Catalog 클라이언트 라이브러리를 사용합니다.
- 또는 Data Catalog API에서 수동으로 빌드합니다.
소스를 통합하려면 먼저 항목 및 항목 그룹을 알아본 후 데이터 소스의 커스텀 Data Catalog 항목 만들기의 안내를 따르세요.
다음 단계
- Identity and Access Management에 대해 자세히 알아봅니다.
- 검색 방법 알아보기
- 테이블 태그하기 빠른 시작 진행하기