이 문서에서는 Dataproc Metastore 메타데이터를 Data Catalog와 동기화하는 방법을 보여줍니다.
이 두 서비스를 동기화하면 Data Catalog를 사용하여 Dataproc Metastore 메타데이터를 관리할 수 있습니다. 예를 들어 Data Catalog를 사용하여 데이터베이스 및 테이블과 같은 특정 Dataproc Metastore 리소스에 태그를 지정하고 검색할 수 있습니다.
Data Catalog란?
Data Catalog는 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다. 기술 및 비즈니스 메타데이터에 대한 통합 뷰 및 태그 지정 메커니즘을 제공합니다.
자세한 내용은 다음 Data Catalog 기능 가이드를 참조하세요.
시작하기 전에
필요한 역할
Dataproc Metastore 메타데이터를 Data Catalog와 동기화하는 데 필요한 권한을 얻으려면 관리자에게 최소 권한의 원칙에 따라 프로젝트에 대한 Data Catalog에서 동기화된 Dataproc Metastore 항목 보기(roles/metastore.metadataViewer
) IAM 역할을 부여해 달라고 요청하세요.
역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.
이 사전 정의된 역할에는 Dataproc Metastore 메타데이터를 Data Catalog와 동기화하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
Dataproc Metastore 메타데이터를 Data Catalog와 동기화하려면 다음 권한이 필요합니다.
-
Dataproc Metastore 데이터베이스 가져오기:
metastore.databases.get
-
Dataproc Metastore 데이터베이스 나열:
metastore.databases.list
-
Dataproc Metastore 테이블 가져오기:
metastore.tables.get
-
Dataproc Metastore 테이블 나열:
metastore.tables.list
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
특정 Dataproc Metastore 역할 및 권한에 대한 상세 설명은 IAM으로 액세스 관리를 참조하세요.서비스 간 권한 작동 방식
Data Catalog는 Dataproc Metastore 수준 권한을 따릅니다. Dataproc Metastore에서 Data Catalog로 동기화되는 메타데이터의 경우 Dataproc Metastore에 지정된 IAM 권한이 Data Catalog의 메타데이터에도 적용됩니다.
Data Catalog는 액세스 시에 각 Metastore 데이터베이스 및 테이블의 권한을 확인하여 Dataproc Metastore 서비스에 대한 액세스 권한이 있는 사용자만 동기화된 서비스 리소스를 Data Catalog의 항목으로 볼 수 있도록 합니다.
Dataproc Metastore에서 Data Catalog 동기화 작동 방식
Google Cloud 콘솔을 사용하여 Dataproc Metastore 서비스를 만들거나 업데이트할 때 Dataproc Metastore에서 Data Catalog로 동기화를 사용 설정할 수 있습니다. 같은 방법으로 동기화를 사용 중지할 수 있습니다.
Data Catalog 동기화를 사용 설정한 후 데이터베이스 및 테이블 메타데이터가 Dataproc Metastore에서 Data Catalog로 자동으로 동기화됩니다.
Data Catalog는 다음 메타데이터를 동기화합니다.
- Instances.
- 이름 및 설명을 포함한 데이터베이스
- 이름, 설명, 스키마(설명이 있는 열)를 포함한 테이블
다음 표에서는 Dataproc Metastore와 Data Catalog 사이의 리소스 매핑을 보여줍니다.
Dataproc Metastore 리소스 | Data Catalog 리소스 |
---|---|
인스턴스 | 항목 그룹 항목 |
데이터베이스 | 항목 |
테이블 | 항목 |
열 | 스키마 |
고려사항
Dataproc Metastore 메타데이터가 Data Catalog와 완전히 동기화되기까지 최대 6시간이 걸릴 수 있습니다. 초기 동기화가 완료되면 증분 변경사항이 주문형으로 동기화됩니다(예: 테이블 또는 데이터베이스 업데이트). 주문형 동기화가 실패하면 동기화는 6시간마다 수행되는 일괄 재실행에 포함됩니다.
동기화에 문제가 있다고 의심될 경우
textPayload=~".*Publish.*"
필터를 사용하여 Dataproc Metastore Cloud Logging에서 메타데이터 게시 로그를 확인합니다. 로그 액세스에 대한 자세한 내용은 Logging에서 작업 로그 액세스를 참조하세요.Data Catalog 동기화를 사용 중지하면 Dataproc Metastore에서 Data Catalog로의 메타데이터 동기화가 중지됩니다. 하지만 이미 동기화된 메타데이터는 Data Catalog에 유지됩니다.
Dataproc Metastore 인스턴스를 삭제하면 해당 인스턴스, 데이터베이스, 테이블 항목도 Data Catalog에서 삭제됩니다.
Data Catalog에 저장된 Dataproc Metastore 메타데이터는 표준 Google Cloud 보관 기간을 준수합니다.
Dataproc Metastore에 대한 Data Catalog 동기화 사용 설정에는 추가 비용이 발생하지 않습니다.
Data Catalog 동기화가 사용 설정된 서비스 만들기
Data Catalog 동기화는 기본적으로 사용 중지됩니다.
새 서비스에 대해 Data Catalog 동기화를 사용 설정하려면 다음 안내를 따르세요.
콘솔
Google Cloud 콘솔에서 Dataproc Metastore 페이지를 엽니다.
Dataproc Metastore 페이지 상단에서 만들기를 클릭합니다.
서비스 만들기 페이지가 열립니다.
사용할 Dataproc Metastore 버전을 선택합니다.
메타데이터 통합에서 Data Catalog 동기화를 클릭합니다.
남은 서비스 구성 옵션의 경우 제공된 기본값을 사용합니다. 또는 필요에 따라 서비스를 구성합니다.
제출을 클릭합니다.
기존 서비스에 대해 Data Catalog 동기화를 사용 설정 또는 사용 중지하려면 다음 안내를 따르세요.
기존 서비스에 대해 Data Catalog 동기화를 사용 설정 또는 사용 중지하려면 다음 안내를 따르세요.
콘솔
Google Cloud 콘솔에서 Dataproc Metastore 페이지를 엽니다.
Dataproc Metastore 페이지에서 업데이트하려는 서비스를 클릭합니다.
해당 서비스의 서비스 세부정보 페이지가 열립니다.
구성 탭에서 수정을 클릭합니다.
서비스 수정 페이지가 열립니다.
메타데이터 통합에서 Data Catalog 동기화를 사용 또는 사용 중지로 전환합니다.
제출을 클릭합니다.
Data Catalog로 검색
Data Catalog를 사용하여 동기화된 Dataproc Metastore 메타데이터를 검색할 수 있습니다.
Dataproc Metastore에 대한 커스텀 검색 옵션이 없지만 서로 다른 Dataproc Metastore 리소스를 검색할 수 있는 다음과 같은 여러 방법이 있습니다.
- Dataproc Metastore 인스턴스
- 표시 이름별
- 표준 Data Catalog 함수 - 예를 들어 태그를 사용합니다.
- 데이터베이스
- 표시 이름별
- 설명별
- Dataproc Metastore 인스턴스별
- 표준 Data Catalog 함수 - 예를 들어 태그를 사용합니다.
- 테이블
- 표시 이름별
- 설명별
- 열 이름별
- 열 설명별
- 데이터베이스별
- Dataproc Metastore 인스턴스별
- 표준 Data Catalog 함수 - 예를 들어 태그를 사용합니다.