Dataproc Metastore에서 Data Catalog로 동기화

메타데이터 검색 및 메타데이터 관리 서비스를 활용하기 위해 Dataproc Metastore 서비스에서 Data Catalog로 동기화를 사용 설정할 수 있습니다. 사용 설정된 다음에는 스키마 정보와 같은 데이터베이스 및 테이블 메타데이터가 Dataproc Metastore에서 Data Catalog로 자동으로 동기화됩니다.

Data Catalog를 사용하면 데이터베이스 및 테이블과 같은 서비스 특정 리소스에 태그를 지정하고 이를 검색할 수 있습니다.

Data Catalog란?

Data Catalog는 Google Cloud의 데이터 분석 제품군에서 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다. 기술 및 비즈니스 메타데이터에 대한 통합 뷰 및 태그 지정 메커니즘을 제공합니다.

자세한 내용은 다음 Data Catalog 기능 가이드를 참조하세요.

권한

Data Catalog는 Dataproc Metastore 수준 권한을 따릅니다. Dataproc Metastore에서 Data Catalog로 동기화되는 메타데이터의 경우 Dataproc Metastore에 지정된 IAM 권한이 Data Catalog의 메타데이터에도 적용됩니다.

Data Catalog는 액세스 시에 각 Metastore 데이터베이스/테이블의 권한을 확인하여 Dataproc Metastore 서비스에 대한 액세스 권한이 있는 사용자만 동기화된 서비스 리소스를 Data Catalog의 항목으로 볼 수 있도록 합니다.

Data Catalog 동기화 사용 설정

Data Catalog 동기화를 사용 설정한 후 Data Catalog는 Dataproc Metastore 서비스에 대해 전체 라이브 동기화를 수행합니다.

다음 메타데이터가 동기화됩니다.

  • 인스턴스
  • 이름 및 설명을 포함한 데이터베이스
  • 이름, 설명, 스키마(설명이 있는 열)를 포함한 테이블
  • 데이터베이스 속성
  • 테이블 속성

다음 표에서는 Dataproc Metastore와 Data Catalog 사이의 리소스 매핑을 보여줍니다.

Dataproc Metastore 리소스 Data Catalog 리소스
인스턴스 항목 그룹
항목
데이터베이스 항목
테이블 항목
스키마

Google Cloud Console을 사용하여 Dataproc Metastore 서비스를 만들거나 업데이트할 때 Dataproc Metastore 서비스에서 Data Catalog로 동기화를 사용 설정할 수 있습니다. 같은 방법으로 동기화를 사용 중지할 수 있습니다.

Data Catalog 동기화가 사용 설정된 서비스 만들기

Data Catalog 동기화는 기본적으로 사용 중지됩니다.

새 서비스에 대해 Data Catalog 동기화를 사용 설정하려면 다음 안내를 따르세요.

Console

  1. Cloud Console에서 Dataproc Metastore 페이지를 엽니다.

    Cloud Console에서 Dataproc Metastore 열기

  2. Dataproc Metastore 페이지 상단에서 만들기 버튼을 클릭합니다. 서비스 만들기 페이지가 열립니다.

  3. 원하는 대로 서비스를 구성합니다.

  4. 메타데이터 통합에서 Data Catalog 동기화를 사용 설정하여 Dataproc Metastore 서비스에서 Data Catalog로 동기화합니다.

  5. 제출을 클릭합니다.

기존 서비스에 대해 Data Catalog 동기화 사용 설정 또는 사용 중지

기존 서비스에 대해 Data Catalog 동기화를 사용 설정 또는 사용 중지하려면 다음 안내를 따르세요.

Console

  1. Cloud Console에서 Dataproc Metastore 페이지를 엽니다.

    Cloud Console에서 Dataproc Metastore 열기

  2. Dataproc Metastore 페이지에서 업데이트하려는 서비스 이름을 클릭합니다. 해당 서비스의 서비스 세부정보 페이지가 열립니다.

  3. 구성 탭에서 수정 버튼을 클릭합니다. 서비스 수정 페이지가 열립니다.

  4. 메타데이터 통합 섹션에서 Data Catalog 동기화에 대해 사용 설정을 클릭하여 설정 또는 해제를 전환합니다.

  5. 제출 버튼을 클릭하여 서비스를 업데이트합니다.

Data Catalog로 검색

Data Catalog를 사용하여 동기화된 Dataproc Metastore 메타데이터를 검색할 수 있습니다.

Dataproc Metastore에 대한 커스텀 검색 옵션이 없지만 서로 다른 Dataproc Metastore 리소스를 검색할 수 있는 여러 방법이 있습니다.

  • Dataproc Metastore 인스턴스
    • 표시 이름별
    • 표준 Data Catalog 방법 - 태그 등
  • 데이터베이스
    • 표시 이름별
    • 설명별
    • Dataproc Metastore 인스턴스별
    • 표준 Data Catalog 방법 - 태그 등
  • 테이블:
    • 표시 이름별
    • 설명별
    • 열 이름별
    • 열 설명별
    • 데이터베이스별
    • Dataproc Metastore 인스턴스별
    • 표준 Data Catalog 방법 - 태그 등

FAQ

  • Data Catalog에서 메타데이터 동기화의 완료 상태 및 정확도를 확인하려면 6시간을 기다립니다.

  • Dataproc Metastore에서 Data Catalog로 동기화에 문제가 있다고 의심될 경우 textPayload=~".*Publish.*" 필터를 사용하여 Dataproc Metastore Cloud Logging에서 메타데이터 게시 로그를 확인합니다. 로그 액세스에 대한 자세한 내용은 Logging에서 작업 로그 액세스를 참조하세요.

  • Data Catalog 동기화를 사용 중지한 경우 메타데이터가 Dataproc Metastore에서 Data Catalog로 더 이상 동기화되지 않습니다. 하지만 이미 동기화된 메타데이터는 Data Catalog에 유지됩니다.

  • Dataproc Metastore 인스턴스를 삭제하면 해당 인스턴스, 데이터베이스, 테이블 항목도 Data Catalog에서 삭제됩니다.

  • Data Catalog는 표준 Google Cloud 보관 기간을 준수합니다.

  • Dataproc Metastore에 대한 Data Catalog 동기화 사용 설정에는 추가 비용이 발생하지 않습니다.

다음 단계