Dataproc Metastore 핵심 개념

다음 개념을 사용하면 Dataproc Metastore의 작동 방식과 Dataproc Metastore로 사용할 수 있는 다양한 기능을 이해할 수 있습니다.

일반적인 용어

서비스

  • Apache Hive. Hive는 Apache Hadoop을 기반으로 구축된 널리 사용되는 오픈소스 데이터 웨어하우스입니다. Hive가 제공하는 HiveQL이라는 SQL 스타일의 쿼리 언어를 사용하여 구조화된 대규모 데이터 세트를 분석할 수 있습니다.
  • Apache Hive 메타스토어. Hive 메타스토어는 Hive 테이블에 대한 스키마, 위치 등의 메타데이터를 보유합니다.
  • Dataproc. Dataproc은 Google Cloud에서 간단하고 비용 효율적인 방식으로 Apache Spark 및 Apache Hadoop 워크로드를 실행하는 빠르고 사용하기 쉬운 완전 관리형 서비스입니다. Dataproc Metastore를 만든 후 Dataproc 클러스터에서 연결할 수 있습니다.
  • Dataproc 클러스터. Dataproc Metastore 서비스를 만든 후 클러스터에서 서비스에 연결할 수 있습니다. Dataproc Metastore는 Dataproc 클러스터 및 자체 관리형 Apache Hive, Apache Spark, Presto 클러스터를 포함한 여러 클러스터에 사용할 수 있습니다.
  • Dataproc Metastore 서비스. Google Cloud에 만드는 메타스토어 인스턴스의 이름입니다. 구현에 하나 이상의 메타스토어 서비스를 포함할 수 있습니다.
  • Private Service Connect Private Service Connect를 사용하면 VPC 네트워크 전반에서 Dataproc Metastore 메타데이터에 비공개 연결을 설정할 수 있습니다. VPC 피어링 대신 네트워킹에 사용할 수 있습니다.
  • VPC 서비스 제어. VPC 서비스 제어를 사용하면 명시적으로 지정한 서비스의 리소스와 데이터를 보호하는 경계를 만들어 Google Cloud 서비스에서 데이터 무단 반출 위험을 완화할 수 있습니다.

개념

  • 테이블. 모든 Hive 애플리케이션에는 데이터를 저장하는 관리형 내부 또는 비관리형 외부 테이블이 있습니다.
  • Hive 웨어하우스 디렉터리. 관리형 테이블 데이터가 저장되는 기본 위치입니다.
  • 아티팩트 버킷. 생성하는 모든 메타스토어 서비스와 함께 프로젝트에 자동으로 생성되는 Cloud Storage 버킷입니다. 이 버킷을 사용하여 내보낸 메타데이터 및 관리형 테이블 데이터와 같은 서비스 아티팩트를 저장할 수 있습니다. 기본적으로 아티팩트 버킷은 Dataproc Metastore 서비스의 기본 웨어하우스 디렉터리를 저장합니다.
  • 엔드포인트. Dataproc Metastore 서비스는 하나 이상의 네트워크 엔드포인트를 통해 저장된 Hive Metastore 메타데이터에 대한 액세스 권한을 클라이언트에 제공합니다. Dataproc Metastore는 이러한 엔드포인트의 URI를 제공합니다.
  • 엔드포인트 프로토콜 Dataproc Metastore와 Hive Metastore 클라이언트 간의 통신에 사용되는 데이터 전송 네트워크 프로토콜입니다. Dataproc Metastore는 Apache Thrift 및 gRPC 엔드포인트를 지원합니다.
  • 메타데이터 제휴. 여러 Dataproc Metastore 인스턴스에 저장된 메타데이터에 액세스할 수 있게 해주는 기능입니다.
  • 보조 버전. 여러 Hive 클라이언트 버전을 동일한 Dataproc Metastore 서비스에 연결할 수 있게 해주는 기능입니다.

Hive 메타스토어 개념

Dataproc Metastore 서비스를 사용하려면 Hive 메타스토어 기본 개념의 이해가 필요합니다. 자세한 내용은 Hive 메타스토어를 참조하세요.

네트워크 요구사항

Dataproc Metastore 서비스가 올바르게 작동하려면 네트워킹 액세스가 필요합니다. 자세한 내용은 네트워크 요구사항 구성을 참조하세요.

프로젝트 구성

다음으 Dataproc 클러스터와 Apache Thrift 엔드포인트 프로토콜을 사용하는 Dataproc Metastore를 배포할 때 가능한 프로젝트 구성 개요를 제공하는 다이어그램입니다.

Dataproc Metastore 및 Dataproc 클러스터를 배포할 때 사용 가능한 프로젝트 구성 개요

다음 단계