Dataproc Metastore の主要なコンセプト

次のコンセプトを使用すると、Dataproc Metastore の仕組みと、サービスで使用できるさまざまな機能が理解しやすくなります。

Dataproc Metastore のバージョン

Dataproc Metastore サービスを作成する際は、Dataproc Metastore 2 サービスか、Dataproc Metastore 1 サービスのいずれかを選択できます。

Dataproc Metastore 2

Dataproc Metastore 2 では、スケーリング係数を使用して、特定の時点でサービスで使用されるリソースの数が決まります。Dataproc Metastore 2 を作成した後、スケーリング係数を変更することで、サービスをスケールアップまたはスケールダウンできます。

  • Dataproc Metastore 2 は、Dataproc Metastore の機能に加えて、水平スケーラビリティを提供する新世代のサービスです。 詳しくは、機能とメリットをご覧ください。

  • Dataproc Metastore 2 には、Dataproc Metastore とは異なる料金プランがあります。詳細については、料金プランとスケーリング構成をご覧ください。

Dataproc Metastore 1

Dataproc Metastore 1 では、サービス層を使用して、サービスが所定の時点で使用するリソースの数を決定します。サービス階層では、予測可能な量のリソースが提供されます。

Dataproc Metastore のバージョンを確認する

使用している Dataproc Metastore のバージョンは、Google Cloud コンソールで確認できます。

  • Dataproc Metastore 2: 構成テーブルには Edition Enterprise - Single Region の値が含まれます。
  • Dataproc Metastore 1: 構成テーブルには、Tier: DEVELOPER または Tier: ENTERPRISE のいずれかの値が含まれます。

Dataproc Metastore の一般的な用語

次の用語は、Dataproc Metastore のエコシステムとドキュメント全体で広く使用されています。

サービス

  • Apache Hive。Hive は、Apache Hadoop 上に構築された人気のあるオープンソースのデータ ウェアハウス システムです。Hive には SQL に似た HiveQL というクエリ言語が用意されており、これを使用して大規模な構造化データセットを分析します。
  • Apache Hive メタストア。Hive メタストアには、Hive テーブルに関するスキーマやロケーションなどのメタデータが格納されます。
  • Dataproc。Dataproc は、Apache Spark ワークロードと Apache Hadoop ワークロードを簡単かつコスト効率よく実行できるようにする、高速で使いやすい Google Cloud 上のフルマネージド サービスです。Dataproc Metastore を作成したら、Dataproc クラスタから接続できます。
  • Dataproc クラスタ。Dataproc Metastore サービスを作成したら、Dataproc クラスタから接続できます。また、セルフマネージド Apache Hive、Apache Spark、Presto クラスタなど、他のさまざまなクラスタで Dataproc Metastore を使用することもできます。
  • Dataproc Metastore サービス。Google Cloud で作成するメタストア インスタンスの名前。実装には、1 つまたは複数のメタストア サービスを含めることができます。
  • Private Service Connect. Private Service Connect を使用すると、VPC ネットワーク間で Dataproc Metastore メタデータへのプライベート接続を設定できます。VPC ピアリングの代わりとしてネットワーキングに使用できます。
  • VPC Service Controls。 VPC Service Controls では、明示的に指定したサービスのリソースとデータを保護する境界を作成することで、Google Cloud サービスからのデータ漏洩のリスクを軽減できます。

コンセプト

  • テーブル。すべての Hive アプリケーションには、データを保存するマネージド内部テーブルまたは非マネージド外部テーブルが含まれています。
  • Hive ウェアハウス ディレクトリ。マネージド テーブルデータが保存されるデフォルトの場所。
  • アーティファクト バケット。Cloud Storage バケット。プロジェクトで作成するすべてのメタストア サービスとともに、プロジェクトに自動的に作成されます。このバケットは、エクスポートされたメタデータやマネージド テーブルデータなどのサービス アーティファクトの保存に使用できます。デフォルトでは、アーティファクト バケットは Dataproc Metastore サービスのデフォルト ウェアハウス ディレクトリを保存します。
  • エンドポイント。Dataproc Metastore サービスにより、クライアントは 1 つ以上のネットワーク エンドポイント経由で、保存された Hive メタストア メタデータにアクセスできます。 Dataproc Metastore は、これらのエンドポイントの URI を提供します。
  • エンドポイント プロトコル。Dataproc Metastore クライアントと Hive Metastore クライアント間の通信に使用されるネットワーク経由のプロトコル。Dataproc Metastore は、Apache Thrift エンドポイントと gRPC エンドポイントをサポートします。
  • メタデータの連携。複数の Dataproc Metastore インスタンスに保存されているメタデータにアクセスできるようにする機能。
  • 補助バージョン。複数の Hive クライアント バージョンが同じ Dataproc Metastore サービスに接続できるようにする機能。

Hive メタストアのコンセプト

Dataproc Metastore サービスを使用するには、基本的な Hive メタストアのコンセプトを理解する必要があります。詳細については、Hive メタストアをご覧ください。

ネットワークの要件

Dataproc Metastore サービスが正しく機能するには、ネットワーク アクセスが必要です。詳細については、ネットワーク要件を構成するをご覧ください。

プロジェクト構成

Dataproc クラスタと Dataproc Metastore サービスのデプロイ時に使用できるプロジェクト構成はいくつかあります。詳しくは、プロジェクト間のデプロイをご覧ください。

次のステップ