Dataproc Metastore の概要

Dataproc Metastore は、Google Cloud 上で実行されるフルマネージドの Apache Hive メタストア(HMS)です。(HMS)は、リレーショナル データベース内のスキーマ、パーティション、列統計などのテクニカル メタデータを管理するための、オープンソースのビッグデータ エコシステムで確立された標準規格です。

Dataproc Metastore は、高可用性、自動修復型、サーバーレスです。それを使用して、データレイクのメタデータを管理し、使用するさまざまなデータ処理エンジンとツール間の相互運用性を提供します。

Dataproc Metastore の仕組み

Dataproc Metastore サービスは、Dataproc クラスタに接続することで使用できます。Dataproc クラスタには、クエリの計画と実行を推進するために HMS に依存するコンポーネントが含まれています。

このインテグレーションにより、ジョブ間でテーブル情報を保持することや、他のクラスタや他の処理エンジンがメタデータを使用可能にできます。

たとえば、メタストアを実装すると、ファイル名を手動でトラッキングするのではなく、ファイルのサブセットに収益データが含まれるように指定できます。この場合、これらのファイルのテーブルを定義し、メタデータを Dataproc Metastore に保存できます。その後、Dataproc クラスタに接続し、Hive、Spark SQL、またはその他のクエリサービスを使用して、テーブルに対して情報のクエリを実行できます。

Dataproc Metastore のバージョン

Dataproc Metastore サービスを作成する際に、Dataproc Metastore 2 サービスまたは Dataproc Metastore 1 サービスを使用するように選択できます。

  • Dataproc Metastore 2 は、Dataproc Metastore 1 の機能に加えて、水平スケーラビリティを提供する新世代のサービスです。 詳しくは、機能とメリットをご覧ください。

  • Dataproc Metastore 2 のお支払いプランは、Dataproc Metastore とは異なります。詳細については、料金プランとスケーリング構成をご覧ください。

一般的なユースケース

このセクションに記載されているすべてのユースケースは、特に明記されていない限り、Dataproc Metastore 2 と Dataproc Metastore 1 でサポートされています。

  • データに意味を割り当てます。一元化されたメタデータ リポジトリを作成し、多数のエフェメラル Dataproc クラスタ間で共有します。Apache HiveApache SparkPresto などのさまざまなオープンソース ソフトウェア(OSS)エンジンを使用します。

  • データの統合ビューを作成します。Dataproc、Dataplex、BigQuery などの Google Cloud サービスとの相互運用性を実現します。また、Google Cloud で他のオープンソース ベースのパートナー サービスを使用します。

機能とメリット

このセクションに記載されているすべての機能は、特に明記されていない限り、Dataproc Metastore 2 と Dataproc Metastore 1 でサポートされています。

  • OSS との互換性。既存のデータ処理エンジン(Apache Hive、Apache Spark、Presto など)に接続します。

  • 管理。数分以内にメタストアを作成または更新するには、完全に構成されたモニタリング タスクとオペレーション タスクを完了します。

  • 統合。Dataproc クラスタのメタデータのソースとして BigQuery を使用するなど、他の Google Cloud プロダクトと統合します。

  • 組み込みのセキュリティ機能Identity and Access Management(IAM)Kerberos 認証など、確立された Google Cloud セキュリティ プロトコルを使用します。

  • 簡易インポート。外部の Hive Metastore メタストアに格納されている既存のメタデータを Dataproc Metastore サービスにインポートします。

  • 自動バックアップ。データ損失を回避するため、メタストアの自動バックアップを構成します。

  • パフォーマンス モニタリング。パフォーマンス階層を設定すると、プレウォーミングやキャッシュなしで、高負荷のワークロードや使用量の急増に動的に対応できます。

  • 高可用性(HA)

    • Dataproc Metastore 2。特定の構成や継続的な管理を行わずに、ゾーンの高可用性(HA)を実現できます。これは、選択したリージョンの複数のゾーンにバックエンド データベースと HMS サーバーを自動的に複製することで実現されます。ゾーン HA に加えて、Dataproc Metastore 2 はリージョン HA と障害復旧(DR)をサポートしています。
    • Dataproc Metastore。デフォルトでは、特定の構成や継続的な管理を行わずに、ゾーンの高可用性(HA)を実現できます。実現するには、選択したリージョン内の複数のゾーンにバックエンド データベースと HMS サーバーを自動的に複製します。
  • スケーラビリティ

    • Dataproc Metastore 2。水平スケーリング ファクタを使用して、サービスが特定の時点で使用する必要があるリソースの数を決定します。
    • Dataproc Metastore。サービスを設定するときに、デベロッパー階層またはエンタープライズ階層のいずれかを選択します。選択した階層により、サービスが特定の時点で使用する必要があるリソースの数が決まります。
  • サポート。標準の Google Cloud SLA とサポート チャネルを利用できます。

Google Cloud との統合

このセクションに記載されているすべての統合は、特に明記されていない限り、Dataproc Metastore 1 と Dataproc Metastore 2 でサポートされています。

  • Dataproc。Dataproc クラスタに接続して、OSS ビッグデータ ワークロードのメタデータを提供できるようにします。
  • BigQuery。 Dataproc ワークロード内の BigQuery データセットにクエリを行います。
  • Dataplex。Dataplex レイクで検出された構造化データと半構造化データをクエリします。
  • Data Catalog。 Dataproc Metastore を Data Catalog と同期して、メタデータの検索と検出を可能にします。
  • ロギングとモニタリング。Dataproc Metastore を Cloud Monitoring プロダクトや Logging プロダクトと統合します。
  • 認証と IAM。他の Google Cloud プロダクトで使用される標準的な OAuth 認証に依存し、きめ細かい Identity and Access Management ロールを使用して個々のリソースのアクセス制御を有効にします。

次のステップ