Dataproc Metastore は、Google Cloud 上で実行されるフルマネージドの Apache Hive メタストア(HMS)です。HMS は、リレーショナル データベース内のスキーマ、パーティション、列統計などのテクニカル メタデータを管理するためのオープンソースのビッグデータ エコシステムで確立された標準規格です。
Dataproc Metastore は、高可用性、自動修復型、サーバーレスです。それを使用して、データレイクのメタデータを管理し、さまざまなデータ処理エンジンとツール間の相互運用性を実現します。
Dataproc Metastore の仕組み
Dataproc Metastore サービスは、Dataproc クラスタに接続することで使用できます。Dataproc クラスタには、HMS に依存してクエリの計画と実行を行うコンポーネントが含まれています。
このインテグレーションにより、ジョブ間でテーブル情報を保持することや、他のクラスタや他の処理エンジンがメタデータを使用可能にできます。
たとえば、メタストアを実装すると、ファイル名を手動でトラッキングするのではなく、ファイルのサブセットに収益データが含まれるように指定できます。この場合、これらのファイルのテーブルを定義し、Dataproc Metastore にメタデータを保存できます。その後、Dataproc クラスタに接続し、Hive、Spark SQL、またはその他のクエリサービスを使用して、テーブルに対して情報のクエリを実行できます。
Dataproc Metastore のバージョン
Dataproc Metastore サービスを作成する際に、Dataproc Metastore 2 サービスまたは Dataproc Metastore 1 サービスを使用するように選択できます。
Dataproc Metastore 2 は、Dataproc Metastore 1 の機能に加えて、水平スケーラビリティを提供する新世代のサービスです。 詳しくは、機能とメリットをご覧ください。
Dataproc Metastore 2 のお支払いプランは、Dataproc Metastore とは異なります。詳細については、料金プランとスケーリング構成をご覧ください。
一般的なユースケース
このセクションに記載されているすべてのユースケースは、特に明記されていない限り、Dataproc Metastore 2 と Dataproc Metastore 1 でサポートされています。
データに意味を割り当てます。一元化されたメタデータ リポジトリを作成し、多数のエフェメラル Dataproc クラスタ間で共有します。[Apache Hive](https://hive.apache.org、Apache Spark、Presto などのさまざまなオープンソース ソフトウェア(OSS)エンジンを使用します。
データの統合ビューを作成します。Dataproc、Dataplex、BigQuery などの Google Cloud サービスとの相互運用性を実現します。また、Google Cloud で他のオープンソース ベースのパートナー サービスを使用します。
機能とメリット
このセクションに記載されているすべての機能は、特に明記されていない限り、Dataproc Metastore 2 と Dataproc Metastore 1 でサポートされています。
OSS との互換性。既存のデータ処理エンジン(Apache Hive、Apache Spark、Presto など)に接続します。
管理。数分以内にメタストアを作成または更新するには、完全に構成されたモニタリング タスクとオペレーション タスクを完了します。
統合。Dataproc クラスタのメタデータのソースとして BigQuery を使用するなど、他の Google Cloud プロダクトと統合します。
組み込みのセキュリティ機能。Identity and Access Management(IAM)や Kerberos 認証など、確立されている Google Cloud セキュリティ プロトコルを使用します。
簡易インポート。外部の Hive Metastore メタストアに格納されている既存のメタデータを Dataproc Metastore サービスにインポートします。
自動バックアップ。メタストアの自動バックアップを構成して、データ損失を回避します。
パフォーマンス モニタリング。パフォーマンス階層を設定すると、プレウォーミングやキャッシュなしで、高負荷のワークロードや使用量の急増に動的に対応できます。
高可用性(HA)。
- Dataproc Metastore 2。特定の構成や継続的な管理を行わずに、ゾーンの高可用性(HA)を実現できます。実現するには、選択したリージョン内の複数のゾーンにバックエンド データベースと HMS サーバーを自動的に複製します。ゾーン HA に加えて、Dataproc Metastore 2 はリージョン HA と障害復旧(DR)をサポートしています。
- Dataproc Metastore。デフォルトでは、特定の構成や継続的な管理を行わずに、ゾーンの高可用性(HA)を実現できます。実現するには、選択したリージョン内の複数のゾーンにバックエンド データベースと HMS サーバーを自動的に複製します。
スケーラビリティ。
- Dataproc Metastore 2。水平スケーリング ファクタを使用して、サービスが特定の時点で使用する必要があるリソースの数を決定します。 スケーリング ファクタは手動で制御することも、必要に応じて自動スケーリングするように設定することもできます。
- Dataproc Metastore。サービスを設定するときに、デベロッパー階層またはエンタープライズ階層のいずれかを選択します。選択した階層により、サービスが特定の時点で使用する必要があるリソースの数が決まります。
サポート。標準の Google Cloud SLA とサポートを利用できます。
Google Cloud との統合
このセクションに記載されているすべての統合は、特に明記されていない限り、Dataproc Metastore 1 と Dataproc Metastore 2 でサポートされています。
- Dataproc。Dataproc クラスタに接続して、OSS ビッグデータ ワークロードのメタデータを提供できるようにします。
- BigQuery。 Dataproc ワークロード内の BigQuery データセットにクエリを行います。
- Dataplex。Dataplex レイクで検出された構造化データと半構造化データをクエリします。
- Data Catalog。 Dataproc Metastore を Data Catalog と同期して、メタデータの検索と検出を可能にします。
- ロギングとモニタリング。Dataproc Metastore を Cloud Monitoring プロダクトや Logging プロダクトと統合します。
- 認証と IAM。他の Google Cloud プロダクトで使用される標準的な OAuth 認証に依存し、きめ細かい Identity and Access Management ロールを使用して個々のリソースのアクセス制御を有効にします。
次のステップ
- クイックスタート ガイド、Dataproc Metastore サービスのデプロイを使用して開始する。
- Dataproc Metastore の料金について理解する。
- Dataproc Metastore の割り当てと上限について理解する。
- Dataproc Metastore のリリースノートを読む。
- Google Cloud コンソール、Google Cloud CLI、または Dataproc Metastore API を使用して、Dataproc Metastore にアクセスします。