このページは Cloud Translation API によって翻訳されました。

Dataproc Metastore の概要

Dataproc Metastore は、 Google Cloudで実行されるフルマネージドの Apache Hive メタストア（HMS）です。HMS は、リレーショナルデータベースのスキーマ、パーティション、列の統計情報などのテクニカルメタデータを管理するためのオープンソースのビッグデータエコシステムで確立された標準規格です。

Dataproc Metastore は、高可用性、自動修復型、サーバーレスです。これを使用して、データレイクメタデータを管理し、使用しているさまざまなデータ処理エンジンとツール間の相互運用性を提供します。

Dataproc Metastore の仕組み

Dataproc Metastore サービスを使用するには、Dataproc クラスタに接続します。Dataproc クラスタには、HMS に依存してクエリの計画と実行を行うコンポーネントが含まれています。

このインテグレーションにより、ジョブ間でテーブル情報を保持することや、他のクラスタや他の処理エンジンがメタデータを使用可能にできます。

たとえば、メタストアを実装すると、ファイル名の追跡を手動で行うのではなく、ファイルのサブセットに収益データが含まれていることを指定できます。この場合、これらのファイルのテーブルを定義し、メタデータを Dataproc Metastore に保存できます。その後、Dataproc クラスタに接続し、Hive、Spark SQL、またはその他のクエリサービスを使用して、テーブルに対して情報のクエリを実行できます。

Dataproc Metastore のバージョン

Dataproc Metastore サービスを作成する際に、Dataproc Metastore 2 サービスまたは Dataproc Metastore 1 サービスを使用するように選択できます。

Dataproc Metastore 2 は、Dataproc Metastore 1 の機能に加えて、水平スケーラビリティを提供する新世代のサービスです。詳しくは、機能とメリットをご覧ください。
Dataproc Metastore 2 のお支払いプランは、Dataproc Metastore とは異なります。詳細については、料金プランとスケーリング構成をご覧ください。

一般的なユースケース

このセクションに記載されているすべてのユースケースは、特に明記されていない限り、Dataproc Metastore 2 と Dataproc Metastore 1 でサポートされています。

データに意味を割り当てます。一元化されたメタデータリポジトリを作成し、多数のエフェメラル Dataproc クラスタ間で共有します。Apache Hive、Apache Spark、Presto などのさまざまなオープンソースソフトウェア（OSS）エンジンを使用します。
データの統合ビューを作成します。Dataproc、Dataplex Universal Catalog、BigQuery などのGoogle Cloud サービスとの相互運用性を実現します。また、Google Cloudで他のオープンソースベースのパートナーサービスを使用します。

機能とメリット

このセクションに記載されているすべての機能は、特に明記されていない限り、Dataproc Metastore 2 と Dataproc Metastore 1 でサポートされています。

OSS との互換性。既存のデータ処理エンジン（Apache Hive、Apache Spark、Presto など）に接続します。
管理。数分以内にメタストアを作成または更新するには、完全に構成されたモニタリングタスクとオペレーションタスクを完了します。
統合。Dataproc クラスタのメタデータのソースとして BigQuery を使用するなど、他の Google Cloud プロダクトと統合します。
組み込みのセキュリティ機能。Identity and Access Management（IAM）や Kerberos 認証など、確立されている Google Cloud セキュリティプロトコルを使用します。
簡易インポート。外部の Hive Metastore メタストアに格納されている既存のメタデータを Dataproc Metastore サービスにインポートします。
自動バックアップ。データ損失を回避するために、メタストアの自動バックアップを構成します。
パフォーマンスモニタリング。パフォーマンス階層を設定すると、プレウォーミングやキャッシュなしで、高負荷のワークロードや使用量の急増に動的に対応できます。
高可用性（HA）。
- Dataproc Metastore 2。特定の構成や継続的な管理を行わずに、ゾーンの高可用性（HA）を実現できます。実現するには、選択したリージョン内の複数のゾーンにバックエンドデータベースと HMS サーバーを自動的に複製します。ゾーン HA に加えて、Dataproc Metastore 2 はリージョン HA と障害復旧（DR）をサポートしています。
- Dataproc Metastore。デフォルトでは、特定の構成や継続的な管理を行わずに、ゾーンの高可用性（HA）を実現できます。実現するには、選択したリージョン内の複数のゾーンにバックエンドデータベースと HMS サーバーを自動的に複製します。
リージョン固有の考慮事項の詳細については、地域とリージョンをご覧ください。
スケーラビリティ。
- Dataproc Metastore 2。水平スケーリングファクタを使用して、サービスが特定の時点で使用する必要があるリソースの数を決定します。スケーリングファクタは手動で制御することも、必要に応じて自動スケーリングに設定することもできます。
- Dataproc Metastore。サービスを設定するときに、デベロッパー階層またはエンタープライズ階層のいずれかを選択します。選択した階層により、サービスが特定の時点で使用する必要があるリソースの数が決まります。
サポート。標準の Google Cloud SLA とサポートを利用できます。

Google Cloudとの統合

このセクションに記載されているすべての統合は、特に明記されていない限り、Dataproc Metastore 1 と Dataproc Metastore 2 でサポートされています。

Dataproc。Dataproc クラスタに接続して、OSS ビッグデータワークロードのメタデータを提供できるようにします。
BigQuery。 Dataproc ワークロード内の BigQuery データセットにクエリを行います。
Dataplex Universal Catalog。Dataplex Universal Catalog レイクで検出された構造化データと半構造化データをクエリします。
Data Catalog。 Dataproc Metastore を Data Catalog と同期して、メタデータの検索と検出を可能にします。
ロギングとモニタリング。Dataproc Metastore を Cloud Monitoring プロダクトや Logging プロダクトと統合します。
認証と IAM。他のGoogle Cloud プロダクトで使用される標準的な OAuth 認証に依存し、きめ細かい Identity and Access Management ロールを使用して個々のリソースのアクセス制御を有効にします。

次のステップ

クイックスタートガイド、Dataproc Metastore サービスのデプロイを使用して開始する。
Dataproc Metastore の料金について理解する。
Dataproc Metastore の割り当てと上限について理解する。
Dataproc Metastore のリリースノートを読む。
Google Cloud コンソール、Google Cloud CLI、または Dataproc Metastore API を使用して、Dataproc Metastore にアクセスします。

Dataproc Metastore の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。