Dataproc Metastore とは

Dataproc Metastore は、データ分析サービス向けの、フルマネージドで、リージョン内での高可用性を有した、Google Cloud 上の自動修復サーバーレス Apache Hive メタストア(HMS)です。HMS をサポートし、リレーショナル エンティティのメタデータを管理する重要なコンポーネントとして働き、オープンソース データ エコシステム内でデータ処理アプリケーション間の相互運用を実現します。

Dataproc Metastore を使用する理由

Dataproc Metastore のユースケース

Dataproc Metastore のユースケースには、次のようなものがあります。

  • Apache HiveApache SparkPresto など、さまざまなオープンソース エンジンを実行するエフェメラルな Dataproc クラスタ間で共有される一元化されたメタデータ リポジトリ。

  • Google Cloud 全体にわたるオープンソース テーブルの統合ビュー。Dataproc のようなクラウドネイティブなサービスと Google Cloud で提供されている他のさまざまなオープンソース ベースのパートナー サービスとの相互運用性を実現する。

Dataproc Metastore の機能

Dataproc Metastore は、次の機能を提供します。

  • OSS の互換性 - Dataproc Metastore には、OSS との完全互換を有するメタストアが用意されています。Apache Hive、Apache Spark、Presto などの既存のデータ処理スタックとシームレスに統合できます。これにより、Google Cloud サービスとオープンソース中心のパートナーとの相互運用性が高まります。

  • 管理 - Dataproc Metastore は、HMS の管理負荷を軽減します。完全に構成されたモニタリングとオペレーション タスクにより、HMS インスタンスを、数分で作成または更新できます。

  • 統合 - Dataproc Metastore は、HMS のサービス管理を簡素化することに加え、Cloud Dataproc などの既存の Google Cloud プロダクトとの統合が可能です。実行中の Dataproc メタソース サービスは、Dataproc クラスタのメタデータのソースとして使用できます。

  • 簡単なインポート - インポート機能を使用すると、外部データベースに保存されている既存のメタデータを Dataproc Metastore にインポートできます。

  • セキュリティ - Google Cloud が提供するセキュリティ ソリューションを使用して、Dataproc Metastore サービスを保護できます。また、Cloud IAM 権限を設定して、Kerberos 認証を使用することもできます。

  • 信頼度 - Dataproc Metastore サービスは定期的にバックアップされるため、HMS データの耐久性を心配する必要はありません。

  • 高パフォーマンス - 各階層で、高負荷のワークロードやキャッシュを使わずに、HMS 呼び出しの急増に対応する、高負荷のワークロードに対する保証されたリソース割り当てを提供します。

  • データレイクの拡大に合わせたスケーラビリティ - データレイクの準備ができたタイミングで、各階層を簡単に移すことや、新しいメタストアをすぐに作成することが可能です。

  • ダウンタイムの短縮と生産性の向上 - Google Cloud では SLA とサポートが提供されます。

Dataproc Metastore に含まれるもの

Dataproc Metastore でサポートされるオープンソース(Apache Hive)バージョンの詳細については、Dataproc Metastore のバージョン ポリシーをご覧ください。

Dataproc Metastore のスタートガイド

Dataproc Metastore をすぐに使い始めるには、クイックスタートをご覧ください。Dataproc Metastore へは、次の方法でアクセスできます。