データ分析

Dataproc Metastore の一般提供開始により、データレイク管理がさらに簡単に

2021年4月9日

Google Cloud Japan Team

https://storage.googleapis.com/gweb-cloudblog-publish/images/Dataproc_Metastore.max-1100x1100.png

※この投稿は米国時間 2021 年 3 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、Dataproc Metastore が一般提供となりました。Dataproc Metastore は、Apache Hive メタストアをベースにした、フルマネージド型でサーバーレスのテクニカルメタデータリポジトリです。

オープンソースデータレイクを Google Cloud に構築または移行する企業は、オープンソースデータ分析フレームワーク用の一元的かつ永続的なメタストアを利用できるようになります。これは完全にサーバーレスで、面倒な設定も必要ないため、企業は可用性の高いアーキテクチャやバックアップを設定したり、メンテナンスタスクを実施したりする費用を心配することなく、オープンソースメタデータを移行できます。

Dataproc Metastore を使用すると、Google Cloud 全体でオープンソーステーブルを一元的に把握でき、Apache Hadoop、Apache Spark、Apache Hive、Trino、Presto をはじめ多数のデータレイク処理フレームワークと相互運用できます。Hive メタストアが機能するフレームワークであれば、ほとんどの場合、Dataproc Metastore も機能します。Dataproc Metastore は、Dataproc、Data Catalog、Data Fusion などの Google Cloud サービスや、Databricks、Collibra などのパートナーサービスと完全に統合できます。

Google Cloud のデータレイクに Dataproc Metastore を使用する

Dataproc Metastore は 1 つ以上の Dataproc クラスタやセルフマネージドクラスタに簡単に接続して、さまざまなオープンソース処理エンジンで Hive テーブルを共有できます。

Dataproc Metastore は Google Cloud Data Catalog とネイティブに統合されるので、BigQuery トピックや Cloud Pub/Sub トピックと並行してオープンソーステーブルを検索し、ビジネスメタデータでタグ付けすることができます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Data_Catalog.max-700x700.png

また、Dataproc Metastore は Cloud Data Fusion と直接接続されるので、マウスだけで視覚的に操作できる、コード不要の ETL / ELT パイプライン内でソースまたはシンクとして Dataproc Metastore を使用できます。

Google Cloud のネイティブサービスであることに加えて、Dataproc Metastore は最もオープンなクラウドになるという Google の使命にも取り組んでおり、Collibra や Qubole といった他のさまざまなオープンパートナーのサービスとの互換性が確保されているほか、Databricks をリモートモードで外部メタストアとしても使用できます。

Databricks が Dataproc Metastore と統合されたことにより、当社の共同顧客は 1 つのオープンプラットフォームで引き続きデータ、分析、メタデータを集約できます。この統合によって、Databricks を使用してオンプレミスのデータレイクを Google Cloud に移行したり、オープンソースメタストアを一元化したり、分析や機械学習を導入したりして、新しいビジネス価値を引き出すのがさらに簡単になります。

Databricks フィールドおよびパートナーエンジニアリング担当アシスタントバイスプレジデント Ajay Singh 氏

この見積もりをツイートする

この一般提供リリースには当初のプレビュー版機能を超える機能が追加されていて、次のようなメタデータ管理のユースケースにも対応できます。

1 つ目は、ACID トランザクションを維持しながら複数のクラスタからの書き込みを行うための手段として、メタストアが定義された Delta Lake テーブルを使用するオープンソース Delta Lake テーブル用のカスタマーサポートを提供するユースケースです。Delta Lake フォーマットからマニフェストファイルを生成し、それを Hive メタストアテーブルの場所として Dataproc Metastore に保存するだけで済みます。
2 つ目は、Dataproc Metastore のマルチリージョン障害復旧を簡単に設定できるようにするユースケースです。Dataproc Metastore Enterprise ティアによって、リージョン内で高可用性が実現されます。なお、リージョン全体で思いもよらないエラーが発生しても処理を継続できる状態にする必要があるお客様の場合は、以下のマルチリージョンアプローチによって、Dataproc メタデータのエクスポートと一緒に Hive データセットを保存するためのマルチリージョンバケットを使用できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DPMS.max-1600x1600.png

このたびの一般提供リリースにより、バックアップ、テスト、更新、データベース構成に労力を費やしたり、可用性の高いアーキテクチャを作成したりすることなく、一元化されたメタデータリポジトリを使用するミッションクリティカルなデータレイクアプリケーションを確実に実行できます。グローバルスケールでデータアプリケーションを実行する専門知識のある Google にお任せください。

ご利用方法

Google Cloud が Dataproc Metastore 内のクラウドネイティブなアプリケーションのために Apache Hive メタストアをどのようにモダナイズしたかについて詳しくは、オープンソースミートアップ「How to Collaborate with Data Lake Management Communities」（データレイク管理コミュニティと連携する方法）の録画をご覧ください。このセッションには、「How Delta Lake Addresses Data Lake Challenges」（Delta Lake がどのようにデータレイクの課題に対処したか）についてのプレゼンテーションも含まれています。データレイク管理のベストプラクティスを共有する今後のミートアップにもぜひご参加ください。

Dataproc Metastore にはデベロッパーとエンタープライズの 2 つのサービスティアが用意されていて、それぞれが異なるユースケースを対象としているため、機能やサービスレベル、料金体系が異なっています。一般公開プレビュー版をお使いのお客様は自動的に一般提供版にアップグレードされ、料金についてのドキュメントに沿って課金されます。

今すぐ Dataproc Metastore にメタデータをインポートして、Dataproc Metastore の使用を開始しましょう。

-データ分析担当プロダクトマネージャー Chris Crosbie

-ソフトウェアエンジニア Wilson Lian

投稿先