Dataproc Metastore の一般提供開始により、データレイク管理がさらに簡単に
Google Cloud Japan Team
※この投稿は米国時間 2021 年 3 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Dataproc Metastore が一般提供となりました。Dataproc Metastore は、Apache Hive メタストアをベースにした、フルマネージド型でサーバーレスのテクニカル メタデータ リポジトリです。
オープンソース データレイクを Google Cloud に構築または移行する企業は、オープンソース データ分析フレームワーク用の一元的かつ永続的なメタストアを利用できるようになります。これは完全にサーバーレスで、面倒な設定も必要ないため、企業は可用性の高いアーキテクチャやバックアップを設定したり、メンテナンス タスクを実施したりする費用を心配することなく、オープンソース メタデータを移行できます。
Dataproc Metastore を使用すると、Google Cloud 全体でオープンソース テーブルを一元的に把握でき、Apache Hadoop、Apache Spark、Apache Hive、Trino、Presto をはじめ多数のデータレイク処理フレームワークと相互運用できます。Hive メタストアが機能するフレームワークであれば、ほとんどの場合、Dataproc Metastore も機能します。Dataproc Metastore は、Dataproc、Data Catalog、Data Fusion などの Google Cloud サービスや、Databricks、Collibra などのパートナー サービスと完全に統合できます。
Google Cloud のデータレイクに Dataproc Metastore を使用する
Dataproc Metastore は 1 つ以上の Dataproc クラスタやセルフマネージド クラスタに簡単に接続して、さまざまなオープンソース処理エンジンで Hive テーブルを共有できます。
Dataproc Metastore は Google Cloud Data Catalog とネイティブに統合されるので、BigQuery トピックや Cloud Pub/Sub トピックと並行してオープンソース テーブルを検索し、ビジネス メタデータでタグ付けすることができます。
また、Dataproc Metastore は Cloud Data Fusion と直接接続されるので、マウスだけで視覚的に操作できる、コード不要の ETL / ELT パイプライン内でソースまたはシンクとして Dataproc Metastore を使用できます。
Google Cloud のネイティブ サービスであることに加えて、Dataproc Metastore は最もオープンなクラウドになるという Google の使命にも取り組んでおり、Collibra や Qubole といった他のさまざまなオープン パートナーのサービスとの互換性が確保されているほか、Databricks を リモートモードで外部メタストアとしても使用できます。
Databricks が Dataproc Metastore と統合されたことにより、当社の共同顧客は 1 つのオープン プラットフォームで引き続きデータ、分析、メタデータを集約できます。この統合によって、Databricks を使用してオンプレミスのデータレイクを Google Cloud に移行したり、オープンソース メタストアを一元化したり、分析や機械学習を導入したりして、新しいビジネス価値を引き出すのがさらに簡単になります。
Databricks フィールドおよびパートナー エンジニアリング担当アシスタント バイス プレジデント Ajay Singh 氏
この一般提供リリースには当初のプレビュー版機能を超える機能が追加されていて、次のようなメタデータ管理のユースケースにも対応できます。
1 つ目は、ACID トランザクションを維持しながら複数のクラスタからの書き込みを行うための手段として、メタストアが定義された Delta Lake テーブルを使用するオープンソース Delta Lake テーブル用のカスタマー サポートを提供するユースケースです。Delta Lake フォーマットからマニフェスト ファイルを生成し、それを Hive メタストア テーブルの場所として Dataproc Metastore に保存するだけで済みます。
2 つ目は、Dataproc Metastore のマルチリージョン障害復旧を簡単に設定できるようにするユースケースです。Dataproc Metastore Enterprise ティアによって、リージョン内で高可用性が実現されます。なお、リージョン全体で思いもよらないエラーが発生しても処理を継続できる状態にする必要があるお客様の場合は、以下のマルチリージョン アプローチによって、Dataproc メタデータのエクスポートと一緒に Hive データセットを保存するためのマルチリージョン バケットを使用できます。
このたびの一般提供リリースにより、バックアップ、テスト、更新、データベース構成に労力を費やしたり、可用性の高いアーキテクチャを作成したりすることなく、一元化されたメタデータ リポジトリを使用するミッション クリティカルなデータレイク アプリケーションを確実に実行できます。グローバル スケールでデータ アプリケーションを実行する専門知識のある Google にお任せください。
ご利用方法
Google Cloud が Dataproc Metastore 内のクラウド ネイティブなアプリケーションのために Apache Hive メタストアをどのようにモダナイズしたかについて詳しくは、オープンソース ミートアップ「How to Collaborate with Data Lake Management Communities」(データレイク管理コミュニティと連携する方法)の録画をご覧ください。このセッションには、「How Delta Lake Addresses Data Lake Challenges」(Delta Lake がどのようにデータレイクの課題に対処したか)についてのプレゼンテーションも含まれています。データレイク管理のベスト プラクティスを共有する今後のミートアップにもぜひご参加ください。
Dataproc Metastore にはデベロッパーとエンタープライズの 2 つのサービスティアが用意されていて、それぞれが異なるユースケースを対象としているため、機能やサービスレベル、料金体系が異なっています。一般公開プレビュー版をお使いのお客様は自動的に一般提供版にアップグレードされ、料金についてのドキュメントに沿って課金されます。
今すぐ Dataproc Metastore にメタデータをインポートして、Dataproc Metastore の使用を開始しましょう。
-データ分析担当プロダクト マネージャー Chris Crosbie
-ソフトウェア エンジニア Wilson Lian