コンテンツに移動
データ分析

Dataproc Metastore: フルマネージドの Hive メタストアの公開プレビューをリリース

2020年12月17日
https://storage.googleapis.com/gweb-cloudblog-publish/images/gcp_serverless.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2020 年 12 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。

Apache Hive メタストア サービスは、Apache SparkPresto などのオープンソース ソフトウェアの多様な環境を利用するデータレイクにとってのビルディング ブロックとなってきました。そんな中、本日 Dataproc Metastore の公開プレビューをリリースします。Google Cloud のお客様は、よりスムーズに、少ない遅延で、強力なツールを簡単にご利用いただけます。Dataproc Metastore は、高可用性と自動修復機能を備えたオープンソースのフルマネージド Apache Hive メタストア サービスです。Google Cloud 上にデータレイクを構築しているユーザーは、このサービスを利用してメタデータの技術的な管理を容易に行うことができます。そして、期間限定で無料でご利用いただけます。このリリースは、今年 6 月に発表された非公開プレビューからあまり間を開けずに公開される運びとなり、クラウド テクノロジーをオープンソースと組み合わせて迅速なイノベーションとデリバリーを約束する Google の取り組みを実証する形となりました。

詳細に入る前に、まずは非公開プレビューでテストを行って豊富なフィードバックを提供してくださったユーザーの皆様に心から感謝を申し上げます。皆様の貴重なご意見により、本日のリリースはより良いものとなりました。

データレイクへの影響

Hive メタストアに関する知識をお持ちの方であれば、これがメタデータの中央リポジトリとして機能する、多くのデータレイクの重要なコンポーネントであることをすでにご存じでしょう。実際、ツール、オープンソースなどのエコシステム全体が Hive メタストアを中心に構築されています。この一部を次の図に示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Dataproc_Metastore.max-1600x1600.jpg

Dataproc Metastore はサーバーレスな Hive メタストアであり、Google Cloud のデータレイクを使用する、次のようないくつかの重要なユースケースに対応します。

  • 多数のエフェメラル Dataproc クラスタで同時に Dataproc Metastore を利用できるため、多数のユーザーまたは Spark、Hive、Presto などのオープンソース ツールで同時に一貫したメタデータにアクセスできます。

  • オープンソース テーブルと Data Fusion 間でのメタデータの統合により、これらのテーブルでの ETL や ELT が容易になり、コーディングが不要になります。

  • メタデータを中央ストアに結び付けるため、Dataproc などのクラウド ネイティブなサービスが他のオープンソース ツールやパートナー テクノロジーとシームレスに連携できます。

Dataproc Metastore により、データレイクはより統一されて管理しやすくなり、サーバーレス化が推進されるため、よりスムーズな作業が可能になります。

新機能

非公開プレビューの期間中、6 月の最初の発表以降に多数の新機能が Dataproc Metastore に追加されました。本日このリリースで、これらの機能のいくつかが利用可能になります。

  • IAM と Kerberos - IAM をきめ細かくサポートするとともに、Kerberos やその他のセキュリティ ツール(Apache Ranger など)もすぐにサポートします。

  • インポート / エクスポート - メタデータをインポートおよびエクスポートすることで、オンプレミスのメタストアなどの他の Hive メタストアとの双方向の統合や移行が可能になります。

  • VPC-SC - データ漏洩のリスクを軽減する Google Cloud VPC Service Controls をサポートします。

  • ACID トランザクション - Dataproc Metastore は Hive の ACID トランザクション機能を使用して ACID トランザクションをサポートします。

  • Stackdriver の統合 - Stackdriver の内部でシームレスに Dataproc Metastore インスタンスのロギングとモニタリングを行います。

  • 幅広い Dataproc に対応 -  Spark、Hadoop、Hive3.x を使用する Dataproc 2.0 プレビュー リリースなど、幅広い Dataproc リリースに対応しています。

  • サービスの更新 - 構成、ティア、ポート、メンテナンスの時間枠など、Hive メタストア サービスの要素をトランザクションで更新できます。

  • Cloud Console と Cloud SDK - Dataproc Metastore は、Cloud Console と Cloud SDK コマンドライン(gcloud メタストア ベータ版)の両方をサポートします。

Dataproc Metastore の一般提供に向けて、また特にご要望の多かった、顧客管理の暗号鍵などの機能を追加するよう、引き続き迅速に取り組んでまいります。

料金

本日から一般提供までの公開プレビュー期間中、Dataproc Metastore は無料で提供されます。この無料提供は、テスト費用を負担せずに Dataproc Metastore を使用してテストしていただくことを目的としています。

Dataproc Metastorte はデベロッパーエンタープライズの 2 つのサービスティアで提供され、それぞれ異なるユースケースを対象として、異なる機能、サービスレベル、料金があります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/sukurinshiyotsuto_2020-12-17_9.11.43.max-600x600.png

この料金では、デベロッパー インスタンスを作成して迅速なテストやプロトタイピングを行うことができます。本番環境に対してテストしたり、本番環境データベースのコピーを多数作成したりする必要はありません。今後のリリースには、Data Catalog 統合など、特定のティアを対象とした機能も組み込まれる予定です。

料金の詳細については、Dataproc Metastore の料金に関するドキュメントをご覧ください。

サーバーレスなオープンソース

Dataproc Metastore は、最適な Google Cloud インフラストラクチャを使用してマネージド オープンソースを実行できることを示す良い例です。Hive メタストアの実行、保護、スケーリング方法の革新により、Dataproc Metastore をサーバーレスにすることができるようになりました。ただし、このリリースで終わりではありません。これはクラウドでのデータ分析のためのマネージド オープンソースの再構築の始まりです。クラウドとオープンソースの両方に情熱を注ぐチームとして、検証が必要なインフラストラクチャの排除、スケーラビリティの自動化、人的介入をさらに不要にした高可用性、わかりやすい料金体系など、Hive メタストアを優れたものにする特色を、他の一般的なオープンソース コンポーネントにおいても実現すべく精進してまいります。

使ってみる

Google Cloud をご利用のお客様は、本日より公開プレビューの期間中、Dataproc Metastore を無料でご利用いただけます。ご利用方法について詳しくは、クイックスタート ガイドまたは完全なドキュメントをご覧ください。

-シニア プロダクト マネージャー James Malone、テクニカル リーダー兼マネージャー Feng Lu

投稿先