BigQuery における Delta Lake のサポートに関するお知らせ
Google Cloud Japan Team
※この投稿は米国時間 2024 年 4 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
Delta Lake は、オープンソースの最適化されたストレージ レイヤであり、レイクハウス内のテーブルの基盤を提供し、既存のデータレイクの信頼性とパフォーマンスを高めます。(クラウド オブジェクト ストアのように)データレイク ストレージの上層に位置し、Parquet 形式で保存されたデータの上にパフォーマンスとスケーラビリティの高いメタデータ レイヤを提供します。
組織は、BigQuery を使用して、細分化されたアクセス制御により、あらゆるデータタイプ(構造化、非構造化)を管理しています。過去 1 年間、BigLake を使用したマルチフォーマット、マルチクラウド、マルチモーダルのデータの処理でのお客様による BigQuery の使用は 60 倍以上に増加しました。オープン テーブル形式をに対応しているため、既存のオープンソースおよび以前のツールを使用しながら、統合データ プラットフォームの利点を活用する柔軟性が得られます。これは、BigLake を通じて実現されます。BigLake は、Google Cloud Storage などのクラウド オブジェクト ストアにオープン ファイル形式でデータを保存し、Google Cloud ネイティブおよびオープンソースのクエリ エンジンを安全かつ管理されたパフォーマンスの高い方法で実行できるストレージ エンジンです。BigLake は、高度な統一データ ガバナンス モデルを提供することにより、データ ウェアハウスとデータ レイクを統合します。
Google は、今週の Google Cloud Next '24 で、このサポートが Delta Lake 形式にまで拡張された結果、Cloud Storage またはアマゾン ウェブ サービス S3 に保存されている Delta Lake テーブルを BigQuery から直接クエリでき、マニフェスト ファイルをエクスポート、コピー、使用しなくてもデータをクエリできるようになったことを発表しました。
この新機能が重要である理由
Delta Lake との既存の依存関係があるため、Delta Lake を引き続き利用する場合は、BigQuery ネイティブ サポートを活用できるようになりました。Google Cloud には、Delta Lake ワークロードに適した費用対効果の高い統合されたエクスペリエンスが備わっており、統合されたデータ マネジメント、一元化されたセキュリティ、堅牢なガバナンスに対応しています。多くのお客様はすでに、Dataproc やサーバーレス Spark の機能を活用して、Cloud Storage で Delta Lake テーブルを管理しています。BigQuery のネイティブ Delta Lake サポートにより、ビジネス インテリジェンス、レポート作成などのダウンストリーム アプリケーションへのシームレスなデータ配信に加えて、Vertex AI との統合が可能になりました。その結果、次のようなさまざまなことが可能になります。
-
BigLake のきめ細かなセキュリティ モデルにより、安全で管理されたレイクハウスを構築する
-
Analytics Hub を使用して、Delta Lake データを安全に交換する
-
BigQuery ML と Vertex AI を使用して、Delta Lake でデータ サイエンス ワークロードを実行する
BigQuery で Delta Lake を使用する方法
Delta Lake テーブルの作成プロセスは、BigLake テーブルの作成プロセスと変わりません。
必要なロール
BigLake テーブルを作成するには、次の BigQuery Identity and Access Management(IAM)権限が必要です。
-
bigquery.tables.create
-
bigquery.connections.delegate
前提条件
BigLake テーブルを作成する前に、Cloud Storage にアクセスできるデータセットとクラウド リソース接続が必要です。
DDL を使用してテーブルを作成する
Delta Lake テーブルを作成する DDL ステートメントを次に示します。
Delta Lake テーブルに対してクエリを実行する
Delta Lake BigLake テーブルを作成すると、標準の BigQuery テーブルと同じように GoogleSQL 構文を使用してクエリを実行できます。次に例を示します。
さらに、行レベルや列レベルのセキュリティなど、テーブルレベルできめ細やかなセキュリティを適用することもできます。Cloud Storage に基づく Delta Lake テーブルの場合は、動的データ マスキングも使用できます。
まとめ
BigQuery による Delta Lake のサポートは、Delta Lake を使用してレイクハウスを構築しているお客様にとって大きな進歩であると Google は考えています。この統合により、データからインサイトを得て、データドリブンな意思決定を行いやすくなります。お客様がビジネス上の課題を解決するために、Delta Lake と BigQuery をどのように組み合わせてご利用になるのか楽しみにしています。BigQuery で Delta Lake を使用する方法について詳しくは、ドキュメントをご覧ください。
謝辞: Mahesh Bogadi、Garrett Casto、Yuri Volobuev、Justin Levandoski、Gaurav Saxena、Manoj Gunti、Sami Akbay、Nic Smith およびその他の BigQuery エンジニアリング チーム メンバー。
-ソフトウェア エンジニア Silvian Calman
-データ & 分析コンサルタント Lakshmi Bobba