データ分析

BigLake でクエリのパフォーマンスを向上させて大規模な分析ワークロードを実行する

2023年6月29日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 6 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

従来のデータレイクは、主な機能面でデータウェアハウスに後れを取ってきました。特にクエリのパフォーマンスが原因で、大規模な分析ワークロードを実行する機能が制限されていました。Google Cloud は BigLake のリリースによってこの制限を取り払いました。今回のブログ投稿では、BigLake がスケーラブルなメタデータシステム、効率的なクエリプラン、マテリアライズドビューを介して、クエリのパフォーマンスをどのように向上させるかを詳しく説明します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_BigLake.max-2000x2000.png

BigLake を使用すると、データの単一コピーをクラウド上のオブジェクトストレージに保存できます。保存可能な形式は、Parquet や ORC などのオープンファイル形式、または Apache Iceberg などのオープンソースのテーブル形式です。BigLake テーブルの分析には、BigQuery を使用するか、高パフォーマンスの BigLake Storage API を介して外部のクエリエンジンを使用することができます（現在は BigQuery Omni のサポート対象外）。この API には Superluminal が組み込まれています。これは、データの効率的なカラム型スキャンと、ユーザー述語およびセキュリティフィルタの適用を可能にするベクトル化処理エンジンです。外部のクエリエンジンを信頼しないゼロトラストのアーキテクチャとなっており、特に任意のプロシージャルコードを実行する Apache Spark などのエンジンを利用する場合において意義をもちます。このことから、BigLake のセキュリティモデルは業界の先頭を行くものの一つとなっています。

Google Cloud の複数のお客様が、BigLake を利用して大規模なデータレイクハウスを構築しています。

「Dun & Bradstreet は、Google Cloud の一元的なデータレイクと統合データ処理プラットフォームを活用してデータクラウドを構築することを目指しています。当社の課題はパフォーマンスとデータの重複にありました。Google の分析レイクハウスアーキテクチャのおかげで、データの変換、ビジネス分析、ML のユースケースをデータの単一コピーに対して実行できるようになります。BigLake はまさに当社が必要としていたソリューションです。」 - Dun & Bradstreet、データアーキテクト Hui-Wen Wang 氏

クエリのパフォーマンスの向上

Google Cloud は最近、メタデータ、クエリプランニング、マテリアライズドビューに新しいデータマネジメントの手法を適用し、BigLake テーブルのパフォーマンスを改善しました。その詳細について、以降でご説明します。

メタデータの効率改善

データレイクテーブルは通常、オブジェクトストレージバケットでリストオペレーションを実行するようクエリエンジンに要求します。その性質上、数百万のファイルを含む大きいバケットのリストには時間がかかります。クエリエンジンがプルーニング（枝刈り）できないパーティションでは、エンジンがファイルのフッターを確認してデータブロックをスキップできるかどうかを判断する必要があるため、オブジェクトストアに追加で複数の IO が必要になります。効率的なパーティションとファイルのプルーニングは、クエリのパフォーマンスを高速化するうえで不可欠です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/BigLakes_metadata_cache-01.max-2200x2200.jpg

このたび、BigLake テーブル向けのメタデータキャッシュ保存の一般提供を行うことになりました。この機能により、BigLake テーブルがオブジェクトストレージ内のファイルに関する物理的なメタデータを自動的に収集し、維持できるようになります。BigLake テーブルは、BigQuery ネイティブテーブル向けに導入されているものと同じスケーラブルな Google メタデータ管理システム、Big Metadata を使用します。

BigLake は Big Metadata インフラストラクチャを使用して、ファイル名、パーティショニング情報、データファイルの物理的なメタデータ（行数やファイルごとの列レベルの統計情報など）をキャッシュに保存します。このキャッシュは Hive メタストアなどのシステムよりもきめ細かくメタデータを追跡するので、BigQuery と Storage API はオブジェクトストアからのファイルのリストを回避し、パーティションとファイルの高パフォーマンスなプルーニングを実現できます。

クエリプランの最適化

クエリエンジンは SQL クエリを実行可能なクエリプランに変換する必要があります。通常、特定の SQL クエリごとに複数のクエリプランが考えられます。クエリオプティマイザーの目標は、最適なプランを選択することです。一般的なクエリ最適化では制約が動的に反映され、クエリオプティマイザーが、小さなディメンションテーブルから結合した大きなファクトテーブルの述語を動的に推測します。この最適化によって、正規化されたテーブルスキーマを使用したクエリが高速化されますが、ほとんどの実装では、一定の精度があるテーブル統計情報が必要とされます。

メタデータキャッシュ保存で収集された統計情報により、BigQuery と Apache Spark の両方が最適化された高パフォーマンスのクエリプランを構築できます。パフォーマンスがどの程度向上したかを測定するために、各クエリが順次実行される TPC-DS ベンチマーク（Hive パーティション分割、10T）のパワーランを実行しました。Cloud Storage バケットと BigQuery データセットの両方が us-central1 リージョンにあり、2,000 スロットの予約が使用されました。以下のグラフは、BigLake メタデータキャッシュによって収集された統計情報を介して、BigQuery のスロットの使用状況とクエリの実行時間がどのように改善したかを示しています。メタデータキャッシュ保存によって、実行の実時間がおおむね 4 分の 1 に削減されました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Artboard_1_fBwON2q.max-2000x2000.jpg

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_BigLake.max-1400x1400.png

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_BigLake.max-1400x1400.png

Spark のパフォーマンスの飛躍的な向上

オープンソースの Spark BigQuery コネクタを使用すると、BigQuery テーブルと BigLake テーブルを Apache Spark DataFrame に読み込むことができます。このコネクタは内部で BigQuery Storage API を使用し、Spark の DataSource インターフェースを使用して Spark に統合されます。

Google Cloud は最近、Spark BigQuery コネクタに以下のような機能改良を加えました。

動的なパーティションプルーニングのサポート
結合の順序変更とエクスチェンジの再利用の強化
スキャンのパフォーマンスの大幅な改善
改善された Spark のクエリプランニング: テーブル統計情報が Storage API を介して返されるようになりました
非同期またはキャッシュに保存された統計情報のサポート

BigLake テーブルのマテリアライズドビュー

マテリアライズドビューは、クエリの結果を定期的にキャッシュに保存してパフォーマンスを改善する、事前に計算されたビューです。BigQuery のマテリアライズドビューに対して直接クエリを実行できるだけでなく、BigQuery オプティマイザーでマテリアライズドビューを使用してベーステーブルに対して直接実行するクエリを高速化することもできます。

このたび、BigLake テーブルのマテリアライズドビューのプレビューをリリースすることになりました。このマテリアライズドビューは BigQuery ネイティブテーブルのマテリアライズドビューと同様に機能し、自動更新や自動メンテナンスなどを行います。BigLake テーブルのマテリアライズドビューは BigLake テーブルの集計、フィルタ、結合を事前計算できるため、クエリを高速化できます。マテリアライズドビューは BigQuery ネイティブフォーマットで保存され、BigQuery ネイティブストレージのパフォーマンス特性をすべて備えています。

次のステップ

外部 BigQuery テーブルを使用している場合は BigLake テーブルにアップグレードし、メタデータキャッシュ保存とマテリアライズドビューに関するドキュメントを参考にして各機能をご利用ください。パフォーマンスが改善した Spark を活用するには、新しいバージョンの Spark（3.3 以上）と Spark-BigQuery コネクタを使用します。詳細については、こちらの BigLake テーブルの概要と BigLake のプロダクトページをご覧ください。

^{この投稿に協力してくれた、以下の各位に感謝します。
Kenneth Jung、Micah Kornfield、Garrett Casto、Zhou Fang、Xin Huang、Shiplu Hawlader、Fady Sedrak、Thibaud Hottelier、Lakshmi Bobba、Nilesh Yadav、Gaurav Saxena、Matt Gruchacz、Yuri Volobuev、Pavan Edara、Justin Levandoski、その他の BigQuery エンジニアリングチームのメンバー。Abhishek Modi、David Rabinowitz、Vishal Karve、Surya Soma、その他の Dataproc エンジニアリングチームのメンバー。}

- Google Cloud、ソフトウェアエンジニア Anoop Johnson
- Google Cloud、ソフトウェアエンジニア Deepak Nettem

投稿先