マテリアライズド ビューのレプリカを作成する
このドキュメントでは、BigQuery でマテリアライズド ビューのレプリカを作成する方法について説明します。マテリアライズド ビューのレプリカは、外部 Amazon Simple Storage Service(Amazon S3)、Apache Iceberg、Salesforce Data Cloud のデータを BigQuery データセットに複製したもので、BigQuery のローカルでデータを使用できるようにします。これにより、下り(外向き)データの費用を回避し、クエリのパフォーマンスを向上させることができます。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- このドキュメントのタスクを実行するために必要な Identity and Access Management(IAM)権限が付与されていることを確認します。
必要なロール
このドキュメントのタスクの実行に必要な権限を取得するには、BigQuery 管理者(roles/bigquery.admin
)の IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
この事前定義ロールには、このドキュメントのタスクを実行するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。
必要な権限
このドキュメントのタスクを実行するには、次の権限が必要です。
-
bigquery.tables.create
-
bigquery.tables.get
-
bigquery.tables.getData
-
bigquery.tables.replicateData
-
bigquery.jobs.create
カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。
BigQuery IAM の詳細については、BigQuery の IAM の概要をご覧ください。
マテリアライズド ビューのレプリカ用にデータセットを準備する
マテリアライズド ビューのレプリカを作成するには、事前に次のタスクを完了する必要があります。
- Amazon S3 をサポートするリージョンにデータセットを作成します。
- 前の手順で作成したデータセットにソーステーブルを作成します。ソーステーブルは、次のいずれかのテーブルタイプにできます。
- メタデータ キャッシュが有効で、Iceberg ファイル形式を使用しない Amazon S3 BigLake テーブル。
- Apache Iceberg 用の BigLake 外部テーブル。
- Data Cloud テーブル。
マテリアライズド ビューのレプリカを作成する
次のオプションのいずれかを選択します。
コンソール
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、マテリアライズド ビュー レプリカを作成するプロジェクトとデータセットに移動し、 > [テーブルを作成] をクリックします。
(アクションを表示)[テーブルの作成] ダイアログの [ソース] セクションで、次の操作を行います。
- [テーブルの作成元] で [既存のテーブル / ビュー] を選択します。
- [プロジェクト] に、ソーステーブルまたはビューが存在するプロジェクトを入力します。
- [データセット] に、ソーステーブルまたはビューが存在するデータセットを入力します。
- [ビュー] に、複製するソーステーブルまたはビューを入力します。ビューを選択する場合は、承認済みビューである必要があります。そうでない場合は、そのビューの生成に使用されるすべてのテーブルがビューのデータセットに存在している必要があります。
省略可: [ローカル マテリアライズド ビューの最大未更新] に、ローカル マテリアライズド ビューの
max_staleness
値を入力します。[テーブルを作成] ダイアログの [宛先] セクションで、次の操作を行います。
- [プロジェクト] に、マテリアライズド ビューのレプリカを作成するプロジェクトを入力します。
- [データセット] に、マテリアライズド ビューのレプリカを作成するデータセットを入力します。
- [レプリカのマテリアライズド ビューの名前] に、レプリカの名前を入力します。
省略可: マテリアライズド ビューのレプリカのタグと詳細オプションを指定します。[ローカル マテリアライズド ビュー データセット] にデータセットを指定しない場合、ソースデータと同じプロジェクトとリージョンに自動的に作成され、
bq_auto_generated_local_mv_dataset
という名前が付けられます。[レプリカのマテリアライズド ビューの名前] に名前を指定しない場合、ソースデータと同じプロジェクトとリージョンに自動的に作成され、接頭辞bq_auto_generated_local_mv_
が付けられます。[テーブルを作成] をクリックします。
新しいローカル マテリアライズド ビューが作成され(指定されていない場合)、ソース データセットで承認されます。その後、宛先データセットにマテリアライズド ビューのレプリカが作成されます。
SQL
- 作成したデータセットのベーステーブルにマテリアライズド ビューを作成します。Amazon S3 リージョンにある別のデータセットにマテリアライズド ビューを作成することもできます。
- マテリアライズド ビューを作成したクエリで使用したソーステーブルを含むデータセットで、マテリアライズド ビューを承認します。
- ソーステーブルに対してメタデータ キャッシュの手動更新を構成した場合は、
BQ.REFRESH_EXTERNAL_METADATA_CACHE
システム プロシージャを実行してメタデータ キャッシュを更新します。 BQ.REFRESH_MATERIALIZED_VIEW
システム プロシージャを実行して、マテリアライズド ビューを更新します。CREATE MATERIALIZED VIEW AS REPLICA OF
ステートメントを使用してマテリアライズド ビューのレプリカを作成します。CREATE MATERIALIZED VIEW PROJECT_ID.BQ_DATASET.REPLICA_NAME OPTIONS(replication_interval_seconds=REPLICATION_INTERVAL) AS REPLICA OF PROJECT_ID.S3_DATASET.MATERIALIZED_VIEW_NAME;
次のように置き換えます。
PROJECT_ID
: マテリアライズド ビューのレプリカを作成するプロジェクトの名前(例:myproject
)。BQ_DATASET
: マテリアライズド ビューのレプリカを作成する BigQuery データセットの名前(例:bq_dataset
)。データセットは、ソースのマテリアライズド ビューのリージョンに対応する BigQuery リージョンに存在する必要があります。REPLICA_NAME
: 作成するマテリアライズド ビュー レプリカの名前(例:my_mv_replica
)。REPLICATION_INTERVAL
: ソースのマテリアライズド ビューからレプリカにデータを複製する頻度を秒単位で指定します。60~3,600 の値にする必要があります。デフォルトは 300(5 分)です。S3_DATASET
: ソースのマテリアライズド ビューを含むデータセットの名前(例:s3_dataset
)。MATERIALIZED_VIEW_NAME
: 複製するマテリアライズド ビューの名前(例:my_mv
)。
次の例では、
bq_dataset
にmv_replica
というマテリアライズド ビュー レプリカが作成されます。CREATE MATERIALIZED VIEW `myproject.bq_dataset.mv_replica` OPTIONS( replication_interval_seconds=600 ) AS REPLICA OF `myproject.s3_dataset.my_s3_mv`
マテリアライズド ビューのレプリカを作成すると、レプリケーション プロセスでソースのマテリアライズド ビューに対して変更がポーリングされ、データがマテリアライズド ビューのレプリカに複製されます。データは replication_interval_seconds
または max_staleness
オプションで指定した間隔で更新されます。最初のバックフィルが完了する前にレプリカに対してクエリを実行すると、backfill in progress
エラーが発生します。最初のレプリケーションの完了後、マテリアライズド ビューのレプリカのデータをクエリできるようになります。