このページは Cloud Translation API によって翻訳されました。

クロスリージョンデータセットレプリケーション

BigQuery データセットレプリケーションを使用すると、2 つの異なるリージョンまたはマルチリージョン間でデータセットの自動レプリケーションを設定できます。

概要

BigQuery でデータセットを作成するときに、データが保存されるリージョンまたはマルチリージョンを選択します。リージョンは、地理的エリア内のデータセンターの集まりで、マルチリージョンは、複数の地理的リージョンを含む広い地理的エリアです。データは、ここに含まれているリージョンの 1 つに保存され、マルチリージョン内で複製されません。リージョンとマルチリージョンの詳細については、BigQuery のロケーションをご覧ください。

BigQuery では、データセットのロケーション内の 2 つの異なるGoogle Cloud ゾーンに、データのコピーを常に保存しています。ゾーンは、リージョン内にある Google Cloud リソースのデプロイエリアです。どのリージョンでも、ゾーン間のレプリケーションで同期二重書き込みが実行されます。マルチリージョンロケーションを選択しても複数リージョン間のレプリケーションやリージョン冗長性は提供されないため、リージョン停止の場合にデータセットの可用性が向上することはありません。データは地理的位置内の単一リージョンに保存されます。

地理的な冗長性をさらに高めるため、任意のデータセットを複製できます。BigQuery は、指定された別のリージョンにデータセットのセカンダリレプリカを作成します。このレプリカは、他のリージョンの 2 つのゾーン間で非同期で複製されます。ゾーンのコピーは合計で 4 つになります。

データセットレプリケーション

データセットを複製すると、BigQuery は指定されたリージョンにデータを保存します。

プライマリリージョン。データセットを初めて作成すると、BigQuery はデータセットをプライマリリージョンに配置します。
セカンダリリージョン。データセットのレプリカを追加すると、BigQuery はレプリカをセカンダリリージョンに配置します。

初期の状態では、プライマリリージョンのレプリカがプライマリレプリカになり、セカンダリリージョンのレプリカがセカンダリレプリカになります。

プライマリレプリカは書き込み可能で、セカンダリレプリカは読み取り専用です。プライマリレプリカへの書き込みは、セカンダリレプリカに非同期で複製されます。各リージョン内では、データが 2 つのゾーンに冗長的に保存されます。ネットワークトラフィックが Google Cloud ネットワークの外部に出ることはありません。

次の図は、データセットが複製されるときに発生するレプリケーションを示しています。

リージョン 1 のプライマリゾーン内のプライマリレプリカは、リージョン 2 のプライマリゾーンとセカンダリゾーンに同時に複製されます。

プライマリリージョンがオンラインの場合は、セカンダリレプリカに手動で切り替えることができます。詳細については、セカンダリレプリカを昇格させるをご覧ください。

料金

複製されたデータセットについて、以下の費用が発生します。

ストレージ。セカンダリリージョンのストレージバイトは、セカンダリリージョンでの個別のコピーとして課金されます。BigQuery ストレージの料金をご覧ください。
データレプリケーション。データレプリケーションの費用については、データレプリケーションの料金をご覧ください。

データレプリケーションは BigQuery によって管理され、スロットリソースは使用されません。データレプリケーションの料金は別途請求されます。

セカンダリリージョンのコンピューティング容量

セカンダリリージョンのレプリカに対してジョブとクエリを実行するには、セカンダリリージョン内のスロットを購入するか、オンデマンドクエリを実行する必要があります。

このスロットを使用して、セカンダリレプリカから読み取り専用クエリを実行できます。セカンダリレプリカをプライマリに昇格させると、これらのスロットを使用してレプリカへの書き込みを行うこともできます。

プライマリリージョンと同じ数のスロットを購入することも、異なる数のスロットを購入することもできます。購入するスロットの数を減らすと、クエリのパフォーマンスに影響する可能性があります。

ロケーションに関する留意事項

データセットのレプリカを追加する前に、BigQuery に複製する初期データセットを作成する必要があります（まだ存在しない場合）。追加されたレプリカのロケーションは、レプリカの追加時に指定したロケーションに設定されます。追加するレプリカのロケーションは、初期データセットのロケーションとは別にする必要があります。データセット内のデータは、データセットが作成されたロケーションとレプリカのロケーションとの間で継続的に複製されます。ビュー、マテリアライズドビュー、BigLake 以外の外部テーブルなど、コロケーションが必要なレプリカの場合、ソースと異なるロケーションまたはソースと互換性のないロケーションにレプリカを追加すると、ジョブエラーが発生する可能性があります。

お客様がリージョン間でデータセットを複製すると、BigQuery はレプリカが作成されたロケーションにのみデータを配置します。

コロケーションの要件

データセットレプリケーションを使用するかどうかは、次のコロケーション要件によって決まります。

Cloud Storage

Cloud Storage 上のデータをクエリするには、Cloud Storage バケットとレプリカを同じ場所に配置する必要があります。レプリカを配置する場所を決定する際は、外部テーブルのロケーションに関する考慮事項をご覧ください。

制限事項

BigQuery データセットのレプリケーションには次の制限があります。

BigQuery Storage Write API または tabledata.insertAll メソッドからプライマリレプリカに書き込まれ、セカンダリレプリカに複製されるストリーミングデータはベストエフォートであり、レプリケーションの遅延が大きくなる可能性があります。
Datastream または BigQuery 変更データキャプチャからプライマリレプリカに書き込まれ、セカンダリレプリカに複製されるストリーミング upsert はベストエフォートであり、レプリケーションの遅延が大きくなる可能性があります。レプリケーションが完了すると、セカンダリレプリカの upsert は、テーブルに構成された max_staleness 値に従って、セカンダリレプリカのテーブルベースラインに統合されます。
複製されたデータセット内のテーブルできめ細かい DML を有効にすることはできません。また、きめ細かい DML が有効になっているテーブルを含むデータセットをレプリケートすることもできません。
レプリケーションとスイッチオーバーは、SQL データ定義言語（DDL）ステートメントを介して管理されます。
リージョンまたはマルチリージョンごとに、データセットあたり 1 つのレプリカに制限されます。同じ宛先リージョンに同じデータセットのセカンダリレプリカを 2 つ作成することはできません。
レプリカ内のリソースには、リソースの動作で説明されている制限が適用されます。
ポリシータグとそれに関連するデータポリシーは、セカンダリレプリカに複製されません。元のリージョン以外のリージョンにあるポリシータグを持つ列を参照するクエリは、そのレプリカが昇格しても失敗します。
タイムトラベルは、セカンダリレプリカの作成が完了した後に、セカンダリレプリカでのみ使用できます。
データセットでクロスリージョンレプリケーションを有効にするための宛先リージョンのサイズの上限は、デフォルトでは us と eu のマルチリージョンは 10 PB、他のリージョンは 500 TB です。これらの上限は構成可能です。詳しくは、Google Cloud サポートまでお問い合わせください。
割り当ては論理リソースに適用されます。
複製できるのは、テーブル数が 100,000 未満のデータセットのみです。
データセットの同じリージョンに追加（その後のドロップも）できるレプリカは、1 日に 4 つまでです。
帯域幅の制限があります。
replica_kms_key 値が構成されていない場合、顧客管理の暗号鍵（CMEK）が適用されたテーブルは、セカンダリリージョンでクエリできません。
BigLake テーブルはサポートされていません。
外部データセットまたは連携データセットは複製できません。
BigQuery Omni のロケーションはサポートされていません。
障害復旧用にデータレプリケーションを構成する場合、次のリージョンペアは構成できません。
- us-central1 - us マルチリージョン
- us-west1 - us マルチリージョン
- eu-west1 - eu マルチリージョン
- eu-west4 - eu マルチリージョン
ルーティンレベルのアクセス制御は複製できませんが、ルーティンのデータセットレベルのアクセス制御は複製できます。

リソースの動作

セカンダリレプリカ内のリソースでは、次のオペレーションはサポートされていません。

セカンダリレプリカは読み取り専用です。セカンダリレプリカにリソースのコピーを作成する必要がある場合は、リソースをコピーするか、最初にリソースをクエリしてから、セカンダリレプリカの外部で結果を実現する必要があります。たとえば、CREATE TABLE AS SELECT を使用して、セカンダリレプリカリソースから新しいリソースを作成します。

プライマリレプリカとセカンダリレプリカには次の違いがあります。

リージョン 1 プライマリレプリカ	リージョン 2 セカンダリレプリカ	注
BigLake テーブル	BigLake テーブル	サポートされていません。
外部テーブル	外部テーブル	外部テーブル定義のみが複製されます。Cloud Storage バケットがレプリカと同じロケーションに配置されていない場合、クエリは失敗します。
論理ビュー	論理ビュー	論理ビューと同じロケーションにないデータセットまたはリソースを参照する論理ビューは、クエリを実行すると失敗します。
マネージドテーブル	マネージドテーブル	違いはありません。
マテリアライズドビュー	マテリアライズドビュー	参照されるテーブルがマテリアライズドビューと同じリージョンにない場合、クエリは失敗します。複製されたマテリアライズドビューでは、ビューの最大ステイルネスを超えるステイルネスが発生することがあります。
モデル	モデル	マネージドテーブルとして保存。
リモート関数	リモート関数	接続はリージョン単位です。リモート関数と同じロケーションにないデータセットまたはリソース（接続）を参照するリモート関数は、実行時に失敗します。
ルーティン	ユーザー定義関数（UDF）またはストアドプロシージャ	ルーティンと同じロケーションにないデータセットまたはリソースを参照するルーティンは、実行時に失敗します。接続を参照するルーティン（リモート関数など）は、ソースリージョンの外部では機能しません。
行アクセスポリシー	行アクセスポリシー	違いはありません。
検索インデックス	検索インデックス	複製されません。
ストアドプロシージャ	ストアドプロシージャ	ストアドプロシージャと同じロケーションにないデータセットまたはリソースを参照するストアドプロシージャは、実行時に失敗します。
テーブルクローン	マネージドテーブル	セカンダリレプリカでディープコピーとして課金
テーブルスナップショット	テーブルスナップショット	セカンダリレプリカでディープコピーとして課金
テーブル値関数（TVF）	TVF	TVF と同じロケーションにないデータセットまたはリソースを参照する TVF は、実行時に失敗します。
UDF	UDF	UDF と同じロケーションにないデータセットまたはリソースを参照する UDF は、実行時に失敗します。

停止のシナリオ

クロスリージョンレプリケーションは、リージョン全体が停止した場合の障害復旧計画として使用するものではありません。プライマリレプリカのリージョンでリージョン全体が停止した場合、セカンダリレプリカをプロモートすることはできません。セカンダリレプリカは読み取り専用であるため、プライマリレプリカのリージョンが復元されるまで、セカンダリレプリカで書き込みジョブを実行できず、セカンダリリージョンをプロモートすることはできません。障害復旧の準備について詳しくは、マネージド障害復旧をご覧ください。

次の表に、複製されたデータにリージョン全体の停止がどのように影響するのかを示します。

リージョン 1	リージョン 2	停止リージョン	影響
プライマリレプリカ	セカンダリレプリカ	リージョン 2	セカンダリレプリカに対してリージョン 2 で実行されている読み取り専用ジョブが失敗します。
プライマリレプリカ	セカンダリレプリカ	リージョン 1	リージョン 1 で実行されているジョブがすべて失敗します。読み取り専用ジョブは、セカンダリレプリカが配置されているリージョン 2 で引き続き実行されます。リージョン 2 のコンテンツは、リージョン 1 と正常に同期されるまでは古くなります。

データセットレプリケーションを使用する

このセクションでは、データセットを複製し、セカンダリレプリカを昇格して、セカンダリリージョンで BigQuery 読み取りジョブを実行する方法について説明します。

必要な権限

レプリカの管理に必要な権限を取得するには、bigquery.datasets.update 権限を付与するよう管理者に依頼してください。

データセットを複製する

データセットを複製するには、ALTER SCHEMA ADD REPLICA DDL ステートメントを使用します。

リージョンまたはマルチリージョン内にまだ複製されていないデータセットには、レプリカを追加できます。レプリカを追加した後、最初のコピーオペレーションが完了するまでに時間がかかります。データのレプリケーション中も、プライマリレプリカを参照するクエリを実行でき、クエリの処理能力は低下しません。マルチリージョンの地域内でデータを複製することはできません。

次の例では、us-central1 リージョンに my_dataset という名前のデータセットを作成し、us-east4 リージョンにレプリカを追加します。

-- Create the primary replica in the us-central1 region.
CREATE SCHEMA my_dataset OPTIONS(location='us-central1');

-- Create a replica in the secondary region.
ALTER SCHEMA my_dataset
ADD REPLICA `my_replica`
OPTIONS(location='us-east4');

セカンダリレプリカが正常に作成されたことを確認するには、INFORMATION_SCHEMA.SCHEMATA_REPLICAS ビューで creation_complete 列をクエリします。

セカンダリレプリカが作成されたら、クエリのロケーションをセカンダリリージョンに明示的に設定してクエリを実行できます。ロケーションが明示的に設定されていない場合、BigQuery はデータセットのプライマリレプリカのリージョンを使用します。

セカンダリレプリカを昇格させる

プライマリリージョンがオンラインの場合は、セカンダリレプリカを昇格できます。昇格により、セカンダリレプリカが書き込み可能なプライマリに切り替わります。このオペレーションは、セカンダリレプリカがプライマリレプリカに追いつくと数秒以内に完了します。セカンダリレプリカが追い付かない場合、追い付くまで昇格は完了しません。プライマリを含むリージョンが停止した場合、セカンダリレプリカをプライマリに昇格させることはできません。

次の点にご注意ください。

昇格の進行中は、テーブルへのすべての書き込みでエラーが返されます。昇格が開始されると、古いプライマリレプリカへの書き込みはすぐにできなくなります。
昇格の開始時に完全には複製されていないテーブルは、ステイル読み取りを返します。

レプリカをプライマリレプリカに昇格させるには、ALTER SCHEMA SET OPTIONS DDL ステートメントを使用して primary_replica オプションを設定します。

次の点にご注意ください。クエリの設定で、ジョブのロケーションをセカンダリリージョンに明示的に設定する必要があります。BigQuery でロケーションを指定するをご覧ください。

次の例では、us-east4 レプリカをプライマリに昇格させます。

ALTER SCHEMA my_dataset SET OPTIONS(primary_replica = 'us-east4')

セカンダリレプリカが正常に昇格したことを確認するには、INFORMATION_SCHEMA.SCHEMATA_REPLICAS ビューで replica_primary_assignment_complete 列をクエリします。

データセットのレプリカを削除する

レプリカを削除してデータセットのレプリケーションを停止するには、ALTER SCHEMA DROP REPLICA DDL ステートメントを使用します。

次の例では、us レプリカを削除します。

ALTER SCHEMA my_dataset
DROP REPLICA IF EXISTS `us`;

データセット全体を削除するには、まずセカンダリレプリカを削除する必要があります。すべてのセカンダリレプリカを削除せずにデータセット全体を削除すると（たとえば DROP SCHEMA ステートメントを使用すると）、次のエラーが発生します。

The dataset replica of the cross region dataset 'project_id:dataset_id' in region 'REGION' is not yet writable because the primary assignment is not yet complete.

詳細については、セカンダリレプリカを昇格させるをご覧ください。

データセットのレプリカを一覧表示する

プロジェクト内のデータセットのレプリカを一覧表示するには、INFORMATION_SCHEMA.SCHEMATA_REPLICAS ビューにクエリします。

データセットを移行する

クロスリージョンデータセットレプリケーションを使用すると、データセットをリージョン間で移行できます。次の例は、クロスリージョンレプリケーションを使用して、既存の my_migration データセットを US マルチリージョンから EU マルチリージョンに移行するプロセスを示しています。

データセットを複製する

移行プロセスを開始するには、まず、データの移行先となるリージョンにデータセットを複製します。このシナリオでは、my_migration データセットを EU マルチリージョンに移行します。

-- Create a replica in the secondary region.
ALTER SCHEMA my_migration
ADD REPLICA `eu`
OPTIONS(location='eu');

これにより、EU マルチリージョンに eu という名前のセカンダリレプリカが作成されます。プライマリレプリカは、US マルチリージョン内の my_migration データセットです。

セカンダリレプリカを昇格させる

データセットの EU マルチリージョンへの移行を継続するため、セカンダリレプリカを昇格させます。

ALTER SCHEMA my_migration SET OPTIONS(primary_replica = 'eu')

昇格が完了すると、eu がプライマリレプリカになります。これは書き込み可能なレプリカです。

移行を完了する

US マルチリージョンから EU マルチリージョンへの移行を完了するには、us レプリカを削除します。この手順は必須ではありませんが、移行以外の目的ではデータセットレプリカが必要でない場合に便利です。

ALTER SCHEMA my_migration
DROP REPLICA IF EXISTS us;

データセットは EU マルチリージョンに配置されており、my_migration データセットのレプリカはありません。データセットが EU マルチリージョンに正常に移行されました。移行されるリソースの一覧については、リソースの動作をご覧ください。

顧客管理の暗号鍵（CMEK）

セカンダリレプリカを作成するときに、顧客管理の Cloud Key Management Service 鍵が自動的に複製されることはありません。複製されたデータセットで暗号化を維持するには、追加されたレプリカのロケーションに replica_kms_key を設定する必要があります。replica_kms_key は、ALTER SCHEMA ADD REPLICA DDL ステートメントを使用して設定できます。

CMEK を使用したデータセットレプリケーションは、次のように動作します。

ソースデータセットに default_kms_key がある場合は、ALTER SCHEMA ADD REPLICA DDL ステートメントを使用するときに、レプリカデータセットのリージョンで作成された replica_kms_key を指定する必要があります。
ソースデータセットに default_kms_key の値が設定されていない場合、replica_kms_key は設定できません。
default_kms_key または replica_kms_key のいずれか（または両方）で Cloud KMS 鍵のローテーションを使用している場合、複製されたデータセットは鍵のローテーション後もクエリ可能です。
- プライマリリージョンでの鍵のローテーションでは、ローテーション後に作成されたテーブルでのみ鍵バージョンが更新されます。鍵のローテーションより前に存在していたテーブルでは、ローテーション前に設定された鍵バージョンを引き続き使用します。
- セカンダリリージョンで鍵のローテーションを行うと、セカンダリレプリカ内のすべてのテーブルが新しい鍵バージョンに更新されます。
- プライマリレプリカをセカンダリレプリカに切り替えると、セカンダリレプリカ（以前のプライマリレプリカ）内のすべてのテーブルが新しい鍵バージョンに更新されます。
- 鍵のローテーション前にプライマリレプリカ内のテーブルに設定された鍵バージョンが削除されると、鍵バージョンが更新されるまで、鍵のローテーション前に設定された鍵バージョンを使用しているテーブルに対してクエリを実行することはできません。鍵バージョンを更新するには、古い鍵バージョンが有効になっている（無効化または削除されていない）必要があります。
ソースデータセットに default_kms_key の値が設定されていないものの、ソースデータセット内に CMEK が適用された個々のテーブルがある場合、複製されたデータセットでこれらのテーブルをクエリすることはできません。テーブルに対してクエリを実行する手順は次のとおりです。
- ソースデータセットの default_kms_key 値を追加します。
- ALTER SCHEMA ADD REPLICA DDL ステートメントを使用して新しいレプリカを作成する場合は、replica_kms_key オプションに値を設定します。CMEK テーブルは、宛先リージョンでクエリできます。
宛先リージョンのすべての CMEK テーブルは、ソースリージョンで使用されている鍵に関係なく、同じ replica_kms_key を使用します。

CMEK を使用してレプリカを作成する

次の例では、replica_kms_key 値が設定された us-west1 リージョンにレプリカを作成します。CMEK 鍵の場合は、暗号化と復号を行う BigQuery サービスアカウント権限を付与します。

-- Create a replica in the secondary region.
ALTER SCHEMA my_dataset
ADD REPLICA `us-west1`
OPTIONS(location='us-west1',
  replica_kms_key='my_us_west1_kms_key_name');

CMEK の制限事項

CMEK が適用されたデータセットを複製する場合、次の制限があります。

レプリカの作成後に、複製された Cloud KMS 鍵を更新することはできません。
データセットのレプリカの作成後に、ソースデータセットの default_kms_key 値を更新することはできません。
指定された replica_kms_key が宛先リージョンで有効でない場合、データセットは複製されません。

次のステップ

BigQuery 予約方法を学習する。
BigQuery の信頼性に関する機能について学習する。

クロスリージョン データセット レプリケーション

概要

データセット レプリケーション

料金

セカンダリ リージョンのコンピューティング容量

ロケーションに関する留意事項

コロケーションの要件

Cloud Storage

制限事項

リソースの動作

停止のシナリオ

データセット レプリケーションを使用する

必要な権限

データセットを複製する

セカンダリ レプリカを昇格させる

データセットのレプリカを削除する

データセットのレプリカを一覧表示する

データセットを移行する

データセットを複製する

セカンダリ レプリカを昇格させる

移行を完了する

顧客管理の暗号鍵（CMEK）

CMEK を使用してレプリカを作成する

CMEK の制限事項

次のステップ

クロスリージョンデータセットレプリケーション

データセットレプリケーション

セカンダリリージョンのコンピューティング容量

データセットレプリケーションを使用する

セカンダリレプリカを昇格させる

セカンダリレプリカを昇格させる