レプリケーションジョブにテーブルを追加する

レプリケーションジョブをデプロイした後、テーブルを編集または追加することはできません。代わりに、新しいレプリケーションジョブまたは重複するレプリケーションジョブにテーブルを追加します。

オプション 1: 新しいレプリケーションジョブを作成する

テーブルを新しいジョブに追加するのが最も簡単な方法です。これにより、過去のすべてのテーブルの再読み込みを防ぎ、データに不整合が生じる問題を防ぎます。

欠点は、複数のレプリケーションジョブを管理する際に生じるオーバーヘッドが増え、消費されるコンピューティングリソースが増加することです。これは、デフォルトで、各ジョブが個別のエフェメラル Dataproc クラスタで実行されるためです。消費されるコンピューティングリソースの増加は、両方のジョブで共有される静的 Dataproc クラスタを使用することである程度軽減できます。

新しいジョブの作成の詳細については、レプリケーションのチュートリアルをご覧ください。

Cloud Data Fusion で静的 Dataproc クラスタを使用する方法については、既存の Dataproc クラスタに対してパイプラインを実行するをご覧ください。

オプション 2: 現在のレプリケーションジョブを停止して複製を作成する

レプリケーションジョブを複製してテーブルを追加する場合は、次の点を考慮してください。

重複するジョブのスナップショットを有効にすると、すべてのテーブルの過去のデータがスクラッチから読み込まれます。これは、別々のジョブを実行する前述のオプションを使用できない場合におすすめします。
スナップショットを無効にして過去のデータを読み込まないようにすると、古いパイプラインが停止してから新しいパイプラインが開始されるまでにイベントが失われる可能性があるため、データが失われる可能性があります。この問題を軽減するために重複を作成することも、データ損失につながる可能性があるため、推奨されません。新しいテーブルの過去のデータは複製されません。

レプリケーションジョブの複製を作成するには、次の手順を行います。

既存のパイプラインを停止します。
[レプリケーションジョブ] ページで、複製するジョブを見つけて、と [複製] をクリックします。
スナップショットを有効にします。
1. [ソースを設定] に移動します。
2. [既存のデータを複製する] フィールドで、[はい] を選択します。
[テーブルと変換を選択する] ウィンドウでテーブルを追加し、ウィザードに沿ってレプリケーションパイプラインをデプロイします。

次のステップ

レプリケーションの詳細。

レプリケーション ジョブにテーブルを追加する

オプション 1: 新しいレプリケーション ジョブを作成する

オプション 2: 現在のレプリケーション ジョブを停止して複製を作成する

次のステップ

レプリケーションジョブにテーブルを追加する

オプション 1: 新しいレプリケーションジョブを作成する

オプション 2: 現在のレプリケーションジョブを停止して複製を作成する