レプリケーション ジョブをデプロイした後、テーブルを編集または追加することはできません。代わりに、新しいレプリケーション ジョブまたは重複するレプリケーション ジョブにテーブルを追加します。
オプション 1: 新しいレプリケーション ジョブを作成する
テーブルを新しいジョブに追加するのが最も簡単な方法です。これにより、過去のすべてのテーブルの再読み込みを防ぎ、データに不整合が生じる問題を防ぎます。
欠点は、複数のレプリケーション ジョブを管理する際に生じるオーバーヘッドが増え、消費されるコンピューティング リソースが増加することです。これは、デフォルトで、各ジョブが個別のエフェメラル Dataproc クラスタで実行されるためです。消費されるコンピューティング リソースの増加は、両方のジョブで共有される静的 Dataproc クラスタを使用することである程度軽減できます。
新しいジョブの作成の詳細については、レプリケーションのチュートリアルをご覧ください。
Cloud Data Fusion で静的 Dataproc クラスタを使用する方法については、既存の Dataproc クラスタに対してパイプラインを実行するをご覧ください。
オプション 2: 現在のレプリケーション ジョブを停止して複製を作成する
レプリケーション ジョブを複製してテーブルを追加する場合は、次の点を考慮してください。
重複するジョブのスナップショットを有効にすると、すべてのテーブルの過去のデータが最初から読み込まれます。これは、個別のジョブを実行する前述のオプションを使用できない場合におすすめします。
スナップショットを無効にして過去の読み込みを防ぐと、古いパイプラインが停止してから新しいパイプラインが開始されるまでにイベントが失われる可能性があるため、データが失われる可能性があります。この問題を軽減するために重複を作成することは、データ損失につながる可能性があるため、推奨されません。新しいテーブルの過去のデータは複製されません。
レプリケーション ジョブの複製を作成するには、次の操作を行います。
既存のパイプラインを停止します。
[レプリケーション ジョブ] ページで、複製するジョブを見つけて、
と [複製] をクリックします。スナップショットを有効にします。
- [ソースを設定] に移動します。
- [既存のデータを複製する] フィールドで、[はい] を選択します。
[テーブルと変換を選択する] ウィンドウでテーブルを追加し、ウィザードに沿ってレプリケーション パイプラインをデプロイします。
次のステップ
- レプリケーションの詳細。