Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Nachdem Sie einen Replikationsjob bereitgestellt haben, können Sie ihn nicht mehr bearbeiten oder ihm Tabellen hinzufügen. Fügen Sie die Tabellen stattdessen einem neuen oder duplizierten Replikationsjob hinzu.
Option 1: Neuen Replikationsjob erstellen
Die einfachste Methode ist, Tabellen einem neuen Job hinzuzufügen. So wird verhindert, dass Verlaufsdaten für alle Tabellen neu geladen werden und Dateninkonsistenzen auftreten.
Nachteile sind der erhöhte Aufwand für die Verwaltung mehrerer Replikationsjobs und der höhere Verbrauch von Rechenressourcen, da jeder Job standardmäßig in einem separaten sitzungsspezifischen Dataproc-Cluster ausgeführt wird. Letzteres kann durch die Verwendung eines freigegebenen statischen Dataproc-Clusters für beide Jobs teilweise vermieden werden.
Option 2: Aktuellen Replikationsjob anhalten und ein Duplikat erstellen
Wenn Sie den Replikationsjob duplizieren, um die Tabellen hinzuzufügen, beachten Sie Folgendes:
Wenn Sie den Snapshot für den Duplikatjob aktivieren, werden alle Tabellen neu aus dem Verlauf geladen. Dies wird empfohlen, wenn Sie die vorherige Option, bei der Sie separate Jobs ausführen, nicht verwenden können.
Wenn Sie den Snapshot deaktivieren, um die Datenlast zu verhindern, kann es zu Datenverlusten kommen, da zwischen dem Stopp der alten Pipeline und dem Start der neuen Pipeline Ereignisse verpasst werden können. Es wird nicht empfohlen, eine Überschneidung zu erstellen, um dieses Problem zu beheben, da dies auch zu Datenverlusten führen kann. Verlaufsdaten für die neuen Tabellen werden nicht repliziert.
So erstellen Sie einen Replikationsjob für eine Duplikatdatei:
Beenden Sie die vorhandene Pipeline.
Suchen Sie auf der Seite „Replikationsjobs“ nach dem Job, den Sie duplizieren möchten, klicken Sie auf more_vert und dann auf Duplizieren.
Snapshot aktivieren:
Klicken Sie auf Quelle konfigurieren.
Wählen Sie im Feld Vorhandene Daten replizieren die Option Ja aus.
Fügen Sie im Fenster Tabellen und Transformationen auswählen Tabellen hinzu und folgen Sie dem Assistenten, um die Replikationspipeline bereitzustellen.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eYou cannot directly edit or add tables to an existing replication job after deployment; instead, you must create a new or duplicate job.\u003c/p\u003e\n"],["\u003cp\u003eCreating a new replication job to add tables is the preferred method as it prevents historical reloading and data inconsistency issues, but it increases overhead and resource consumption.\u003c/p\u003e\n"],["\u003cp\u003eDuplicating a replication job to add tables requires careful consideration of snapshot settings, as enabling the snapshot triggers a full historical reload, while disabling it can lead to data loss.\u003c/p\u003e\n"],["\u003cp\u003eRunning duplicate replication jobs against the same target BigQuery dataset as the original job should be avoided, as it can cause data inconsistency.\u003c/p\u003e\n"],["\u003cp\u003eUsing a shared static Dataproc cluster can help mitigate the increased compute resource usage associated with running multiple replication jobs.\u003c/p\u003e\n"]]],[],null,["# Add tables to a replication job\n\nAfter you deploy a replication job, you cannot edit or add tables to\nit. Instead, add the tables to a new or duplicate replication job.\n\nOption 1: Create a new replication job\n--------------------------------------\n\nAdding tables to a new job is the simplest approach. It prevents historical\nreloading of all the tables and prevents data inconsistency issues.\n\nThe drawbacks are the increased overhead of managing multiple\nreplication jobs and the consumption of more compute resources, as\neach job runs on a separate ephemeral Dataproc cluster by\ndefault. The latter can be mitigated to some extent by using a shared static\nDataproc cluster for both jobs.\n\nFor more information about creating new jobs, see the\n[Replication tutorials](/data-fusion/docs/how-to/using-replication).\n\nFor more information about using static Dataproc cluster in\nCloud Data Fusion, see\n[Run a pipeline against an existing Dataproc cluster](/data-fusion/docs/how-to/running-against-existing-dataproc)\n\nOption 2: Stop the current replication job and create a duplicate\n-----------------------------------------------------------------\n\nIf you duplicate the replication job to add the tables, consider the\nfollowing:\n\n- Enabling the snapshot for the duplicate job results in the historical load of\n all the tables from scratch. This is recommended if you cannot use the\n previous option, where you run separate jobs.\n\n- Disabling the snapshot to prevent the historical load can result in data\n loss, as there could be missed events between when the old pipeline stops and\n the new one starts. Creating an overlap to mitigate this issue isn't\n recommended, as it can also result in data loss---historical data for the new\n tables isn't replicated.\n\nTo create a duplicate replication job, follow these steps:\n\n1. Stop the existing pipeline.\n\n2. From the Replication jobs page, locate the job that you want to duplicate,\n click more_vert and\n **Duplicate**.\n\n3. Enable the snapshot:\n\n 1. Go to **Configure source**.\n 2. In the **Replicate existing data** field, select **Yes**.\n4. Add tables in the **Select tables and transformations** window and follow the\n wizard to deploy the replication pipeline.\n\n| **Note:** If you run a duplicate replication job against the same target BigQuery dataset as the original job, don't run the original job again, as it can cause data inconsistency.\n\nWhat's next\n-----------\n\n- Learn more about [Replication](/data-fusion/docs/concepts/replication)."]]