Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Después de implementar un trabajo de replicación, no puedes editar ni agregar tablas a él. En su lugar, agrega las tablas a un trabajo de replicación nuevo o duplicado.
Opción 1: Crea un trabajo de replicación nuevo
El enfoque más sencillo es agregar tablas a un trabajo nuevo. Evita la recarga histórica de todas las tablas y evita problemas de inconsistencia de datos.
Las desventajas son el aumento de la sobrecarga de administrar varios trabajos de replicación y el consumo de más recursos de procesamiento, ya que cada trabajo se ejecuta en un clúster efímero de Dataproc independiente de forma predeterminada. Esto último se puede mitigar en cierta medida con el uso de un clúster de Dataproc
estático compartido para ambas tareas.
Opción 2: Detener el trabajo de replicación actual y crear un duplicado
Si duplicas el trabajo de replicación para agregar las tablas, ten en cuenta lo siguiente:
Si habilitas la instantánea para el trabajo duplicado, se cargará el historial de todas las tablas desde cero. Esto se recomienda si no puedes usar la opción anterior, en la que ejecutas trabajos independientes.
Inhabilitar la instantánea para evitar la carga histórica puede provocar la pérdida de datos, ya que podría haber eventos perdidos entre el momento en que se detiene la canalización anterior y comienza la nueva. No se recomienda crear una superposición para mitigar este problema, ya que también puede provocar la pérdida de datos, ya que no se replican los datos históricos de las tablas nuevas.
Para crear una tarea de replicación duplicada, sigue estos pasos:
Detén la canalización existente.
En la página Trabajos de replicación, busca el trabajo que deseas duplicar, haz clic en more_vert y, luego, en Duplicar.
Habilita la instantánea:
Ve a Configurar fuente.
En el campo Replicar datos existentes, selecciona Sí.
Agrega tablas en la ventana Select tables and transformations y sigue el asistente para implementar la canalización de replicación.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eYou cannot directly edit or add tables to an existing replication job after deployment; instead, you must create a new or duplicate job.\u003c/p\u003e\n"],["\u003cp\u003eCreating a new replication job to add tables is the preferred method as it prevents historical reloading and data inconsistency issues, but it increases overhead and resource consumption.\u003c/p\u003e\n"],["\u003cp\u003eDuplicating a replication job to add tables requires careful consideration of snapshot settings, as enabling the snapshot triggers a full historical reload, while disabling it can lead to data loss.\u003c/p\u003e\n"],["\u003cp\u003eRunning duplicate replication jobs against the same target BigQuery dataset as the original job should be avoided, as it can cause data inconsistency.\u003c/p\u003e\n"],["\u003cp\u003eUsing a shared static Dataproc cluster can help mitigate the increased compute resource usage associated with running multiple replication jobs.\u003c/p\u003e\n"]]],[],null,["# Add tables to a replication job\n\nAfter you deploy a replication job, you cannot edit or add tables to\nit. Instead, add the tables to a new or duplicate replication job.\n\nOption 1: Create a new replication job\n--------------------------------------\n\nAdding tables to a new job is the simplest approach. It prevents historical\nreloading of all the tables and prevents data inconsistency issues.\n\nThe drawbacks are the increased overhead of managing multiple\nreplication jobs and the consumption of more compute resources, as\neach job runs on a separate ephemeral Dataproc cluster by\ndefault. The latter can be mitigated to some extent by using a shared static\nDataproc cluster for both jobs.\n\nFor more information about creating new jobs, see the\n[Replication tutorials](/data-fusion/docs/how-to/using-replication).\n\nFor more information about using static Dataproc cluster in\nCloud Data Fusion, see\n[Run a pipeline against an existing Dataproc cluster](/data-fusion/docs/how-to/running-against-existing-dataproc)\n\nOption 2: Stop the current replication job and create a duplicate\n-----------------------------------------------------------------\n\nIf you duplicate the replication job to add the tables, consider the\nfollowing:\n\n- Enabling the snapshot for the duplicate job results in the historical load of\n all the tables from scratch. This is recommended if you cannot use the\n previous option, where you run separate jobs.\n\n- Disabling the snapshot to prevent the historical load can result in data\n loss, as there could be missed events between when the old pipeline stops and\n the new one starts. Creating an overlap to mitigate this issue isn't\n recommended, as it can also result in data loss---historical data for the new\n tables isn't replicated.\n\nTo create a duplicate replication job, follow these steps:\n\n1. Stop the existing pipeline.\n\n2. From the Replication jobs page, locate the job that you want to duplicate,\n click more_vert and\n **Duplicate**.\n\n3. Enable the snapshot:\n\n 1. Go to **Configure source**.\n 2. In the **Replicate existing data** field, select **Yes**.\n4. Add tables in the **Select tables and transformations** window and follow the\n wizard to deploy the replication pipeline.\n\n| **Note:** If you run a duplicate replication job against the same target BigQuery dataset as the original job, don't run the original job again, as it can cause data inconsistency.\n\nWhat's next\n-----------\n\n- Learn more about [Replication](/data-fusion/docs/concepts/replication)."]]