Aggiungi tabelle a un job di replica

Dopo aver eseguito il deployment di un job di replica, non puoi modificare o aggiungere tabelle. Aggiungi invece le tabelle a un job di replica nuovo o duplicato.

Prima di iniziare

  • Per utilizzare queste soluzioni alternative, è necessaria un'istanza Cloud Data Fusion che contiene un job di replica. Per configurare la replica, consulta la guida introduttiva alla replica.

Opzione 1: crea un nuovo job di replica

L'approccio più semplice consiste nell'aggiungere tabelle a un nuovo job. Previene il ricaricamento storico di tutte le tabelle e previene i problemi di incoerenze nei dati.

Gli svantaggi sono l'aumento del sovraccarico relativo alla gestione di più job di replica e al consumo di più risorse di calcolo, dato che ciascun job viene eseguito per impostazione predefinita su un cluster Dataproc temporaneo. Questi ultimi possono essere mitigati in una certa misura utilizzando un cluster statico Dataproc gestito per entrambi i job.

Per ulteriori informazioni sulla creazione di nuovi job, consulta i tutorial di replica.

Per ulteriori informazioni sull'utilizzo di un cluster Dataproc statico in Cloud Data Fusion, consulta Eseguire una pipeline in base a un cluster Dataproc esistente

Opzione 2: arresta il job di replica attuale e crea un duplicato

Se duplichi il job di replica per aggiungere le tabelle, considera quanto segue:

  • L'abilitazione dello snapshot per il job duplicato determina il caricamento storico di tutte le tabelle da zero. Questa opzione è consigliata se non puoi utilizzare l'opzione precedente, in cui esegui job separati.

  • La disabilitazione dello snapshot per evitare il carico storico può causare la perdita di dati, poiché potrebbero verificarsi eventi tra l'arresto della vecchia pipeline e l'avvio di quella nuova. La creazione di una sovrapposizione per mitigare questo problema è sconsigliata, perché può provocare una perdita di dati: i dati storici per le nuove tabelle non vengono replicati.

Per creare un job di replica duplicato, segui questi passaggi:

  1. Arresta la pipeline esistente.

  2. Nella pagina Job di replica, individua il job che vuoi duplicare, fai clic su e Duplica.

  3. Abilita lo snapshot:

    1. Vai a Configura origine.
    2. Nel campo Replica i dati esistenti, seleziona .
  4. Aggiungi tabelle nella finestra Seleziona tabelle e trasformazioni e segui la procedura guidata per il deployment della pipeline di replica.

Passaggi successivi