Upgrade dell'ambiente Cloud Data Fusion

Puoi eseguire l'upgrade delle tue istanze Cloud Data Fusion e delle pipeline batch alle ultime versioni di piattaforme e plug-in per ottenere le ultime funzionalità, correzioni di bug e miglioramenti delle prestazioni. Il processo di upgrade prevede un tempo di inattività dell'istanza e della pipeline (vedi Prima di iniziare).

Prima di iniziare

  • Pianifica un tempo di inattività pianificato per l'upgrade. Il processo dura fino a un'ora.

  • Consigliato: prima di eseguire l'upgrade, interrompi le pipeline in esecuzione e disattiva tutti i trigger a monte, come i trigger di Cloud Composer. Quando inizia l'upgrade, tutte le pipeline in esecuzione vengono interrotte. Se esegui l'upgrade alle versioni 6.3 e successive, se una pipeline è in esecuzione in precedenza, Cloud Data Fusion non la riavvia. Nelle versioni precedenti, Cloud Data Fusion tenta di riavviarli.

  • Installa l'interfaccia a riga di comando di Google Cloud.

  • Installa curl.

Esegui l'upgrade delle istanze di Cloud Data Fusion

Per eseguire l'upgrade di un'istanza Cloud Data Fusion a una nuova versione di Cloud Data Fusion:

  1. In Google Cloud Console, apri la pagina Istanze.

    Apri la pagina Istanze

  2. Fai clic su Instance Name per aprire la pagina Dettagli istanza. Questa pagina elenca le informazioni sull'istanza, tra cui instance id, region, l'attuale Cloud Data Fusion version, le impostazioni di logging e monitoraggio ed eventuali etichette dell'istanza.

A questo punto, esegui l'upgrade utilizzando Google Cloud Console o l'interfaccia a riga di comando di Google Cloud:

console

  1. Fai clic su Esegui l'upgrade per un elenco delle versioni disponibili.

  2. Seleziona la versione che preferisci.

  3. Fai clic su Esegui upgrade.

  4. Fai clic su Visualizza istanza per accedere all'istanza di cui è stato eseguito l'upgrade.

  5. Per verificare che l'upgrade sia riuscito, ricarica la pagina Dettagli istanza e fai clic su Amministratore di sistema nella barra dei menu. Il nuovo numero di versione viene visualizzato nella parte superiore della pagina.

  6. Per evitare che le pipeline si blocchino quando le esegui nella nuova versione:

    1. Concedi i ruoli necessari nell'istanza di cui è stato eseguito l'upgrade.

    2. Se hai eseguito l'upgrade alla versione 6.2.0 o successiva e il cluster Dataproc si blocca nello stato provisioning, consulta la sezione Aggiungere tag di rete.

gcloud

  1. Esegui il seguente comando gcloud da una sessione locale di Cloud Shell per eseguire l'upgrade a una nuova versione di Cloud Data Fusion. Aggiungi i flag --enable_stackdriver_logging, --enable_stackdriver_monitoring e --labels se si applicano all'istanza.

    gcloud beta data-fusion instances update \
        --project=PROJECT_ID \
        --location=REGION \
        --version=NEW_VERSION_NUMBER INSTANCE_ID
    

  2. Una volta completato il comando, verifica che l'upgrade sia andato a buon fine. In Google Cloud Console, ricarica la pagina Dettagli istanza, quindi fai clic su Amministratore di sistema nella barra dei menu. Il nuovo numero di versione viene visualizzato nella parte superiore della pagina.

  3. Per evitare che le pipeline si blocchino quando le esegui nella nuova versione:

    1. Concedi i ruoli necessari nell'istanza di cui è stato eseguito l'upgrade.

    2. Se hai eseguito l'upgrade alla versione 6.2.0 o successiva e il cluster Dataproc si blocca nello stato di provisioning, consulta la sezione Aggiungere tag di rete.

Esegui l'upgrade delle pipeline batch

Per eseguire l'upgrade delle pipeline batch di Cloud Data Fusion in modo da utilizzare le versioni più recenti dei plug-in:

  1. Imposta le variabili di ambiente.

  2. Azione consigliata: esegui il backup di tutte le pipeline.

    1. Esegui il comando seguente, quindi copia l'output dell'URL nel browser per attivare il download del file ZIP.

      echo $CDAP_ENDPOINT/v3/export/apps
      

    2. Decomprimi il file scaricato e conferma che tutte le pipeline sono state esportate. Le pipeline sono organizzate in base allo spazio dei nomi.

  3. Esegui l'upgrade delle pipeline.

    1. Crea una variabile che rimandi al file pipeline_upgrade.json che creerai nel passaggio successivo per salvare un elenco di pipeline (inserisci PATH nel file).

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

    2. Crea un elenco di tutte le pipeline per un'istanza e uno spazio dei nomi utilizzando il comando seguente. Il risultato è memorizzato nel file $PIPELINE_LIST nel formato JSON. Puoi modificare l'elenco per rimuovere le pipeline che non richiedono l'upgrade. Imposta il campo NAMESPACE_ID sullo spazio dei nomi in cui vuoi che venga eseguito l'upgrade.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

    3. Esegui l'upgrade delle pipeline elencate in pipeline_upgrade.json. Inserisci il NAMESPACE_ID di pipeline per cui eseguire l'upgrade. Il comando visualizza un elenco di pipeline aggiornate con il relativo stato di upgrade.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

  4. Per evitare che le pipeline si blocchino quando le esegui nella nuova versione:

    1. Concedi i ruoli necessari nell'istanza di cui è stato eseguito l'upgrade.

    2. Se hai eseguito l'upgrade alla versione 6.2.0 o successiva e il cluster Dataproc si blocca nello stato provisioning, consulta la sezione Aggiungere tag di rete.

Esegui l'upgrade per abilitare la replica

La replica può essere abilitata negli ambienti Cloud Data Fusion nella versione 6.3.0 o successive. Se utilizzi la versione 6.2.3, esegui l'upgrade a 6.3.0 e quindi abilita la replica.

Concessione di ruoli per le istanze con upgrade eseguito

Se esegui l'upgrade di un'istanza dalla versione 6.1.x a Cloud Data Fusion alla versione 6.2.0 o successiva, una volta completato l'upgrade, concedi il ruolo runner Cloud Data Fusion e il ruolo amministratore di Cloud Storage all'account di servizio Dataproc nel tuo progetto.

Aggiunta di tag di rete

I tag di rete vengono conservati nei profili di calcolo quando esegui l'upgrade da Cloud Data Fusion versioni 6.2.x e successive a una versione superiore.

Se esegui l'upgrade dalla versione 6.1.x alla versione 6.2.0 e successiva, i tag di rete non vengono conservati. Di conseguenza, il cluster Dataproc potrebbe rimanere bloccato nello stato di provisioning, soprattutto se il tuo ambiente ha criteri di rete e sicurezza restrittivi.

In ogni istanza aggiornata, aggiungi manualmente i tag di rete a ciascuno dei profili di calcolo utilizzati.

Per aggiungere i tag di rete a un profilo di computing:

  1. In Google Cloud Console, apri la pagina di istanze di Cloud Data Fusion.

  2. Fai clic su Visualizza istanza.

  3. Fai clic su System Admin (Amministratore di sistema).

  4. Fai clic sulla scheda Configurazione.

  5. Espandi la casella System Compute Profiles (Profili Compute di sistema).

  6. Fai clic su Crea nuovo profilo. Si apre una pagina di provisioner.

  7. Fai clic su Dataproc.

  8. Inserisci le informazioni del profilo desiderate, compresi i tag di rete.

  9. Fai clic su Crea.

Dopo aver aggiunto i tag, utilizza il profilo aggiornato nella pipeline. I nuovi tag vengono conservati nelle release future.

Versioni disponibili per l'upgrade

In generale, quando esegui l'upgrade, ti consigliamo di utilizzare la versione più recente dell'ambiente Cloud Data Fusion in modo che le istanze vengano eseguite in un ambiente supportato per il periodo di tempo più lungo possibile. Per ulteriori informazioni, consulta i criteri di supporto per le versioni. A seconda della versione originale, gli upgrade ad alcune versioni potrebbero non essere disponibili. In questi casi, puoi eseguire l'upgrade a una versione che supporti questo upgrade.

Cloud Data Fusion supporta i seguenti upgrade di versione:

Versione di Cloud Data Fusion Upgrade disponibili
6.6.0 6.7.0
6.5.1 6.6.0, 6.7.0
6.5.0 6,5
6.4.1 6.5.1, 6.6.0, 6.7.0
6.4.0 6.4.1
6.3.1 6.4.1, 6.5.1, 6.6.0, 6.7.0
6.3.0 6.3.1, 6.4.1
6.2.3 6.3.1, 6.4.1, 6.5.1, 6.6.0, 6.7.0
6.2.2 6.2.3
6.2.1 6.2.2, 6.2.3
6,2 6.2.1, 6.2.2, 6.2.3
6.1.4 6.3.1, 6.4.1, 6.5.1, 6.6.0, 6.7.0
6.1.3 6.1.4, 6.3.1
6.1.2 6.1.3, 6.1.4

Risolvere i problemi

Quando esegui l'upgrade alla versione 6.4, si verifica un problema noto con il plug-in di join, in cui non riesci a visualizzare le condizioni di join. Per ulteriori informazioni, consulta la pagina Risoluzione dei problemi.