Modifica la versione dell'immagine Dataproc in Cloud Data Fusion

Questa pagina descrive come modificare la versione dell'immagine Dataproc utilizzata dall'istanza di Cloud Data Fusion. Puoi modificare l'immagine a livello di istanza, spazio dei nomi o pipeline.

Prima di iniziare

Arresta tutte le pipeline in tempo reale e i job di replica nell'istanza di Cloud Data Fusion. Se una pipeline o una replica in tempo reale è in esecuzione quando modifichi la versione dell'immagine Dataproc, le modifiche non vengono applicate all'esecuzione della pipeline.

Per le pipeline in tempo reale, se il checkpoint è abilitato, l'arresto delle pipeline non causa alcuna perdita di dati. Per i job di replica, purché i log del database siano disponibili, l'arresto e l'avvio del job di replica non causa perdite di dati.

Console

  1. Vai alla pagina Istanze di Cloud Data Fusion (in CDAP, fai clic su Visualizza istanze) e apri l'istanza in cui devi arrestare una pipeline.

    Vai a Istanze

  2. Apri ogni pipeline in tempo reale in Pipeline Studio e fai clic su Arresta.

  3. Apri ogni job di replica nella pagina Replica e fai clic su Arresta.

API REST

  • Per recuperare tutte le pipeline, utilizza la seguente chiamata API REST:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Sostituisci NAMESPACE_ID con il nome del tuo spazio dei nomi.

  • Per arrestare una pipeline in tempo reale, utilizza la seguente chiamata API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Sostituisci NAMESPACE_ID con il nome del tuo spazio dei nomi e PIPELINE_NAME con il nome della pipeline in tempo reale.

  • Per arrestare un job di replica, utilizza la seguente chiamata API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Sostituisci NAMESPACE_ID con il nome del tuo spazio dei nomi e REPLICATION_JOB_NAME con il nome del job di replica.

    Per ulteriori informazioni, consulta gli articoli sull'arresto delle pipeline in tempo reale e sull'arresto dei job di replica.

Controlla ed esegui l'override della versione predefinita di Dataproc in Cloud Data Fusion

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Amministratore di sistema > Configurazione > Preferenze di sistema.

    Modifica preferenze di sistema

  3. Se non hai specificato un'immagine Dataproc in Preferenze di Sistema o per cambiare la preferenza, fai clic su Modifica preferenze di sistema.

    1. Inserisci il seguente testo nel campo Chiave:

      system.profile.properties.imageVersion

    2. Inserisci l'immagine Dataproc scelta nel campo Valore, ad esempio 2.1.

    3. Fai clic su Salva e chiudi.

Imposta le preferenze per il sistema

Questa modifica interessa l'intera istanza di Cloud Data Fusion, inclusi tutti gli spazi dei nomi e le esecuzioni della pipeline, a meno che la proprietà della versione dell'immagine non venga sostituita in uno spazio dei nomi, una pipeline o un argomento di runtime nell'istanza.

Modifica la versione dell'immagine di Dataproc

La versione dell'immagine può essere impostata nell'interfaccia web di Cloud Data Fusion in Configurazioni Compute, Preferenze spazio dei nomi o Argomenti di runtime pipeline.

Modifica l'immagine nelle preferenze dello spazio dei nomi

Se hai eseguito l'override della versione dell'immagine nelle proprietà dello spazio dei nomi, segui questi passaggi:

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Amministratore di sistema > Configurazione > Spazi dei nomi.

  3. Apri ogni spazio dei nomi e fai clic su Preferenze.

    1. Assicurati che non esista un override con la chiave system.profile.properties.imageVersion con un valore di versione dell'immagine errato.

    2. Fai clic su Fine.

Modifica l'immagine nei profili di computing del sistema

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Amministratore di sistema > Configurazione.

  3. Fai clic su Sistema Profili Compute > Crea nuovo profilo.

  4. Seleziona il provisioner Dataproc.

    Seleziona il provisioner

  5. Crea il profilo per Dataproc. Nel campo Versione immagine, inserisci una versione dell'immagine Dataproc.

    Campo Versione immagine

  6. Seleziona questo profilo di computing durante l'esecuzione della pipeline nella pagina Studio. Nella pagina di esecuzione della pipeline, fai clic su Configura > Configurazione Compute e seleziona questo profilo.

  7. Seleziona il profilo Dataproc e fai clic su Salva.

  8. Fai clic su Fine.

Modifica l'immagine negli argomenti di runtime della pipeline

Se hai eseguito l'override della versione dell'immagine con una proprietà negli argomenti di runtime della pipeline, segui questi passaggi:

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Menu > Elenco.

  3. Nella pagina Elenco, seleziona la pipeline da aggiornare.

    La pipeline si apre nella pagina di Studio.

  4. Per espandere le opzioni Esegui, fai clic sulla freccia di espansione .

    Si apre la finestra Argomenti di runtime.

  5. Verifica che non esista un override con la chiave system.profile.properties.imageVersion che abbia una versione immagine errata come valore.

  6. Fai clic su Salva.

    Imposta argomento di runtime della pipeline

Ricrea i cluster Dataproc statici utilizzati da Cloud Data Fusion con la versione immagine scelta

Se utilizzi cluster Dataproc esistenti con Cloud Data Fusion, segui la guida di Dataproc per ricreare i cluster con la versione immagine Dataproc scelta per la tua versione di Cloud Data Fusion.

In alternativa, puoi creare un nuovo cluster Dataproc con la versione dell'immagine Dataproc scelta ed eliminare e ricreare il profilo di computing in Cloud Data Fusion con lo stesso nome del profilo di computing e lo stesso nome del cluster Dataproc aggiornato. In questo modo, le pipeline batch in esecuzione possono completare l'esecuzione sul cluster esistente, mentre le successive esecuzioni delle pipeline avvengono sul nuovo cluster Dataproc. Puoi eliminare il cluster Dataproc precedente dopo aver confermato che tutte le esecuzioni della pipeline sono state completate.

Verifica che la versione dell'immagine Dataproc sia aggiornata

Console

  1. Nella console Google Cloud, vai alla pagina Cluster di Dataproc.

    Vai a Cluster

  2. Apri la pagina Dettagli cluster del nuovo cluster creato da Cloud Data Fusion quando hai specificato la nuova versione.

    Il campo Versione immagine ha il nuovo valore che hai specificato in Cloud Data Fusion.

API REST

  1. Recupera l'elenco dei cluster con i relativi metadati:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Sostituisci quanto segue:

    • PROJECT_ID con il nome del tuo spazio dei nomi
    • REGION_ID con il nome della regione in cui si trovano i cluster
  2. Cerca il nome della pipeline (nome del cluster).

  3. Sotto l'oggetto JSON, puoi vedere l'immagine in config > softwareConfig > imageVersion.

Modifica l'immagine Dataproc alla versione 2.1

Le versioni 6.9.1 e successive di Cloud Data Fusion supportano l'immagine Dataproc 2.1 di Compute Engine, eseguita in Java 11. Nelle versioni 6.10.0 e successive, l'immagine predefinita è 2.1.

Se passi all'immagine 2.1, affinché le pipeline batch e i job di replica abbiano esito positivo, i driver JDBC che i plug-in di database utilizzano in queste istanze devono essere compatibili con Java 11.

L'immagine Dataproc 2.1 presenta le seguenti limitazioni in Cloud Data Fusion:

  • I driver JDBC di IBM Netezza e DB2 11 non sono supportati.
  • Immagine 2.1 non funzionerà con la riduzione dei job di Mappa.
  • Le versioni del driver JDBC utilizzate nei plug-in di database nell'istanza devono essere aggiornate in modo da supportare Java 11. Consulta la tabella seguente per le versioni dei driver compatibili con Dataproc 2.1 e Java 11:
Driver JDBC Versioni precedenti rimosse da Cloud Data Fusion 6.9.1 Versioni supportate da Java 8 e Java 11 compatibili con Dataproc 2.0 o 2.1
Driver JDBC di Cloud SQL per MySQL - 1.0.16
Driver JDBC di Cloud SQL per PostgreSQL - 1.0.16
Driver JDBC DB2 11 - -
Driver JDBC di Microsoft SQL Server Driver JDBC Microsoft 6.0 Driver JDBC Microsoft 9.4
Driver JDBC MySQL 5.0.8, 5.1.39 8.0.25
Driver JDBC IBM Netezza - -
Driver JDBC PostgreSQL 9.4.1211.jre7, 9.4.1211.jre8 42.6.0.jre8
Driver JDBC Oracle ojdbc7 ojdbc8 (12c e versioni successive)

Utilizzo della memoria con Dataproc 2.1

L'utilizzo della memoria potrebbe aumentare per le pipeline che usano cluster Dataproc 2.1. Se esegui l'upgrade dell'istanza alla versione 6.10.0 o successiva e le pipeline precedenti non funzionano a causa di problemi di memoria, aumenta la memoria del driver e dell'esecutore a 2048 MB nella configurazione Resources per la pipeline.Configurare le risorse.

In alternativa, puoi eseguire l'override della versione di Dataproc impostando l'argomento di runtime system.profile.properties.imageVersion su 2.0-debian10.