Modificare la versione immagine Dataproc in Cloud Data Fusion

Questa pagina descrive come modificare la versione dell'immagine Dataproc utilizzata dall'istanza Cloud Data Fusion. Puoi modificare l'immagine a livello di istanza, spazio dei nomi o pipeline.

Prima di iniziare

Interrompi tutte le pipeline e i job di replica in tempo reale nell' istanza Cloud Data Fusion. Se una pipeline o una replica in tempo reale in esecuzione quando modifichi la versione immagine di Dataproc, le modifiche non vengono applicate all'esecuzione della pipeline.

Per le pipeline in tempo reale, se il checkpoint è abilitato, l'arresto del delle pipeline non provoca alcuna perdita di dati. Per i job di replica, purché i log del database siano disponibili, l'interruzione e l'avvio del job di replica non causano la perdita di dati.

Console

  1. Vai alla pagina Istanze di Cloud Data Fusion e apri in cui devi arrestare una pipeline.

    Vai a Istanze

  2. Apri ogni pipeline in tempo reale in Pipeline Studio e fai clic su Interrompi.

  3. Apri ogni job di replica nella pagina Esegui replica e fai clic su Interrompi.

API REST

  • Per recuperare tutte le pipeline, utilizza la seguente chiamata all'API REST:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Sostituisci NAMESPACE_ID con il nome del tuo nello spazio dei nomi.

  • Per arrestare una pipeline in tempo reale, utilizza la seguente chiamata API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Sostituisci NAMESPACE_ID con il nome del tuo e PIPELINE_NAME con il nome dello spazio dei nomi una pipeline in tempo reale.

  • Per interrompere un job di replica, utilizza la seguente chiamata API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Sostituisci NAMESPACE_ID con il nome del tuo spazio dei nomi e REPLICATION_JOB_NAME con il nome del job di replica.

    Per ulteriori informazioni, consulta Interrompere le pipeline in tempo reale e Interrompere i job di replica.

Controllare e sostituire la versione predefinita di Dataproc in Cloud Data Fusion

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Amministrazione di sistema > Configurazione > Preferenze di sistema.

    Fai clic su Modifica preferenze di sistema

  3. Se non specifichi un'immagine Dataproc in Preferenze di sistema, oppure, per cambiare la preferenza, fai clic su Modifica preferenze di sistema.

    1. Inserisci il seguente testo nel campo Chiave:

      system.profile.properties.imageVersion

    2. Inserisci l'immagine Dataproc scelta nel campo Valore, ad esempio 2.1.

    3. Fai clic su Salva e chiudi.

Impostare le preferenze per il sistema

Questa modifica interessa l'intera istanza Cloud Data Fusion, inclusi tutti gli spazi dei nomi e le esecuzioni della pipeline, a meno che la proprietà della versione dell'immagine non venga sostituita in uno spazio dei nomi, in una pipeline o in un argomento di runtime nell'istanza.

Modificare la versione dell'immagine Dataproc

La versione dell'immagine può essere impostata nell'interfaccia web di Cloud Data Fusion in Configurazioni di calcolo, Preferenze dello spazio dei nomi o Argumenti di runtime della pipeline.

Cambia l'immagine nelle preferenze dello spazio dei nomi

Se hai sostituito la versione dell'immagine nelle proprietà dello spazio dei nomi, segui questi passaggi:

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Amministrazione sistema > Configurazione > Spazi dei nomi.

  3. Apri ogni spazio dei nomi e fai clic su Preferenze.

    1. Assicurati che non sia presente alcun valore della versione dell'immagine scorretto per la chiave system.profile.properties.imageVersion.

    2. Fai clic su Fine.

Modificare l'immagine in Profili di calcolo del sistema

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su Amministratore di sistema > Configurazione.

  3. Fai clic su Sistema Profili di calcolo > Crea nuovo profilo.

  4. Seleziona il provisioner Dataproc.

    Seleziona il provisioning di Dataproc

  5. Crea il profilo per Dataproc. In Versione immagine inserisci una versione immagine Dataproc.

    Inserisci la versione dell'immagine

  6. Seleziona questo profilo di calcolo durante l'esecuzione della pipeline nella pagina Studio. Nella pagina di esecuzione della pipeline, fai clic su Configura > Computing config e seleziona questo profilo.

  7. Seleziona il profilo Dataproc e fai clic su Salva.

  8. Fai clic su Fine.

Modifica l'immagine negli argomenti di runtime della pipeline

Se hai eseguito l'override della versione dell'immagine con una proprietà nel runtime Argomenti della pipeline:

  1. Vai all'interfaccia web di Cloud Data Fusion.

  2. Fai clic su menu Menu > Elenco.

  3. Nella pagina Elenco, seleziona la pipeline da aggiornare.

    La pipeline si apre nella pagina Studio.

  4. Per espandere le opzioni Esegui, fai clic sulla freccia di espansione .

    Si apre la finestra Argomenti di runtime.

  5. Verifica che non sia presente alcun valore della chiave system.profile.properties.imageVersion con una versione dell'immagine errata.

  6. Fai clic su Salva.

    Imposta l'argomento di runtime della pipeline

Ricrea i cluster Dataproc statici utilizzati da Cloud Data Fusion con la versione immagine scelta

Se utilizzi cluster Dataproc esistenti con Cloud Data Fusion, segui le indicazioni della per ricreare i cluster versione immagine Dataproc scelta per Cloud Data Fusion completamente gestita.

In alternativa, puoi creare un nuovo cluster Dataproc con la versione immagine Dataproc scelta ed eliminare e ricreare in Cloud Data Fusion con lo stesso nome di profilo di computing ha aggiornato il nome del cluster Dataproc. In questo modo, l'esecuzione di pipeline in modalità batch può completare l'esecuzione sul cluster esistente e le successive esecuzioni della pipeline sul nuovo cluster Dataproc. Puoi eliminare il precedente Cluster Dataproc dopo aver confermato che tutte le pipeline sono eseguite sono state completate.

Verifica che la versione immagine di Dataproc sia aggiornata

Console

  1. Nella console Google Cloud, vai alla sezione Cluster di Dataproc .

    Vai a Cluster

  2. Apri la pagina Dettagli cluster per il nuovo cluster creato da Cloud Data Fusion quando hai specificato la nuova versione.

    Il campo Versione immagine contiene il nuovo valore specificato in Cloud Data Fusion.

API REST

  1. Visualizza l'elenco dei cluster con i relativi metadati:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Sostituisci quanto segue:

    • PROJECT_ID con il nome del tuo spazio dei nomi
    • REGION_ID con il nome della regione in cui si trovano i tuoi cluster
  2. Cerca il nome della pipeline (nome del cluster).

  3. Sotto l'oggetto JSON, vedrai l'immagine in config > softwareConfig > imageVersion.

Modifica l'immagine Dataproc alla versione 2.2 o 2.1

Cloud Data Fusion 6.9.1 e versioni successive supportano Immagine Dataproc 2.1 Compute Engine, eseguito in Java 11. Nelle versioni 6.10.0 e successive, l'immagine 2.1 è predefinita.

Se passi all'immagine 2.2 o 2.1 da un'immagine precedente, affinché le pipeline batch e i job di replica vengano eseguiti correttamente, i driver JDBC utilizzati dai plug-in di database in queste istanze devono essere compatibili con Java 11.

Le immagini Dataproc 2.2 e 2.1 presentano le seguenti limitazioni in Cloud Data Fusion:

  • I job di riduzione della mappa non sono supportati.
  • Le versioni del driver JDBC utilizzate nei plug-in di database nell'istanza devono essere è stato aggiornato per supportare Java 11. Consulta la seguente tabella per le versioni del driver che funzionano con Dataproc 2.2, 2.1 e Java 11:
Driver JDBC Versioni precedenti rimosse da Cloud Data Fusion 6.9.1 Versioni supportate da Java 8 e Java 11 che funzionano con Dataproc 2.2, 2.1 o 2.0
Driver JDBC Cloud SQL per MySQL - 1.0.16
Driver JDBC di Cloud SQL per PostgreSQL - 1.0.16
Driver JDBC Microsoft SQL Server Driver JDBC 6.0 Microsoft Driver JDBC 9.4 di Microsoft
Driver JDBC MySQL 5.0.8, 5.1.39 8.0.25
Driver JDBC PostgreSQL 9.4.1211.jre7, 9.4.1211.jre8 42.6.0.jre8
Driver JDBC Oracle ojdbc7 ojdbc8 (12c e versioni successive)

Utilizzo della memoria quando si utilizza Dataproc 2.2 o 2.1

La memoria utilizzata potrebbe aumentare per le pipeline che utilizzano Dataproc 2.2 o 2.1 cluster. Se esegui l'upgrade dell'istanza alla versione 6.10 o successiva e le pipeline precedenti non riescono a causa di problemi di memoria, aumenta la memoria del driver e dell'executor a 2048 MB nella configurazione Resources per la pipeline.

Aumenta la memoria del driver e dell'executor

In alternativa, puoi eseguire l'override della versione di Dataproc impostandolo l'argomento runtime system.profile.properties.imageVersion per 2.0-debian10.