Cambiare la versione dell'immagine Dataproc in Cloud Data Fusion

Questa pagina descrive come modificare la versione dell'immagine Dataproc utilizzata dall'istanza di Cloud Data Fusion.

Prima di iniziare

Arresta tutte le pipeline in tempo reale e i job di replica nell'istanza Cloud Data Fusion. Se una pipeline o una replica in tempo reale sono in esecuzione quando modifichi la versione dell'immagine di Dataproc, le modifiche non verranno applicate all'esecuzione della pipeline.

Per le pipeline in tempo reale, se il checkpoint è abilitato, l'arresto di queste pipeline non causa alcuna perdita di dati. Per i job di replica, finché i log del database sono disponibili, l'arresto e l'avvio del job di replica non causano la perdita di dati.

Console

  1. Vai alla pagina Istanze Cloud Data Fusion (in CDAP, fai clic su Visualizza istanze) e apri l'istanza in cui devi arrestare una pipeline.

    Vai alle istanze

  2. Apri ogni pipeline in tempo reale in Pipeline Studio e fai clic su Stop.

  3. Apri ogni job di replica nella pagina Replica e fai clic su Arresta.

API REST

  • Per recuperare tutte le pipeline, utilizza la seguente chiamata API REST:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Sostituisci NAMESPACE_ID con il nome dello spazio dei nomi.

  • Per interrompere una pipeline in tempo reale, utilizza la seguente chiamata API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Sostituisci NAMESPACE_ID con il nome dello spazio dei nomi e PIPELINE_NAME con il nome della pipeline in tempo reale.

  • Per arrestare un job di replica, utilizza la seguente chiamata API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Sostituisci NAMESPACE_ID con il nome del tuo spazio dei nomi e REPLICATION_JOB_NAME con il nome del job di replica.

    Per ulteriori informazioni, consulta la pagina relativa all'arresto delle pipeline in tempo reale e all'arresto dei job di replica.

Controlla e sostituisci la versione predefinita di Dataproc in Cloud Data Fusion

  1. Nella console Google Cloud, vai alla pagina Istanze (in CDAP, fai clic su Visualizza istanze) e apri l'istanza.

    Vai alle istanze

  2. Fai clic su Amministratore di sistema > Configurazione > Preferenze di Sistema.

    Modifica preferenze di sistema

  3. Se un'immagine Dataproc non è specificata in Preferenze di Sistema o per modificare la preferenza, fai clic su Modifica preferenze di sistema.

    1. Inserisci il seguente testo nel campo Key (Chiave):

      system.profile.properties.imageVersion

    2. Inserisci l'immagine di Dataproc che vuoi nel campo Valore, ad esempio 1.5-debian10.

    3. Fai clic su Salva e chiudi.

Imposta le preferenze per il sistema

Questa modifica interessa l'intera istanza di Cloud Data Fusion, inclusi tutti i relativi spazi dei nomi e le esecuzioni della pipeline, a meno che la proprietà della versione dell'immagine non venga sostituita in uno spazio dei nomi, una pipeline o un argomento di runtime nella tua istanza.

Modifica la versione dell'immagine Dataproc in uno spazio dei nomi o un argomento di runtime della pipeline

Se non hai eseguito l'override della versione dell'immagine Dataproc nelle preferenze dello spazio dei nomi o negli argomenti di runtime della pipeline, puoi saltare questi passaggi.

Preferenze dello spazio dei nomi

Se hai eseguito l'override della versione dell'immagine nelle proprietà dello spazio dei nomi, segui questi passaggi:

  1. Apri l'istanza nell'interfaccia utente di Cloud Data Fusion.

  2. Fai clic su Amministratore di sistema > Configurazione > Spazi dei nomi.

  3. Apri ogni spazio dei nomi e fai clic su Preferenze.

    1. Assicurati che non vi sia alcuna sostituzione con la chiave system.profile.properties.imageVersion con un valore di versione dell'immagine errato.

    2. Fai clic su Fine.

Argomenti di runtime della pipeline

Se hai eseguito l'override della versione dell'immagine con una proprietà negli argomenti runtime della tua pipeline, procedi nel seguente modo:

  1. Apri l'istanza nell'interfaccia utente di Cloud Data Fusion.

  2. Fai clic su Pipeline > List (Elenco) e seleziona la pipeline che ti interessa.

    La pipeline si apre nella pagina Pipeline Studio.

  3. Fai clic sul menu a discesa accanto a Esegui.

    Si apre la finestra Argomenti runtime.

  4. Assicurati che non siano presenti sostituzioni con la chiave system.profile.properties.imageVersion e un valore non corretto della versione dell'immagine.

  5. Fai clic su Salva.

    Imposta argomento di runtime della pipeline

Ricrea cluster Dataproc statici utilizzati da Cloud Data Fusion con la versione dell'immagine voluta

Se utilizzi i cluster Dataproc esistenti con Cloud Data Fusion, segui la guida Dataproc per ricreare i cluster con la versione immagine Dataproc desiderata per la tua versione Cloud Data Fusion.

Se sono presenti pipeline in esecuzione durante la ricreazione del cluster, le pipeline non verranno caricate. Le esecuzioni successive devono essere eseguite nel cluster ricreato.

In alternativa, puoi creare un nuovo cluster Dataproc con la versione preferita dell'immagine Dataproc ed eliminare e ricreare il profilo di computing in Cloud Data Fusion con lo stesso nome del profilo di computing e lo stesso nome del cluster Dataproc. In questo modo, l'esecuzione delle pipeline in modalità batch può completare l'esecuzione sul cluster esistente e le nuove esecuzioni della pipeline verranno eseguite nel nuovo cluster Dataproc. Puoi eliminare il vecchio cluster Dataproc dopo aver confermato che tutte le esecuzioni della pipeline sono state completate.

Verifica che la versione dell'immagine Dataproc sia aggiornata

Console

  1. Nella console Google Cloud, vai alla pagina Cluster di Dataproc.

    Vai ai cluster

  2. Apri la pagina Dettagli cluster per il nuovo cluster che Cloud Data Fusion ha creato quando hai specificato la nuova versione.

    Il campo Versione immagine contiene il nuovo valore specificato in Cloud Data Fusion.

API REST

  1. Scarica l'elenco dei cluster con i relativi metadati:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Sostituisci quanto segue:

    • NAMESPACE_ID con il nome del tuo spazio dei nomi
    • REGION_ID con il nome della regione in cui si trovano i tuoi cluster
  2. Cerca il nome della pipeline (nome del cluster).

  3. Sotto l'oggetto JSON, vedi l'immagine in config > softwareConfig > imageVersion.