Controllo delle versioni di Dataproc

Dataproc utilizza le immagini per collegare utili connettori Google Cloud Platform e componenti Apache Spark e Apache Hadoop in un unico pacchetto di cui può essere eseguito il deployment in un cluster Dataproc. Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per il cluster, insieme ai componenti principali e facoltativi necessari per eseguire i job, come Spark, Hadoop e Hive. Queste immagini vengono aggiornate periodicamente per includere nuovi miglioramenti e funzionalità. Il controllo delle versioni di Dataproc consente di selezionare insieme di versioni del software durante la creazione dei cluster.

Come funziona il controllo delle versioni

Quando viene creata un'immagine, gli viene assegnato un numero Versione immagine nel seguente formato:

version_major.version_minor.version_sub_minor-os_distribution

Attualmente sono mantenute le seguenti distribuzioni del sistema operativo:

Codice di distribuzione del sistema operativo Distribuzione sistema operativo
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Vedi le versioni delle immagini precedenti per le distribuzioni del sistema operativo supportate in precedenza.

Si consiglia di specificare la versione dell'immagine major.minor per gli ambienti di produzione o quando è importante la compatibilità con specifiche versioni dei componenti. Le distribuzioni secondarie e del sistema operativo vengono impostate automaticamente sull'ultima release settimanale.

Selezione delle versioni

Quando crei un nuovo cluster Dataproc, per impostazione predefinita viene utilizzata l'ultima versione dell'immagine Debian disponibile. Puoi selezionare una versione dell'immagine Debian, Rocky Linux o Ubuntu quando crei un cluster (consulta l'elenco delle versioni delle immagini Dataproc). Quando specifichi le immagini basate su Debian, puoi omettere il suffisso del codice di distribuzione del sistema operativo, ad esempio specificando 2.0 per selezionare l'immagine 2.0-debian10. Il suffisso del sistema operativo deve essere utilizzato per selezionare un'immagine basata su Rocky Linux o Ubuntu, ad esempio specificando 2.0-ubuntu18.

Comando gcloud

Quando utilizzi il comando gcloud dataproc clusters create, puoi utilizzare l'argomento --image-version per specificare una versione dell'immagine per il nuovo cluster.

Esempio di immagine Debian:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Esempio di immagine Ubuntu:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

La best practice consiste nell'omettere la versione subminor per usare l'ultima versione. Tuttavia, se necessario, è possibile specificare la versione secondaria, ad esempio "2.0.20".

Puoi controllare la versione attuale con Google Cloud CLI.

gcloud dataproc clusters describe cluster-name \
    --region=region

API REST

Puoi specificare il campo SoftwareConfig imageVersion come parte di una richiesta API cluster.create.

Esempio

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Console

Apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato. I campi Tipo di immagine e Versione nella sezione Controllo delle versioni mostrano l'immagine che verrà utilizzata durante la creazione del cluster. Viene mostrata anche la data di rilascio dell'immagine. Inizialmente, viene mostrata come selezionata l'immagine predefinita, l'ultima versione Debian disponibile. Fai clic su MODIFICA per visualizzare un elenco di immagini disponibili. Puoi selezionare un'immagine standard o personalizzata da utilizzare per il cluster.

Quando vengono create nuove versioni

Periodicamente vengono create nuove versioni principali per incorporare uno o più dei seguenti elementi:

  • Release principali per:
    • Spark, Hadoop e altri componenti per big data
    • Connettori Google Cloud
  • Importanti modifiche o aggiornamenti alla funzionalità Dataproc

Le nuove versioni di anteprima (con il suffisso -RC) vengono rilasciate prima del rilascio di una nuova versione principale:

  • Le immagini di anteprima non sono destinate all'uso nei carichi di lavoro di produzione.
  • È possibile eseguire l'upgrade delle versioni dei componenti dell'immagine di anteprima all'ultima versione disponibile del componente nella versione dell'immagine GA successiva all'anteprima.

Periodicamente vengono create nuove versioni minore per incorporare uno o più dei seguenti elementi:

  • Release e aggiornamenti di minore entità per:
    • Spark, Hadoop e altri componenti per big data
    • Connettori Google Cloud
  • Modifiche di minore entità o aggiornamenti alla funzionalità Dataproc

Quando viene creata una nuova versione secondaria, la sua immagine Debian diventa quella predefinita per la versione principale e rappresenta l'ultima release della versione principale.

Periodicamente vengono create nuove versioni subminor per incorporare uno o più dei seguenti elementi:

  • Patch o correzioni per un componente dell'immagine
  • Upgrade della versione secondaria dei componenti

Versione immagine e supporto Dataproc

Le versioni immagine di minore entità sono supportate per 24 mesi dopo il rilascio iniziale GA (disponibilità generale). Durante questo periodo, i cluster che utilizzano queste versioni immagine sono idonei per il supporto (per ricevere correzioni, ricrea il cluster utilizzando l'ultima versione dell'immagine secondaria supportata). Dopo la chiusura del periodo di assistenza, i cluster che utilizzano le versioni immagine non sono idonei al supporto.

Versioni precedenti dell'immagine

Distribuzioni del sistema operativo supportate in precedenza

In precedenza, erano supportate le seguenti distribuzioni del sistema operativo:

Codice di distribuzione del sistema operativo Distribuzione sistema operativo Ultima patch (fine del supporto)
debian9 Debian 9 10 luglio 2020
deb8 Debian 8 26 ottobre 2018

Versioni immagini senza distribuzione esplicita del sistema operativo

Prima del 16 agosto 2018, le versioni delle immagini venivano create con Debian 8 e omettevano il codice di distribuzione del sistema operativo. Sono specificati nel seguente formato:

version_major.version_minor.version_sub_minor

0,1 e 0,2

Le versioni delle immagini rilasciate come release alpha o beta precedenti alla disponibilità generale della versione 1.0 di Dataproc non sono soggette alle norme relative all'assistenza di Dataproc.

Note importanti sul controllo delle versioni

  • Le versioni immagine contengono i seguenti componenti:
  • I cluster Dataproc non vengono aggiornati automaticamente quando vengono rilasciate nuove versioni delle immagini.
    • Consigli:
    • Esegui i cluster con la versione dell'immagine secondaria più recente. I metadati di immagine includono un'etichetta previous-subminor, che è impostata su true se il cluster non utilizza l'ultima versione dell'immagine secondaria.
      • Per visualizzare i metadati delle immagini:
        1. Esegui questo comando gcloud compute images list --filter per elencare il nome risorsa di un'immagine Dataproc.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. Esegui questo comando gcloud compute images describe per visualizzare i metadati dell'immagine.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • Testa e convalida la corretta esecuzione delle tue applicazioni su cluster creati con nuove versioni delle immagini, in particolare quando utilizzi nuove release principali delle versioni delle immagini.