Controllo delle versioni di Dataproc

Dataproc utilizza le immagini per unire utili connettori di Google Cloud Platform e componenti Apache Spark e Apache Hadoop in un unico pacchetto di cui è possibile eseguire il deployment in un cluster Dataproc. Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per il cluster, insieme ai componenti principali e facoltativi necessari per eseguire i job, ad esempio Spark, Hadoop e Hive. Queste immagini verranno aggiornate periodicamente per includere nuovi miglioramenti e funzionalità. Il controllo delle versioni di Dataproc consente di selezionare set di versioni del software quando crei i cluster.

Come funziona il controllo delle versioni

Quando viene creata un'immagine, gli viene assegnato un numero Versione immagine nel seguente formato:

version_major.version_minor.version_sub_minor-os_distribution

Attualmente sono mantenute le seguenti distribuzioni del sistema operativo:

Codice distribuzione sistema operativo Distribuzione sistema operativo
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Vedi le versioni precedenti delle immagini per le distribuzioni di sistemi operativi supportate in precedenza.

La pratica consigliata è specificare la versione dell'immagine major.minor per gli ambienti di produzione o quando la compatibilità con versioni specifiche dei componenti è importante. Le distribuzioni secondarie e del sistema operativo verranno impostate automaticamente sulla release settimanale più recente.

Selezione delle versioni

Quando crei un nuovo cluster Dataproc, per impostazione predefinita verrà utilizzata la versione immagine Debian più recente disponibile. Puoi selezionare una versione immagine Debian, Rocky Linux o Ubuntu durante la creazione di un cluster (consulta l'elenco delle versioni delle immagini Dataproc). Quando specifichi immagini basate su Debian, puoi omettere il suffisso OS Distribution Code, ad esempio specificando 2.0 per selezionare l'immagine 2.0-debian10. Il suffisso del sistema operativo deve essere utilizzato per selezionare un'immagine basata su Rocky Linux o Ubuntu, ad esempio specificando 2.0-ubuntu18.

Comando gcloud

Quando utilizzi il comando gcloud dataproc clusters create, puoi utilizzare l'argomento --image-version per specificare una versione immagine per il nuovo cluster.

Esempio di immagine Debian:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Esempio di immagine Ubuntu:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

La best practice prevede di omettere la versione secondaria in modo da utilizzare la versione secondaria più recente. Tuttavia, se necessario, è possibile specificare la versione secondaria, ad esempio "2.0.20".

Puoi controllare la tua versione attuale con Google Cloud CLI.

gcloud dataproc clusters describe cluster-name \
    --region=region

API REST

Puoi specificare il campo SoftwareConfig imageVersion come parte di una richiesta API cluster.create.

Esempio

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Console

Apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato. Il campo Tipo e versione dell'immagine nella sezione Controllo delle versioni mostra l'immagine che verrà utilizzata durante la creazione del cluster. Viene mostrata anche la data di rilascio dell'immagine. Inizialmente, l'immagine predefinita, l'ultima versione disponibile di Debian, viene mostrata come selezionata. Fai clic su MODIFICA per visualizzare un elenco di immagini disponibili. Puoi selezionare un'immagine standard o personalizzata da utilizzare per il tuo cluster.

Quando vengono create nuove versioni

Periodicamente verranno create nuove versioni principali per incorporare uno o più dei seguenti elementi:

  • Release principali per:
    • Spark, Hadoop e altri componenti di big data
    • Connettori Google Cloud
  • Modifiche o aggiornamenti principali alla funzionalità di Dataproc

Le nuove versioni di anteprima (con un suffisso -RC) vengono rilasciate prima del rilascio di una nuova versione principale:

  • Le immagini di anteprima non sono destinate all'utilizzo nei carichi di lavoro di produzione.
  • È possibile che venga eseguito l'upgrade delle versioni dei componenti dell'immagine di anteprima all'ultima versione disponibile del componente nella versione dell'immagine GA dopo l'anteprima.

Periodicamente verranno create nuove versioni minori per incorporare uno o più dei seguenti elementi:

  • Release e aggiornamenti di minore entità per:
    • Spark, Hadoop e altri componenti di big data
    • Connettori Google Cloud
  • Modifiche o aggiornamenti di minore entità alla funzionalità di Dataproc

Quando viene creata una nuova versione secondaria, l'immagine Debian corrispondente diventa l'immagine predefinita per la versione principale e rappresenta l'ultima release della versione principale.

Periodicamente verranno create nuove versioni *sub-minor per incorporare uno o più dei seguenti elementi:

  • Patch o correzioni per un componente dell'immagine
  • Upgrade della versione secondaria secondaria dei componenti

Supporto per versione immagine e Dataproc

Le versioni delle immagini secondarie sono supportate per 24 mesi dopo la release iniziale GA (disponibilità generale). Durante questo periodo, i cluster che utilizzano queste versioni immagine sono idonei all'assistenza (per ricevere correzioni, ricrea il cluster utilizzando l'ultima versione dell'immagine secondaria secondaria supportata). Una volta chiuso il periodo di assistenza, i cluster che utilizzano le versioni immagine non sono idonei per l'assistenza.

Versioni precedenti delle immagini

Distribuzioni del sistema operativo supportate in precedenza

In precedenza erano supportate le seguenti distribuzioni del sistema operativo:

Codice distribuzione sistema operativo Distribuzione sistema operativo Ultima patch (fine del supporto)
debian9 Debian 9 10 luglio 2020
deb8 Debian 8 26 ottobre 2018

Versioni immagine senza distribuzione esplicita del sistema operativo

Prima del 16 agosto 2018, le versioni delle immagini venivano create con Debian 8 e omettevano OS Distribution Code. Sono specificati nel seguente formato:

version_major.version_minor.version_sub_minor

0,1 e 0,2

Le versioni delle immagini rilasciate come versioni alpha o beta precedenti alla disponibilità generale di Dataproc 1.0 non sono soggette ai criteri di assistenza di Dataproc.

Note importanti sul controllo delle versioni