Dataproc utilizza le immagini per collegare utili connettori di Google Cloud Platform e componenti Apache Spark e Apache Hadoop in un unico pacchetto di cui è possibile eseguire il deployment in un cluster Dataproc. Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per il cluster, insieme ai componenti principali e facoltativi necessari per eseguire i job, ad esempio Spark, Hadoop e Hive. Queste immagini vengono aggiornate periodicamente per includere nuovi miglioramenti e funzionalità. Il controllo delle versioni di Dataproc consente di selezionare insiemi di versioni del software quando crei i cluster.
Come funziona il controllo delle versioni
Quando viene creata un'immagine, gli viene assegnato un numero Versione immagine nel seguente formato:
version_major.version_minor.version_sub_minor-os_distribution
Attualmente sono mantenute le seguenti distribuzioni del sistema operativo:
Codice di distribuzione del sistema operativo | Distribuzione sistema operativo |
---|---|
debian12 | Debian 12 |
debian10 | Debian 10 |
debian11 | Debian 11 |
rocky8 | Rocky Linux 8 |
rocky9 | Rocky Linux 9 |
ubuntu18 | Ubuntu 18.04 LTS |
ubuntu20 | Ubuntu 20.04 LTS |
ubuntu22 | Ubuntu 22.04 LTS |
Vedi le versioni precedenti delle immagini per le distribuzioni del sistema operativo supportate in precedenza.
Si consiglia di specificare la versione dell'immagine major.minor
per gli ambienti di produzione o quando la compatibilità con versioni specifiche dei componenti è importante. Le distribuzioni secondarie e del sistema operativo
vengono impostate automaticamente sull'ultima release settimanale.
Selezione delle versioni
Quando crei un nuovo cluster Dataproc, per impostazione predefinita viene utilizzata la versione immagine Debian più recente disponibile. Puoi selezionare una versione immagine Debian, Rocky Linux o Ubuntu durante la creazione di un cluster (consulta l'elenco delle versioni delle immagini Dataproc).
Quando specifichi immagini basate su Debian, puoi omettere il suffisso OS Distribution Code, ad esempio specificando 2.0
per selezionare l'immagine 2.0-debian10
.
Il suffisso del sistema operativo deve essere utilizzato per selezionare un'immagine basata su Rocky Linux o Ubuntu, ad esempio specificando 2.0-ubuntu18
.
Comando gcloud
Quando usi il comando gcloud dataproc clusters create
, puoi utilizzare l'argomento --image-version
per specificare una versione immagine per il nuovo cluster.
Esempio di immagine Debian:
gcloud dataproc clusters create cluster-name \ --image-version=2.0 \ --region=region
Esempio di immagine Ubuntu:
gcloud dataproc clusters create cluster-name \ --image-version=2.0-ubuntu18 \ --region=region
La best practice è omettere la versione secondaria in modo da utilizzare l'ultima versione secondaria. Tuttavia, se necessario, è possibile specificare la versione secondaria, ad esempio "2.0.20".
Puoi controllare la tua versione attuale con Google Cloud CLI.
gcloud dataproc clusters describe cluster-name \ --region=region
API REST
Puoi specificare il campo SoftwareConfig
imageVersion
come parte di una richiesta API
cluster.create.
Esempio
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "2.0" } } }
Console
Apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato. Il campo Tipo e versione dell'immagine nella sezione Controllo delle versioni mostra l'immagine che verrà utilizzata durante la creazione del cluster. Viene mostrata anche la data di rilascio dell'immagine. Inizialmente, viene mostrata come selezionata l'immagine predefinita, l'ultima versione di Debian disponibile. Fai clic su MODIFICA per visualizzare un elenco di immagini disponibili. Puoi selezionare un'immagine standard o personalizzata da utilizzare per il tuo cluster.
Quando vengono create nuove versioni
Periodicamente vengono create nuove versioni principali per incorporare uno o più dei seguenti elementi:
- Release principali per:
- Spark, Hadoop e altri componenti di big data
- Connettori Google Cloud
- Modifiche o aggiornamenti principali alla funzionalità di Dataproc
Le nuove versioni di anteprima (con un suffisso -RC
) vengono rilasciate prima del rilascio di una nuova versione principale:
- Le immagini di anteprima non sono destinate all'utilizzo nei carichi di lavoro di produzione.
- È possibile che venga eseguito l'upgrade delle versioni dei componenti immagine di anteprima all'ultima versione disponibile del componente nella versione dell'immagine GA post-anteprima.
Periodicamente vengono create nuove versioni secondarie per incorporare uno o più dei seguenti elementi:
- Release e aggiornamenti di minore entità relativi a:
- Spark, Hadoop e altri componenti di big data
- Connettori Google Cloud
- Modifiche o aggiornamenti di minore entità alla funzionalità di Dataproc
Quando viene creata una nuova versione secondaria, l'immagine Debian corrispondente diventa la versione predefinita per la versione principale e rappresenta l'ultima release della versione principale.
Periodicamente vengono create nuove versioni subminor per incorporare uno o più dei seguenti elementi:
- Patch o correzioni per un componente dell'immagine
- Upgrade della versione secondaria dei componenti
Supporto per versione immagine e Dataproc
Le versioni immagine secondarie sono supportate per 24 mesi dopo la release iniziale di GA (disponibilità generale). Durante questo periodo, i cluster che utilizzano queste versioni immagine sono idonei al supporto (per ricevere correzioni devi ricreare il cluster utilizzando l'ultima versione dell'immagine secondaria supportata). Una volta chiuso il periodo di assistenza, i cluster che utilizzano le versioni immagine non sono idonei al supporto.
Versioni precedenti delle immagini
Distribuzioni del sistema operativo supportate in precedenza
In precedenza erano supportate le seguenti distribuzioni del sistema operativo:
Codice di distribuzione del sistema operativo | Distribuzione sistema operativo | Ultima patch (fine del supporto) |
---|---|---|
debian9 | Debian 9 | 10 luglio 2020 |
deb8 | Debian 8 | 26 ottobre 2018 |
Versioni immagine senza distribuzione esplicita del sistema operativo
Prima del 16 agosto 2018, le versioni delle immagini venivano create con Debian 8 e omessi il codice di distribuzione OS. Sono specificati nel seguente formato:
version_major.version_minor.version_sub_minor
0,1 e 0,2
Le versioni delle immagini rilasciate come release alpha o beta precedenti alla disponibilità generale della versione di Dataproc 1.0
non sono soggette ai criteri di assistenza di Dataproc.
Note importanti sul controllo delle versioni
- Le versioni delle immagini contengono i seguenti componenti:
- Componenti principali installati su tutti i cluster, come Spark, Hadoop e Hive
- Componenti facoltativi specificati durante la creazione di un cluster
- I cluster Dataproc non vengono aggiornati automaticamente quando vengono rilasciate nuove versioni delle immagini.
- Consigli:
- Esegui i cluster con la versione dell'immagine secondaria più recente.
I metadati dell'immagine includono un'etichetta
previous-subminor
, che è impostata sutrue
se il cluster non utilizza l'ultima versione dell'immagine secondaria.- Per visualizzare i metadati dell'immagine:
- Esegui questo comando
gcloud compute images list --filter
per elencare il nome della risorsa di un'immagine Dataproc.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12
)" - Esegui questo comando
gcloud compute images describe
per visualizzare i metadati delle immagini.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Esegui questo comando
- Per visualizzare i metadati dell'immagine:
- Testa e verifica che le tue applicazioni vengano eseguite correttamente su cluster creati con nuove versioni immagine, in particolare quando utilizzi nuove release delle versioni principali delle immagini.