Dataproc utilizza le immagini per collegare Google Cloud Platform connettori e Apache Spark i componenti Apache Hadoop in un unico pacchetto il deployment su un cluster Dataproc. Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per insieme ai componenti principali e facoltativi necessarie per eseguire job, come Spark, Hadoop e Hive. Queste immagini vengono aggiornate periodicamente per includere nuovi miglioramenti e le funzionalità di machine learning. Il controllo delle versioni di Dataproc consente di selezionare set di software quando crei i cluster.
Come funziona il controllo delle versioni
Quando viene creata un'immagine, le viene assegnato Numero Versione immagine nel seguente formato:
version_major.version_minor.version_sub_minor-os_distribution
Attualmente sono mantenute le seguenti distribuzioni del sistema operativo:
Codice di distribuzione del sistema operativo | Distribuzione sistema operativo |
---|---|
debian12 | Debian 12 |
debian10 | Debian 10 |
debian11 | Debian 11 |
rocky8 | Rocky Linux 8 |
rocky9 | Rocky Linux 9 |
ubuntu18 | Ubuntu 18.04 LTS |
ubuntu20 | Ubuntu 20.04 LTS |
ubuntu22 | Ubuntu 22.04 LTS |
Visualizza le versioni delle immagini precedenti per il sistema operativo precedentemente supportato distribuibili.
Si consiglia di specificare l'immagine major.minor
versione per ambienti di produzione o in caso di compatibilità con componenti specifici
è importante. Le distribuzioni secondarie e del sistema operativo vengono automaticamente
impostato sull'ultima release settimanale.
Selezione delle versioni
Quando crei un nuovo cluster Dataproc, l'ultima versione
Per impostazione predefinita viene utilizzata la versione immagine Debian. Puoi selezionare un
Versione dell'immagine Debian, Rocky Linux o Ubuntu durante la creazione di un cluster (consulta il
Elenco delle versioni delle immagini Dataproc).
Quando specifichi immagini basate su Debian, puoi omettere la distribuzione del sistema operativo
Suffisso del codice, ad esempio specificando 2.0
per selezionare l'immagine 2.0-debian10
.
Il suffisso del sistema operativo deve essere utilizzato per selezionare Rocky Linux oppure
Immagine basata su Ubuntu, ad esempio specificando 2.0-ubuntu18
.
Comando gcloud
Quando utilizzi il comando gcloud dataproc clusters create
, puoi:
utilizza l'argomento --image-version
per specificare una versione immagine
nel nuovo cluster.
Esempio di immagine Debian:
gcloud dataproc clusters create cluster-name \ --image-version=2.0 \ --region=region
Esempio di immagine Ubuntu:
gcloud dataproc clusters create cluster-name \ --image-version=2.0-ubuntu18 \ --region=region
La best practice è omettere la versione secondaria in modo che venga utilizzata l'ultima versione secondaria. Tuttavia, se necessario, è possibile specificare la versione secondaria, ad esempio "2.0.20".
Puoi controllare la versione attuale con Google Cloud CLI.
gcloud dataproc clusters describe cluster-name \ --region=region
API REST
Puoi specificare il SoftwareConfig
imageVersion
nell'ambito di un
cluster.create
richiesta API.
Esempio
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "2.0" } } }
Console
Apri Dataproc Crea un cluster . Il riquadro Configura cluster è selezionato. Campo Tipo di immagine e Versione nella sezione Controllo delle versioni mostra l'immagine che verrà utilizzata durante la creazione nel cluster. Viene mostrata anche la data di rilascio dell'immagine. Inizialmente, dell'immagine, l'ultima versione Debian disponibile, viene mostrata come selezionata. Fai clic su MODIFICA per visualizzare un elenco di immagini disponibili. Puoi selezionare un immagine standard o immagine personalizzata da utilizzare per il cluster.
Quando vengono create nuove versioni
Periodicamente vengono create nuove versioni principali per incorporare uno o più dei seguenti elementi:
- Release principali per:
- Spark, Hadoop e altri componenti per big data
- Connettori Google Cloud
- Modifiche importanti o aggiornamenti alla funzionalità Dataproc
Le nuove versioni di anteprima (con suffisso -RC
) vengono rilasciate prima della release
di una nuova versione principale:
- Le immagini di anteprima non sono destinate all'uso nei carichi di lavoro di produzione.
- È possibile eseguire l'upgrade delle versioni dei componenti dell'immagine di anteprima all'ultima versione disponibile nella versione dell'immagine GA post-anteprima.
Vengono create periodicamente nuove versioni minore per incorporare uno o più dei seguenti elementi:
- Release e aggiornamenti di minore entità per:
- Spark, Hadoop e altri componenti per big data
- Connettori Google Cloud
- Modifiche di minore entità o aggiornamenti alla funzionalità Dataproc
Quando viene creata una nuova versione secondaria, la relativa immagine Debian diventa l'impostazione predefinita per e rappresenta l'ultima release della versione principale.
Periodicamente vengono create nuove versioni di subminor per incorporare uno o più dei seguenti elementi:
- Patch o correzioni per un componente dell'immagine
- Upgrade delle versioni secondarie dei componenti
Versione immagine e supporto Dataproc
Le versioni delle immagini di minore entità sono supportate per 24 mesi dopo la Release GA (disponibilità generale). Durante questo periodo, i cluster che utilizzano le versioni immagine sono idonee per l'assistenza (per ricevere correzioni, ricreare il cluster utilizzando l'ultima versione dell'immagine secondaria supportata). Dopo il periodo di assistenza i cluster che utilizzano le versioni immagine non sono idonei per il supporto.
Versioni precedenti dell'immagine
Distribuzioni del sistema operativo supportate in precedenza
In precedenza, erano supportate le seguenti distribuzioni del sistema operativo:
Codice di distribuzione del sistema operativo | Distribuzione sistema operativo | Ultima patch (fine del supporto) |
---|---|---|
debian9 | Debian 9 | 10 luglio 2020 |
deb8 | Debian 8 | 26 ottobre 2018 |
Versioni immagini senza distribuzione esplicita del sistema operativo
Prima del 16 agosto 2018, le versioni delle immagini venivano create con Debian 8 e omesse il codice di distribuzione del sistema operativo. Sono specificati nel seguente formato:
version_major.version_minor.version_sub_minor
0,1 e 0,2
Versioni delle immagini rilasciate come release alpha o beta precedenti al
Disponibilità generale della versione 1.0
di Dataproc
non sono soggetti ai
Criteri di assistenza di Dataproc.
Note importanti sul controllo delle versioni
- Le versioni immagine contengono i seguenti componenti:
- Componenti principali che sono installati su tutti i cluster, ad esempio Spark, Hadoop e Hive
- Componenti facoltativi specificato durante la creazione di un cluster
- I cluster Dataproc non vengono aggiornati automaticamente quando nuovi
vengono rilasciate versioni immagine.
- Consigli:
- Esegui cluster con le versioni
immagine secondaria.
I metadati immagine includono un'etichetta
previous-subminor
, che è impostata sutrue
se il cluster non utilizza l'ultima versione dell'immagine secondaria.- Per visualizzare i metadati delle immagini:
- Esegui questo comando
gcloud compute images list --filter
per elencare il nome risorsa di un'immagine Dataproc.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12
)" - Esegui il seguente
gcloud compute images describe
per visualizzare i metadati delle immagini.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Esegui questo comando
- Per visualizzare i metadati delle immagini:
- Testa e convalida che le tue applicazioni vengano eseguite correttamente sui cluster creati con nuove versioni immagine, in particolare quando si utilizzano nuove versioni principali delle immagini.