Controllo delle versioni di Dataproc

Dataproc utilizza le immagini per collegare Google Cloud Platform connettori e Apache Spark i componenti Apache Hadoop in un unico pacchetto il deployment su un cluster Dataproc. Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per insieme ai componenti principali e facoltativi necessarie per eseguire job, come Spark, Hadoop e Hive. Queste immagini vengono aggiornate periodicamente per includere nuovi miglioramenti e le funzionalità di machine learning. Il controllo delle versioni di Dataproc ti consente di selezionare insiemi di versioni del software quando crei i cluster.

Come funziona il controllo delle versioni

Quando viene creata un'immagine, viene assegnato un numero di versione dell'immagine nel seguente formato:

version_major.version_minor.version_sub_minor-os_distribution

Attualmente vengono mantenute le seguenti distribuzioni del sistema operativo:

Codice di distribuzione del sistema operativo Distribuzione sistema operativo
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Visualizza le versioni delle immagini precedenti per il sistema operativo precedentemente supportato distribuibili.

La pratica consigliata è specificare la versione dell'immagine major.minor per gli ambienti di produzione o quando è importante la compatibilità con versioni specifiche dei componenti. Le distribuzioni secondarie e del sistema operativo vengono automaticamente impostato sull'ultima release settimanale.

Selezione delle versioni

Quando crei un nuovo cluster Dataproc, l'ultima versione Per impostazione predefinita viene utilizzata la versione immagine Debian. Puoi selezionare un Versione dell'immagine Debian, Rocky Linux o Ubuntu durante la creazione di un cluster (consulta il Elenco delle versioni delle immagini Dataproc). Quando specifichi le immagini basate su Debian, puoi omettere il suffisso del codice della distribuzione del sistema operativo, ad esempio specificando 2.0 per selezionare l'immagine 2.0-debian10. Il suffisso del sistema operativo deve essere utilizzato per selezionare un'immagine basata su Rocky Linux o Ubuntu, ad esempio specificando 2.0-ubuntu18.

Comando gcloud

Quando utilizzi il comando gcloud dataproc clusters create, puoi utilizzare l'argomento --image-version per specificare una versione dell'immagine per il nuovo cluster.

Esempio di immagine Debian:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Esempio di immagine Ubuntu:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

La best practice è omettere la versione secondaria in modo che venga utilizzata l'ultima versione secondaria. Tuttavia, se necessario, la versione secondaria può essere specificata, ad esempio "2.0.20".

Puoi controllare la versione attuale con Google Cloud CLI.

gcloud dataproc clusters describe cluster-name \
    --region=region

API REST

Puoi specificare il campo SoftwareConfig imageVersion all'interno di una richiesta API cluster.create.

Esempio

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Console

Apri Dataproc Crea un cluster . Il riquadro Configura cluster è selezionato. Campo Tipo di immagine e Versione nella sezione Controllo delle versioni mostra l'immagine che verrà utilizzata durante la creazione nel cluster. Viene mostrata anche la data di rilascio dell'immagine. Inizialmente, il valore predefinito dell'immagine, l'ultima versione Debian disponibile, viene mostrata come selezionata. Fai clic su MODIFICA per visualizzare un elenco di immagini disponibili. Puoi selezionare un'immagine standard o personalizzata da utilizzare per il cluster.

Quando vengono create nuove versioni

Periodicamente vengono create nuove versioni principali per incorporare uno o più dei seguenti elementi:

  • Uscite principali per:
    • Spark, Hadoop e altri componenti per big data
    • Connettori Google Cloud
  • Modifiche importanti o aggiornamenti alla funzionalità Dataproc

Le nuove versioni di anteprima (con suffisso -RC) vengono rilasciate prima del rilascio di una nuova versione principale:

  • Le immagini di anteprima non sono destinate all'uso nei carichi di lavoro di produzione.
  • Le versioni dei componenti delle immagini di anteprima potrebbero essere aggiornate alla versione più recente del componente disponibile nella versione dell'immagine GA post-anteprima.

Vengono create periodicamente nuove versioni minor per incorporare uno o più dei seguenti elementi:

  • Uscite minori e aggiornamenti per:
    • Spark, Hadoop e altri componenti Big Data
    • Connettori Google Cloud
  • Modifiche o aggiornamenti minori alla funzionalità di Dataproc

Quando viene creata una nuova versione secondaria, la relativa immagine Debian diventa l'impostazione predefinita per e rappresenta l'ultima release della versione principale.

Vengono create periodicamente nuove versioni subminor per incorporare uno o più dei seguenti elementi:

  • Patch o correzioni per un componente nell'immagine
  • Upgrade delle versioni secondarie dei componenti

Versione immagine e supporto Dataproc

Le versioni delle immagini di minore entità sono supportate per 24 mesi dopo la Release GA (disponibilità generale). Durante questo periodo, i cluster che utilizzano queste versioni dell'immagine sono idonei per l'assistenza (per ricevere le correzioni, ricrea il cluster utilizzando la versione dell'immagine secondaria più recente supportata). Una volta chiusa la finestra di assistenza, i cluster che utilizzano le versioni delle immagini non sono più idonei per l'assistenza.

Vecchie versioni delle immagini

Distribuzioni del sistema operativo supportate in precedenza

In precedenza erano supportate le seguenti distribuzioni del sistema operativo:

Codice di distribuzione del sistema operativo Distribuzione sistema operativo Ultimo aggiornamento (fine del supporto)
debian9 Debian 9 10 luglio 2020
deb8 Debian 8 26 ottobre 2018

Versioni immagini senza distribuzione esplicita del sistema operativo

Prima del 16 agosto 2018, le versioni delle immagini venivano create con Debian 8 e omesse il codice di distribuzione del sistema operativo. Sono specificati nel seguente formato:

version_major.version_minor.version_sub_minor

0,1 e 0,2

Le versioni immagine rilasciate come release alpha o beta prima della disponibilità generale della versione 1.0 di Dataproc non sono soggette alle norme relative all'assistenza di Dataproc.

Note importanti sul controllo delle versioni

  • Le versioni immagine contengono i seguenti componenti:
  • I cluster Dataproc non vengono aggiornati automaticamente quando vengono rilasciate nuove versioni delle immagini.
    • Consigli:
    • Esegui i cluster con l'ultima versione dell'immagine secondaria. I metadati dell'immagine includono un'etichetta previous-subminor, impostata su true se il cluster non utilizza la versione dell'immagine secondaria più recente.
      • Per visualizzare i metadati delle immagini:
        1. Esegui questo comando gcloud compute images list --filter per elencare il nome risorsa di un'immagine Dataproc.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. Esegui il seguente gcloud compute images describe per visualizzare i metadati dell'immagine.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • Testa e convalida che le tue applicazioni vengano eseguite correttamente sui cluster creati con nuove versioni immagine, in particolare quando si utilizzano nuove versioni principali delle immagini.