Controllo delle versioni di Dataproc

Dataproc utilizza le immagini per raggruppare connettori utili e componenti Apache Spark e Apache Hadoop in un unico pacchetto che può essere implementato in un cluster Dataproc. Google Cloud Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per il cluster, insieme ai componenti principali e facoltativi necessari per eseguire i job, come Spark, Hadoop e Hive. Queste immagini vengono aggiornate periodicamente per includere nuovi miglioramenti e funzionalità. Il controllo delle versioni di Dataproc ti consente di selezionare set di versioni software quando crei i cluster.

Come funziona il controllo delle versioni

Quando viene creata un'immagine, le viene assegnato un numero di versione dell'immagine nel seguente formato:

version_major.version_minor.version_sub_minor-os_distribution

Vengono gestite le seguenti distribuzioni del sistema operativo:

Codice distribuzione sistema operativo Distribuzione sistema operativo
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Consulta le versioni precedenti delle immagini per le distribuzioni del sistema operativo supportate in precedenza.

La prassi consigliata è specificare la versione dell'immagine major.minor per gli ambienti di produzione o quando la compatibilità con versioni specifiche dei componenti è importante. Le distribuzioni secondarie e del sistema operativo vengono impostate automaticamente sull'ultima release settimanale.

Seleziona versioni

Quando crei un nuovo cluster Dataproc, per impostazione predefinita viene utilizzata l'ultima versione dell'immagine Debian disponibile. Puoi selezionare una versione dell'immagine Debian, Rocky Linux o Ubuntu quando crei un cluster (consulta l'elenco delle versioni delle immagini Dataproc). Quando specifichi immagini basate su Debian, puoi omettere il suffisso del codice di distribuzione del sistema operativo, ad esempio specificando 2.0 per selezionare l'immagine 2.0-debian10. Il suffisso del sistema operativo deve essere utilizzato per selezionare un'immagine basata su Rocky Linux o Ubuntu, ad esempio specificando 2.0-ubuntu18.

Comando g-cloud

Quando utilizzi il comando gcloud dataproc clusters create, puoi utilizzare l'argomento --image-version per specificare una versione dell'immagine per il nuovo cluster.

Esempio di immagine Debian:

gcloud dataproc clusters create CLUSTER_NAME \
    --image-version=2.0 \
    --region=REGION

Esempio di immagine Ubuntu:

gcloud dataproc clusters create CLUSTER_NAME \
    --image-version=2.0-ubuntu18 \
    --region=REGION

La best practice consiste nell'omettere la versione secondaria in modo che venga utilizzata l'ultima versione secondaria. Tuttavia, se necessario, è possibile specificare la versione secondaria, ad esempio 2.0.20.

Puoi controllare la versione attuale con Google Cloud CLI.

gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION

API REST

Puoi specificare il campo SoftwareConfig imageVersion nell'ambito di una richiesta API cluster.create.

Esempio

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Console

Apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato. I campi Tipo di immagine e Versione nella sezione Controllo delle versioni mostrano l'immagine che verrà utilizzata durante la creazione del cluster. Viene mostrata anche la data di rilascio dell'immagine. Inizialmente, l'immagine predefinita, l'ultima versione di Debian disponibile, viene mostrata come selezionata. Fai clic su Cambia per visualizzare un elenco delle immagini disponibili. Puoi selezionare un'immagine standard o personalizzata da utilizzare per il tuo cluster.

Quando vengono create nuove versioni

Periodicamente vengono create nuove versioni principali per incorporare uno o più dei seguenti elementi:

  • Uscite principali per:
    • Spark, Hadoop e altri componenti Big Data
    • Google Cloud connettori
  • Modifiche o aggiornamenti importanti alla funzionalità Dataproc

Le nuove versioni di anteprima (con suffisso -RC) vengono rilasciate prima del rilascio di una nuova versione principale:

  • Le immagini di anteprima non sono destinate all'uso nei workload di produzione.
  • Le versioni dei componenti dell'immagine di anteprima potrebbero essere aggiornate all'ultima versione disponibile nella versione GA dell'immagine post-anteprima.

Periodicamente vengono create nuove versioni secondarie per incorporare uno o più dei seguenti elementi:

  • Versioni e aggiornamenti secondari per:
    • Spark, Hadoop e altri componenti Big Data
    • Google Cloud connettori
  • Modifiche o aggiornamenti minori alla funzionalità Dataproc

Quando viene creata una nuova versione secondaria, la relativa immagine Debian diventa quella predefinita per la versione principale e rappresenta l'ultima release della versione principale.

Periodicamente vengono create nuove versioni secondarie per incorporare uno o più dei seguenti elementi:

  • Patch o correzioni per un componente nell'immagine
  • Upgrade delle versioni secondarie dei componenti

Versione immagine e supporto Dataproc

Le versioni secondarie delle immagini sono supportate per 24 mesi dopo il rilascio iniziale GA (General Availability). Durante questo periodo, i cluster che utilizzano queste versioni dell'immagine sono idonei all'assistenza (per ricevere correzioni, ricrea il cluster utilizzando l'ultima versione secondaria dell'immagine supportata). Una volta chiusa la finestra di supporto, i cluster che utilizzano le versioni delle immagini non sono idonei al supporto.

Versioni precedenti delle immagini

Distribuzioni del sistema operativo supportate in precedenza

In precedenza erano supportate le seguenti distribuzioni del sistema operativo:

Codice distribuzione sistema operativo Distribuzione sistema operativo Ultima patch (fine del supporto)
debian9 Debian 10 luglio 2020
deb8 Debian 26 ottobre 2018

Versioni dell'immagine senza distribuzione esplicita del sistema operativo

Prima del 16 agosto 2018, le versioni delle immagini erano create con Debian 8 e omettevano il codice di distribuzione del sistema operativo. Sono specificati nel seguente formato:

version_major.version_minor.version_sub_minor

Versioni 0.1 e 0.2

Le versioni immagine rilasciate come versioni alpha o beta prima della disponibilità generale della versione Dataproc 1.0 non sono soggette alle norme di assistenza Dataproc.

Note importanti sul controllo delle versioni

  • Le versioni delle immagini contengono i seguenti componenti:
  • I cluster Dataproc non vengono aggiornati automaticamente quando vengono rilasciate nuove versioni delle immagini.
    • Consigli:
    • Esegui cluster con l'ultima versione secondaria dell'immagine. I metadati dell'immagine includono un'etichetta previous-subminor, impostata su true se il cluster non utilizza la versione secondaria più recente dell'immagine.
      • Per visualizzare i metadati dell'immagine:
        1. Esegui il comando gcloud compute images list --filter seguente per elencare il nome della risorsa di un'immagine Dataproc.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. Esegui il seguente comando gcloud compute images describe per visualizzare i metadati dell'immagine.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • Testa e verifica che le tue applicazioni vengano eseguite correttamente sui cluster creati con nuove versioni dell'immagine, in particolare quando utilizzi nuove versioni principali dell'immagine.