Control de versiones de Cloud Dataproc

Cloud Dataproc usa imágenes para unir los conectores útiles de Google Cloud Platform y los componentes de Apache Spark y Apache Hadoop en un paquete que se puede implementar en un clúster de Cloud Dataproc. Estas imágenes contienen el sistema operativo base (Debian) para el clúster, junto con los componentes necesarios para ejecutar trabajos, como Spark, Hadoop, Hive, etcétera. Estas imágenes se actualizarán periódicamente para incluir características y mejoras nuevas. El control de versiones de Cloud Dataproc te permite seleccionar conjuntos de versiones de software cuando creas clústeres.

Cómo funciona el control de versiones

Cuando se crea una imagen, se asigna un número de Versión de imagen en el siguiente formato:

version_major.version_minor.version_sub_minor-os_distribution

Las siguientes distribuciones de SO actualmente se mantienen:

Código de distribución de SO Distribución de SO
deb9 Debian 9

Consulta las versiones anteriores de la imagen para las distribuciones del SO admitidas.

La práctica recomendada es especificar la versión de la imagen major.minor para los entornos de producción o cuando es importante la compatibilidad con versiones de componentes específicos. Las distribuciones del SO y subsecundarias se configurarán automáticamente a la última versión semanal.

Cómo seleccionar versiones

Cuando creas un clúster de Cloud Dataproc nuevo, se usará la última versión de la imagen disponible de manera predeterminada. Puedes seleccionar una versión de la imagen cuando creas un clúster nuevo.

Comando de gcloud

Cuando usas el comando gcloud dataproc clusters create, puedes usar el argumento --image-version para especificar una versión de imagen. Por ejemplo, puedes ejecutar el siguiente comando para crear un my-test-cluster nuevo que use la versión subsecundaria de la versión de imagen 1.0.

gcloud dataproc clusters create my-test-cluster --image-version 1.0

Una práctica recomendada es especificar solo la versión principal y secundaria, para que la última versión subsecundaria se use siempre. Sin embargo, si es necesario, la versión subsecundaria también se puede especificar.

Puedes verificar tu versión actual con la herramienta de línea de comandos de gcloud.

gcloud dataproc clusters describe cluster-name

API de REST

Puedes especificar el campo SoftwareConfig imageVersion como parte de una solicitud a la API cluster.create.

Ejemplo

POST /v1/projects/project-id/regions/global/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "1.2"
    }
  }
}
  

Console

Cuando creas un clúster nuevo, haz clic en Opciones avanzadas (Advanced options) en la parte inferior del formulario Crear un clúster (Create a cluster) de Cloud Dataproc.

El campo Imagen (Image) muestra la imagen que se usará cuando se crea el clúster. Inicialmente, muestra el valor predeterminado (última versión disponible).

Haz clic en Cambiar (Change) para visualizar una lista de imágenes disponibles que puedes seleccionar para usar con tu clúster. Selecciona una imagen personalizada o estándar.

Cuando se crean versiones nuevas

Las versiones principales nuevas se crearán periódicamente para incorporar una o más de las siguientes opciones:

  • Versiones principales de:
    • Spark, Hadoop y otros componentes de macrodatos
    • Conectores de Google Cloud
  • Actualizaciones o cambios importantes en la funcionalidad de Cloud Dataproc

Las versiones secundarias nuevas se crearán periódicamente para incorporar una o más de las siguientes opciones:

  • Actualizaciones y versiones secundarias de:
    • Spark, Hadoop y otros componentes de macrodatos
    • Conectores de Google Cloud
  • Actualizaciones o cambios menores en la funcionalidad de Cloud Dataproc

Cuando se crea un versión secundaria nueva, se convierte en el valor predeterminado para la versión principal y representa la última versión de la versión principal.

Las versiones subsecundarias nuevas se crearán periódicamente para incorporar una o más de las siguientes opciones:

  • Parches o correcciones para un componente en la imagen

Versión de imagen y asistencia de Cloud Dataproc

Las versiones de imagen principales y secundarias son compatibles durante un período especificado después de que se lanzan. Durante este período, los clústeres que usan las versiones de imagen son aptos para la asistencia. Una vez que se cerró la ventana de asistencia, los clústeres que usan las versiones de imagen no son aptos para asistencia.

Meses después del lanzamiento de la versión de imagen ¿Se pueden crear clústeres con esta versión de imagen? ¿Los clústeres que usan esta versión de imagen son aptos para la asistencia?
0-12
12-24 No
24+ No No

Las versiones subsecundarias no tienen ciclos de vida garantizados ni asistencia.

Versiones de imagen anteriores

Distribuciones de SO admitidas previamente

Las siguientes distribuciones de SO se admitían previamente:

Código de distribución de SO Distribución de SO Última versión
deb8 Debian 8 26 de octubre de 2018

Versiones de imagen sin distribución explícita de SO

Antes del 16 de agosto de 2018, todas las versiones de imagen se compilaban con Debian 8 y omitían el código de distribución de SO. Se especifican en el siguiente formato:

version_major.version_minor.version_sub_minor

0.1 y 0.2

Las versiones de imagen lanzadas como Alfa o Beta antes de la disponibilidad general de la versión 1.0 de Cloud Dataproc no están sujetas a la política de asistencia de Cloud Dataproc.

Notas importantes sobre el control de versiones

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.