Las máquinas virtuales flexibles son una función de Dataproc que te permite especificar listas priorizadas de tipos de máquinas virtuales para los trabajadores secundarios de Dataproc cuando creas un clúster de Dataproc.
Ventajas de las VMs flexibles
Antes, si un tipo de VM no estaba disponible cuando enviabas una solicitud de creación de clúster, la solicitud fallaba y tenías que actualizar la solicitud, la secuencia de comandos o el código para especificar el tipo de VM "más adecuado". Este proceso de nueva solicitud podría implicar varias iteraciones hasta que especifiques un tipo de VM que esté disponible.
La función de máquinas virtuales flexibles de Dataproc ayuda a que tu solicitud de creación de clústeres se complete correctamente seleccionando tipos de máquinas virtuales de trabajador secundarias de tus listas de máquinas virtuales clasificadas y, a continuación, buscando zonas en la región del clúster especificada que tengan disponibles los tipos de máquinas virtuales de la lista.
Terminología
Tipo de VM: la familia, la capacidad de memoria y el número de núcleos de CPU de una instancia de VM. Dataproc admite el uso de tipos de VM predefinidos y personalizados.
Trabajadores secundarios: Los trabajadores secundarios no almacenan datos. Solo funcionan como nodos de procesamiento. Puedes usar trabajadores secundarios para escalar la computación sin escalar el almacenamiento.
Limitaciones y consideraciones
Las máquinas virtuales flexibles están disponibles en Dataproc en Compute Engine
2.0.74+
,2.1.22+
y en versiones posteriores de Dataproc en Compute Engine .Solo puede especificar VMs flexibles para los trabajadores secundarios.
Puedes especificar hasta cinco listas de tipos de VM ordenadas, con un máximo de 10 tipos de VM por lista. Para obtener más información, consulta Cómo solicitar máquinas virtuales flexibles.
Para crear un clúster con máquinas virtuales flexibles, es necesario usar la colocación automática de zonas de Dataproc, que permite a Dataproc elegir la zona que tenga capacidad para satisfacer tus solicitudes de tipo de máquina virtual.
Si tu solicitud de creación de clúster incluye una política de autoescalado, las VMs flexibles pueden pertenecer a diferentes familias de VMs, pero deben tener la misma cantidad de memoria y el mismo número de núcleos.
Al aprovisionar máquinas virtuales flexibles, Dataproc consume las reservas disponibles que coincidan, pero no las reservas específicas (consulta Consumir instancias reservadas). Los tipos de máquinas que coinciden con las reservas se seleccionan primero en un rango, seguidos de los tipos de VM con el mayor número de CPUs.
Dataproc aplica cuotas Google Cloud al aprovisionamiento de VMs flexibles.
Aunque puedes especificar diferentes relaciones entre CPU y memoria para los tipos de V de los trabajadores primarios y secundarios de un clúster, esto puede provocar una degradación del rendimiento, ya que la relación entre CPU y memoria más pequeña se usa como la unidad de contenedor más pequeña.
Si actualizas un clúster que se creó con VMs flexibles, Dataproc selecciona y añade trabajadores de las listas de VMs flexibles que proporcionaste al crear el clúster.
Solicitar VMs flexibles
Puedes especificar máquinas virtuales flexibles al crear un clúster de Dataproc con la Google Cloud consola, la CLI de Google Cloud o la API de Dataproc.
- Puedes especificar hasta cinco listas de tipos de VM ordenadas, con un máximo de 10 tipos de VM por lista. Las listas con la clasificación más baja tienen la prioridad más alta. De forma predeterminada, las listas de máquinas virtuales flexibles tienen un rango de 0. En una lista de tipos de VM, Dataproc prioriza los tipos de VM con reservas sin usar, seguidos de los tamaños de VM más grandes. Los tipos de VM de una lista con el mismo número de CPUs se tratan por igual.
Consola
Para crear un clúster con VMs flexibles de trabajador secundarias, sigue estos pasos:
Abre la página de Dataproc Crear un clúster en Compute Engine en la Google Cloud consola.
El panel Configurar clúster está seleccionado y los campos se rellenan con valores predeterminados. Puedes cambiar el nombre sugerido y la región del clúster, así como hacer otros cambios. Asegúrate de que la opción Cualquiera esté seleccionada como zona del clúster para permitir que la colocación automática de zonas de Dataproc elija la zona que tenga la mejor disponibilidad de los tipos de VM especificados en tus listas de VMs flexibles.
Seleccione el panel Configurar nodos. En la sección Nodos de trabajador secundarios, especifica el número y la capacidad de interrupción de los trabajadores secundarios.
- Haz clic en Añadir un trabajador secundario por cada rango de trabajadores secundarios y especifica uno o varios tipos de máquina que quieras incluir en cada rango.
Después de confirmar y especificar los detalles del clúster en los paneles de creación de clústeres, haz clic en Crear.
gcloud
Usa el comando
gcloud dataproc clusters create
para añadir varias marcas secondary-worker-machine-types
y especificar listas de máquinas virtuales flexibles ordenadas para trabajadores secundarios de Dataproc.
El tipo de trabajador secundario de VM flexible predeterminado es Spot, que es un tipo interrumpible.
En el siguiente ejemplo de la CLI de gcloud, Dataproc intenta aprovisionar trabajadores secundarios con VMs n2-standard-8
primero (rango 0). Si las máquinas n2-standard-8 no están disponibles, Dataproc intenta aprovisionar trabajadores secundarios con VMs e2-standard-8
o t2d-standard-8
(rango 1).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --zone="" \ --master-machine-type=n1-standard-8 \ --worker-machine-type=n1-standard-8 \ --num-workers=4 \ --num-secondary-workers=4 \ --secondary-worker-type=non-preemptible \ --secondary-worker-machine-types="type=n2-standard-8,rank=0" \ --secondary-worker-machine-types="type=e2-standard-8,type=t2d-standard-8,rank=1"
Notas:
--zone=""
: La función de VM flexible requiere que se active la colocación automática de zonas de Dataproc para que Dataproc pueda elegir la zona que tenga disponibles los tipos de VM que quieras usar. Si se envía un valor vacío ("") a la marca--zone
, se anula cualquier selección de zona especificada en tugcloud config list
predeterminado.Dataproc genera propiedades de componentes
role
en función de los núcleos y la memoria de la máquina. Puede anular estas propiedades generadas por el sistema con la marca--properties
mediante la siguiente sintaxis:--properties="ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY=VALUE"
Solo se admite el rol
secondary_worker
.En el siguiente ejemplo, la marca
--properties
cambia el número de núcleos de las máquinase2-standard-8
asignadas a los nodos de trabajador secundarios de8
a6
:--properties="secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"
API
Usa instanceFlexibilityPolicy.instanceSelectionList
como parte de una solicitud de la API Dataproc
clusters.create
para especificar una lista ordenada de machineTypes para los trabajadores secundarios.
Ejemplo:
El siguiente fragmento de JSON de un clusters.create
cuerpo de solicitud
de Dataproc especifica los tipos de máquinas de los trabajadores secundarios de los rangos 0 y 1.
"config": { "secondaryWorkerConfig": { "instanceFlexibilityPolicy": { "instanceSelectionList": [ { "machineTypes": [ "n1-standard-4", "n2-standard-4" ], "rank": 0 }, { "machineTypes": [ "e2-standard-4", "n2d-standard-4" ], "rank": 1 } ] } } }
Usa las propiedades del clúster para personalizar los roles de los componentes: Dataproc genera propiedades role
de los componentes en función de los núcleos y la memoria de las VMs.
Puede anular estas propiedades generadas por el sistema añadiendo
SoftwareConfig.properties
a su solicitud clusters.create
con la siguiente sintaxis key=value
:
ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY=VALUE
Solo se admite el rol secondary_worker
.
En el siguiente ejemplo, el campo properties
cambia el número de núcleos asignados al nodo de trabajador secundario de una VM e2-standard-8
de 8
a 6
:
"secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"