Clústeres de nodo único

Los clústeres de nodo único son clústeres de Dataproc con un solo nodo. Este nodo único actúa como el principal y el trabajador para tu clúster de Dataproc. Si bien los clústeres de nodo único solo tienen un nodo, se siguen aplicando la mayoría de las características y conceptos de Dataproc, excepto aquellos que se enumeran a continuación.

A continuación, se detallan algunas situaciones donde los clústeres de Dataproc de nodo único pueden ser útiles:

  • Probar versiones nuevas de Spark y Hadoop o cualquier otro componente de código abierto
  • Compilar demostraciones de prueba de concepto (PoC)
  • Ciencia de datos básica
  • Procesamiento de datos no críticos de pequeña escala
  • Educación relacionada con el ecosistema de Spark y Hadoop

Semántica del clúster de nodo único

Se aplica la siguiente semántica a los clústeres de Dataproc de nodo único:

  • Los clústeres de nodo único se configuran de la misma manera que los clústeres de Dataproc de varios nodos e incluyen servicios como HDFS y YARN.
  • Los clústeres de nodo único se consideran como nodos principales para las acciones de inicialización.
  • Los clústeres de nodo único muestran 0 trabajadores, ya que el nodo único actúa como principal y trabajador.
  • Los clústeres de nodo único reciben nombres de host que siguen el patrón clustername-m. Puedes usar este nombre de host para establecer una conexión SSH o una conexión a una IU web en el nodo.
  • Los clústeres de nodo único no se pueden actualizar a clústeres de varios nodos. Una vez creados, los clústeres de nodo único se limitan a un solo nodo. De manera similar, los clústeres de varios nodos no se pueden reducir a clústeres de nodo único.

Limitaciones

  • No se recomienda usar clústeres de nodo único para el procesamiento de datos en paralelo a gran escala. Si excedes los recursos en un clúster de nodo único, se recomienda un clúster de Dataproc de varios nodos.

  • Los clústeres de nodo único no están disponibles con alta disponibilidad, ya que solo hay un nodo en el clúster.

  • Los clústeres de nodo único no pueden usar VM interrumpibles.

Cómo crear un clúster de nodo único

Comando de gcloud

Puedes crear un clúster de Dataproc de un solo nodo con la herramienta de línea de comandos de gcloud. Para crear un clúster de nodo único, pasa la marca --single-node al comando gcloud dataproc clusters create.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

API de REST

Puedes crear un clúster de nodo único a través de la API de REST de Dataproc mediante una solicitud clusters.create. Cuando realices esta solicitud, deberás hacer lo siguiente:

  1. Agrega la propiedad "dataproc:dataproc.allow.zero.workers":"true" a la SoftwareConfig de la solicitud del clúster.
  2. No envíes valores para workerConfig y secondaryWorkerConfig (consulta ClusterConfig).

Consola

Puedes crear un clúster de nodo único si seleccionas “Nodo único (1 principal, 0 trabajadores)” en la sección Tipo de clúster del panel Configurar clúster en la página Crear un clúster de Dataproc.