Clústeres de nodo único

Los clústeres de nodo único son clústeres de Cloud Dataproc con un solo nodo. Este nodo único actúa como el principal y el trabajador para tu clúster de Cloud Dataproc. Si bien los clústeres de nodo único solo tienen un nodo, se siguen aplicando la mayoría de las características y conceptos de Cloud Dataproc, excepto aquellos que se enumeran a continuación.

A continuación, se detallan algunas situaciones donde los clústeres de Cloud Dataproc de nodo único pueden ser útiles:

  • Probar versiones nuevas de Spark y Hadoop o cualquier otro componente de código abierto
  • Compilar demostraciones de prueba de concepto (PoC)
  • Ciencia de datos básica
  • Procesamiento de datos no críticos de pequeña escala
  • Educación relacionada con el ecosistema de Spark y Hadoop

Semántica del clúster de nodo único

Se aplica la siguiente semántica a los clústeres de Cloud Dataproc de nodo único:

  • Los clústeres de nodo único se configuran de la misma manera que los clústeres de Cloud Dataproc de varios nodos e incluyen servicios como HDFS y YARN.
  • Los clústeres de nodo único se consideran como nodos principales para las acciones de inicialización.
  • Los clústeres de nodo único muestran 0 trabajadores, ya que el nodo único actúa como principal y trabajador.
  • Los clústeres de nodo único reciben nombres de host que siguen el patrón clustername-m. Puedes usar este nombre de host para establecer una conexión SSH o una conexión a una IU web en el nodo.
  • Los clústeres de nodo único no se pueden actualizar a clústeres de varios nodos. Una vez creados, los clústeres de nodo único se limitan a un solo nodo. De manera similar, los clústeres de varios nodos no se pueden reducir a clústeres de nodo único.

Limitaciones

  • No se recomienda usar clústeres de nodo único para el procesamiento de datos en paralelo a gran escala. Si excedes los recursos en un clúster de nodo único, se recomienda un clúster de Cloud Dataproc de varios nodos.
  • Los tipos de máquinas n1-standard-1 tienen recursos limitados y no se recomiendan para las aplicaciones YARN.
  • Los clústeres de nodo único no están disponibles con alta disponibilidad, ya que solo hay un nodo en el clúster.
  • Los clústeres de nodo único no pueden usar VM interrumpibles.

Cómo crear un clúster de nodo único

Comando de gcloud

Puedes crear un clúster de Cloud Dataproc de nodo único mediante el uso de la herramienta de línea de comandos de gcloud. Para crear un clúster de nodo único, pasa la marca --single-node al comando gcloud dataproc clusters create.

gcloud dataproc clusters create args --single-node

API de REST

Puedes crear un clúster de nodo único con la API de REST de Cloud Dataproc mediante la solicitud clusters.create. Cuando haces esta solicitud, debes:

  1. Agregar la propiedad dataproc:dataproc.allow.zero.workers="true" a la SoftwareConfig de la solicitud del clúster
  2. No enviar valores para workerConfig y secondaryWorkerConfig (consulta ClusterConfig)

Console

Puedes crear un clúster de nodo único si seleccionas "Nodo único (1 principal, 0 trabajadores)" del selector Modo del clúster en la página Crear un clúster (Create a cluster) de Cloud Dataproc.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.