Esta página se ha traducido con Cloud Translation API.

Clústeres de nodo único

Los clústeres de un solo nodo son clústeres de Dataproc con un solo nodo. Este nodo único actúa como maestro y trabajador de tu clúster de Dataproc. Aunque los clústeres de un solo nodo solo tienen un nodo, la mayoría de los conceptos y las funciones de Dataproc siguen siendo válidos, excepto los que se indican a continuación.

Hay varias situaciones en las que los clústeres de Dataproc de un solo nodo pueden ser útiles, como las siguientes:

Probar nuevas versiones de Spark y Hadoop u otros componentes de código abierto
Crear demostraciones de pruebas de concepto
Ciencia de datos sencilla
Tratamiento de datos no críticos a pequeña escala
Formación relacionada con el ecosistema de Spark y Hadoop

Semántica de clústeres de un solo nodo

Las siguientes semánticas se aplican a los clústeres de Dataproc de un solo nodo:

Los clústeres de un solo nodo se configuran igual que los clústeres de varios nodos de Dataproc e incluyen servicios como HDFS y YARN.
Los clústeres de un solo nodo se registran como nodos maestros para las acciones de inicialización.
Los clústeres de un solo nodo muestran 0 trabajadores, ya que el nodo único actúa como maestro y trabajador.
Los clústeres de un solo nodo reciben nombres de host que siguen el patrón clustername-m. Puedes usar este nombre de host para conectarte a una interfaz web del nodo mediante SSH.
Los clústeres de un solo nodo no se pueden actualizar a clústeres de varios nodos. Una vez creados, los clústeres de un solo nodo se limitan a un nodo. Del mismo modo, los clústeres de varios nodos no se pueden reducir a clústeres de un solo nodo.

Limitaciones

No se recomiendan los clústeres de un solo nodo para el procesamiento de datos paralelos a gran escala. Si superas los recursos de un clúster de un solo nodo, te recomendamos que uses un clúster de Dataproc de varios nodos.
Los clústeres de un solo nodo no están disponibles con la alta disponibilidad, ya que solo hay un nodo en el clúster.
Los clústeres de un solo nodo no pueden usar máquinas virtuales interrumpibles.

Crear un clúster de un solo nodo

Comando gcloud

Puedes crear un clúster de Dataproc de un solo nodo con la gcloudherramienta de línea de comandos. Para crear un clúster de un solo nodo, pasa la marca --single-node al comando gcloud dataproc clusters create.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

API REST

Puedes crear un clúster de un solo nodo a través de la API REST de Dataproc mediante una solicitud clusters.create. Al enviar esta solicitud, debes hacer lo siguiente:

Añade la propiedad "dataproc:dataproc.allow.zero.workers":"true" a la SoftwareConfig de la solicitud de clúster.
No envíes valores para workerConfig y secondaryWorkerConfig (consulta ClusterConfig).

Consola

Puedes crear un clúster de un solo nodo seleccionando "Un solo nodo (1 maestro, 0 trabajadores)" en la sección Tipo de clúster del panel Configurar clúster de la página Crear un clúster de Dataproc.