Se usó la API de Cloud Translation para traducir esta página.

Soluciona problemas de creación de clústeres

En este documento, se explican los mensajes de error comunes de la creación de clústeres y se brindan sugerencias para solucionar problemas relacionados con la creación de clústeres.

Mensajes de error comunes de la creación de clústeres

Se agotó el tiempo de espera de la operación: Solo se ejecutan 0 de cada 2 nodos de datos o administradores de nodos mínimos necesarios.

Causa: El nodo del controlador no puede crear el clúster porque no puede comunicarse con los nodos trabajadores.

Solución:
- Verifica las advertencias de las reglas de firewall.
- Asegúrate de que las reglas de firewall sean las correctas. Para obtener más información, consulta la Descripción general de las reglas de firewall predeterminadas de Dataproc.
- Realiza una prueba de conectividad en la consola de Google Cloud para determinar qué bloquea la comunicación entre los nodos trabajadores y los de controlador.
Permiso de compute.subnetworks.use necesario para projects/{projectId}/regions/{region}/subnetworks/{subnetwork}

Causa: Este error puede ocurrir cuando intentas configurar un clúster de Dataproc con una red de VPC en otro proyecto y la cuenta de servicio del agente de servicio de Dataproc no tiene los permisos necesarios en el proyecto de VPC compartida que aloja la red.

Solución: Sigue los pasos que se indican en Crea un clúster que use una red de VPC en otro proyecto.
La zona projects/zones/{zone} no tiene suficientes recursos disponibles para completar la solicitud (resource type:compute)

Causa: La zona que se usa para crear el clúster no tiene suficientes recursos.

Solución:
- Usa la función de posición de zona automática de Dataproc para crear el clúster en cualquiera de las zonas de una región con recursos disponibles.
- Crea el clúster en una zona diferente.
Errores de cuota excedida

Cuota insuficiente de CPUS/CPUS_ALL_REGIONS
Cuota insuficiente “DISKS_TOTAL_GB”
Cuota insuficiente “IN_USE_ADDRESSES”

Causa: La solicitud de CPU, disco o dirección IP supera la cuota disponible.

Solución: Solicita una cuota adicional en la consola deGoogle Cloud .
No se pudo realizar la acción de inicialización

Causa: No se pudo instalar la acción de inicialización proporcionada durante la creación del clúster.

Solución:
- Consulta los lineamientos y consideraciones para las acciones de inicialización.
- Examina los registros de salida. El mensaje de error debe proporcionar un vínculo a los registros en Cloud Storage.
No se pudo inicializar el nodo CLUSTER-NAME-m. … Consulta el resultado en: <gs://PATH_TO_STARTUP_SCRIPT_OUTPUT>

Causa: No se pudo inicializar el nodo del controlador del clúster de Dataproc.

Solución:
- Revisa los registros de salida de la secuencia de comandos de inicio que se indican en el mensaje de error (gs://PATH_TO_STARTUP_SCRIPT_OUTPUT) y verifica la causa de la falla en la inicialización del nodo.
- Las causas pueden incluir problemas de configuración de red del clúster de Dataproc y fallas en la instalación de dependencias de paquetes de Python.
- Si el problema no se resuelve después de revisar los registros de la secuencia de comandos de inicio, corrige los problemas del usuario y, luego, vuelve a intentarlo con una espera exponencial. Si el problema persiste, comunícate con el equipo de asistencia al cliente de Google Cloud.
No se pudo crear el clúster: Se agotó el espacio de direcciones IP

Causa: El espacio de direcciones IP necesario para aprovisionar los nodos del clúster solicitados no está disponible.

Solución:
- Crea un clúster con menos nodos trabajadores, pero con un tipo de máquina más grande.
- Crea un clúster en una subred o red diferente.
- Reduce el uso en la red para liberar espacio de direcciones IP.
- Espera hasta que haya suficiente espacio de IP disponible en la red.

Mensaje de error del script de inicialización: El repositorio REPO_NAME ya no tiene un archivo de versión

Causa: Se borró el repositorio de backports de Debian oldstable.

Solución:

Agrega el siguiente código antes del código que ejecuta apt-get en tu secuencia de comandos de inicialización.

oldstable=$(curl -s https://deb.debian.org/debian/dists/oldstable/Release | awk '/^Codename/ {print $2}');
stable=$(curl -s https://deb.debian.org/debian/dists/stable/Release | awk '/^Codename/ {print $2}');

matched_files="$(grep -rsil '\-backports' /etc/apt/sources.list*)"
if [[ -n "$matched_files" ]]; then
  for filename in "$matched_files"; do
    grep -e "$oldstable-backports" -e "$stable-backports" "$filename" || \
      sed -i -e 's/^.*-backports.*$//' "$filename"
  done
fi

Se agotó el tiempo de espera de la instancia DATAPROC_CLUSTER_VM_NAME para informar o No se puede acceder a la red: dataproccontrol-REGION.googleapis.com

Causa: Estos mensajes de error indican que la configuración de red de tu clúster de Dataproc está incompleta: es posible que falte la ruta a la puerta de enlace de Internet predeterminada o las reglas de firewall.

Solución:

Para solucionar este problema, puedes crear las siguientes pruebas de conectividad:
- Crea una prueba de conectividad entre dos VMs del clúster de Dataproc. El resultado de esta prueba te ayudará a comprender si las reglas de firewall de permiso de entrada o salida de tu red se aplican correctamente a las VMs del clúster.
- Crea una prueba de conectividad entre una VM del clúster de Dataproc y una dirección IP actual de la API de control de Dataproc. Para obtener una dirección IP actual de la API de control de Dataproc, usa el siguiente comando:
```
dig dataproccontrol-REGION.googleapis.com A
```
Usa cualquiera de las direcciones IPv4 en la sección de respuestas del resultado.

El resultado de la prueba de conectividad te ayudará a comprender si la ruta a la puerta de enlace de Internet predeterminada y el firewall de salida permitido están configurados correctamente.

Según los resultados de las pruebas de conectividad, haz lo siguiente:
- Agrega una ruta a Internet a la red de VPC de tu clúster: 0.0.0.0/0 para IPv4 y ::/0 para IPv6 con --next-hop-gateway=default-internet-gateway.
- Agrega reglas de firewall para el control de acceso.
Error debido a una actualización

Causa: El clúster aceptó un trabajo enviado al servicio de Dataproc, pero no pudo realizar el ajuste de escala de forma manual o a través del ajuste de escala automático. Este error también puede deberse a una configuración del clúster no estándar.

Solución:
- Restablecimiento del clúster: Abre un ticket de asistencia, incluye un archivo tar de diagnóstico y solicita que se restablezca el clúster al estado RUNNING.
- Clúster nuevo: Vuelve a crear el clúster con la misma configuración. Esta solución puede ser más rápida que un restablecimiento proporcionado por el equipo de asistencia.

Sugerencias para solucionar problemas de clústeres

En esta sección, se proporciona orientación adicional para solucionar problemas comunes que pueden impedir la creación de clústeres de Dataproc.

Cuando un clúster de Dataproc no se puede aprovisionar, a menudo genera un mensaje de error genérico o informa un estado PENDING o PROVISIONING antes de fallar. La clave para diagnosticar y resolver los problemas de fallas del clúster es examinar los registros del clúster y evaluar los puntos de falla comunes.

Síntomas comunes

Los siguientes son síntomas comunes asociados con errores de creación de clústeres:

El estado del clúster permanece como PENDING o PROVISIONING durante un período prolongado.
El clúster pasa al estado ERROR.
Errores genéricos de la API durante la creación del clúster, como Operation timed out.
Mensajes de error registrados o de respuesta de la API, como los siguientes:
- RESOURCE_EXHAUSTED: Relacionado con las cuotas de CPU, disco o dirección IP
- Instance failed to start
- Permission denied
- Unable to connect to service_name.googleapis.com o Could not reach required Google APIs
- Connection refused o network unreachable
- Errores relacionados con la falla de las acciones de inicialización, como errores de ejecución de secuencias de comandos y no se encontró el archivo

Revisa los registros del clúster

Un paso inicial importante para diagnosticar las fallas en la creación de clústeres es revisar los registros detallados del clúster disponibles en Cloud Logging.

Ve al Explorador de registros: Abre el Explorador de registros en la consola de Google Cloud .
Filtra los clústeres de Dataproc:
- En el menú desplegable Recurso, selecciona Cloud Dataproc Cluster.
- Ingresa tu cluster_name y project_id. También puedes filtrar por location (región).
Examina las entradas de registro:
- Busca mensajes de nivel ERROR o WARNING que se produzcan cerca del momento de la falla en la creación del clúster.
- Presta atención a los registros de los componentes master-startup, worker-startup y agent para obtener estadísticas sobre problemas a nivel de la VM o del agente de Dataproc.
- Para obtener información sobre los problemas de tiempo de arranque de la VM, filtra los registros por resource.type="gce_instance" y busca mensajes de los nombres de instancias asociados con los nodos de tu clúster, como CLUSTER_NAME-m o CLUSTER_NAME-w-0. Los registros de la consola en serie pueden revelar problemas de configuración de red, problemas de disco y fallas de secuencia de comandos que ocurren al principio del ciclo de vida de la VM.

Causas comunes de fallas en el clúster y sugerencias para solucionar problemas

En esta sección, se describen los motivos comunes por los que podría fallar la creación de clústeres de Dataproc y se proporcionan sugerencias para solucionar problemas relacionados con las fallas de los clústeres.

Permisos de IAM insuficientes

La cuenta de servicio de la VM que usa tu clúster de Dataproc debe tener los roles de IAM adecuados para aprovisionar instancias de Compute Engine, acceder a buckets de Cloud Storage, escribir registros y, también, interactuar con otros servicios de Google Cloud .

Rol de trabajador requerido: Verifica que la cuenta de servicio de VM tenga el rol de Trabajador de Dataproc (roles/dataproc.worker). Este rol tiene los permisos mínimos necesarios para que Dataproc administre los recursos del clúster.
Permisos de acceso a los datos: Si tus trabajos leen o escriben en Cloud Storage o BigQuery, la cuenta de servicio necesita roles relacionados, como Storage Object Viewer, Storage Object Creator o Storage Object Admin para Cloud Storage, o BigQuery Data Viewer o BigQuery Editor para BigQuery.
Permisos de registro: La cuenta de servicio debe tener un rol con los permisos necesarios para escribir registros en Cloud Logging, como el rol Logging Writer.