Soluciona problemas

Obtén información sobre los pasos para solucionar problemas que pueden servirte si tienes dificultades con Cloud Data Fusion.

La canalización está atascada

En las versiones de Cloud Data Fusion anteriores a la 6.2, existe un problema conocido en el que las canalizaciones se atascan en los estados Starting o Running. Detener la canalización da como resultado el siguiente error: Malformed reply from SOCKS server.

Recomendaciones

Para arreglarlo, borra el clúster de Dataproc. Para evitar que tu canalización se detenga en la siguiente ejecución, actualiza el perfil de procesamiento:

  • Obligatorio: Aumenta el tamaño del clúster de Dataproc a al menos 2 CPU y nodos principales a 8 GB como mínimo.
  • Opcional: migra a Cloud Data Fusion 6.2. A partir de la versión 6.2, las ejecuciones de la canalización se envían a través de la API de trabajo de Dataproc y no imponen un uso intensivo de memoria en el nodo principal. Sin embargo, se recomienda que uses 2 nodos principales de CPU y 8 GB para trabajos de producción.

Cambia el tamaño de los clústeres

cURL

Para cambiar el tamaño del clúster, exporta el perfil de Compute y, luego, usa la API de REST a fin de actualizar la configuración de la memoria:

  1. Exporta el perfil de Compute. Este se guarda de forma local en un archivo JSON.
  2. Edita la siguiente configuración de memoria en el archivo JSON: actualiza masterCPUs al menos 2 y masterMemoryMB a al menos 8192 MB (aproximadamente 8 GB).

    {
     "name": "masterCPUs",
     "value": "2",
     "isEditable": true
    },
    {
     "name": "masterMemoryMB",
     "value": "8192",
     "isEditable": true
    },
    
  3. Usa la API de REST para actualizar el perfil de Compute. Puedes usar cURL o el ejecutor HTTP en la IU.

    Para cURL, use el siguiente comando:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" https://<data-fusion-instance-url>/api/v3/profiles/<profile-name> -X PUT -d @<path-to-json-file>