Rendimiento de la canalización

En esta página, se describe la configuración de la canalización que puedes ajustar y el impacto que tiene en el rendimiento.

El rendimiento de una canalización depende de los siguientes factores:

  • Tamaño y características de tus datos
  • Estructura de tu canalización
  • Tamaño del clúster
  • Complementos que usa tu canalización de Cloud Data Fusion

Tamaño del clúster

Los nodos de instancia principal usan recursos de forma proporcional a la cantidad de canalizaciones o aplicaciones adicionales que se ejecutan en el clúster. Si ejecutas canalizaciones en clústeres efímeros, usa 2 CPU y 8 GB de memoria para los nodos principales. Si usas clústeres persistentes, es posible que necesites nodos principales más grandes para mantenerte al día con el flujo de trabajo. Para saber si necesitas nodos principales más grandes, puedes supervisar el uso de la memoria y la CPU del nodo. Recomendamos cambiar el tamaño de los nodos trabajadores con al menos 2 CPU y 8 GB de memoria. Si configuraste las canalizaciones para que usen mayores cantidades de memoria, debes usar trabajadores más grandes.

A fin de minimizar el tiempo de ejecución, asegúrate de que tu clúster tenga suficientes nodos para permitir el procesamiento lo más paralelo posible.

Obtén más información sobre el tamaño del clúster.

Recursos

Las canalizaciones te permiten especificar la cantidad de CPU y de memoria que se asignará al controlador de Spark y a cada ejecutor de Spark. El chofer no hace mucho trabajo. Por lo tanto, el valor predeterminado de 1 CPU y 2 GB de memoria es suficiente para ejecutar la mayoría de las canalizaciones. Es posible que debas aumentar la memoria para las canalizaciones que contienen muchas etapas o esquemas grandes. La cantidad de CPU asignadas a un ejecutor determina la cantidad de tareas que el ejecutor puede ejecutar en paralelo.

Obtén más información sobre los recursos.

Ajuste del motor de ejecución

En Cloud Data Fusion 6.4 y versiones posteriores, Cloud Data Fusion configura automáticamente el motor de ejecución a fin de obtener el mejor rendimiento para los clústeres efímeros de Dataproc. Para los clústeres estáticos de Dataproc, configura tu motor de ejecución.

Más información

Para obtener más información sobre los conceptos presentados aquí, consulta la guía de ajuste del rendimiento de la canalización de datos de CDAP.