Rendimiento de la canalización

El rendimiento de la canalización depende del tamaño y las características de tus datos, la estructura de tu canalización, el tamaño del clúster y los complementos que usa tu canalización de Cloud Data Fusion. En esta página, se describe la configuración de la canalización que puedes ajustar y el impacto que tienen en el rendimiento.

Tamaño del clúster

Los nodos de instancia principal usan recursos de forma proporcional a la cantidad de canalizaciones o aplicaciones adicionales que se ejecutan en el clúster. Si ejecutas canalizaciones en clústeres efímeros, usa 2 CPU y 8 GB de memoria para los nodos principales. Si usas clústeres persistentes, es posible que necesites nodos principales más grandes para mantenerse al día con el flujo de trabajo. Puedes supervisar el uso de la memoria y la CPU en el nodo para comprender si necesitas nodos principales más grandes. Recomendamos que dimensiones tus nodos trabajadores con al menos 2 CPU y 8 GB de memoria. Deberás usar trabajadores más grandes si configuraste tus canalizaciones para usar grandes cantidades de memoria.

A fin de minimizar el tiempo de ejecución, asegúrate de que tu clúster tenga suficientes nodos para permitir el procesamiento lo más paralelo posible.

Obtén más información sobre el tamaño del clúster.

Recursos

Las canalizaciones te permiten especificar la cantidad de CPU y memoria que se le otorgarán al controlador de Spark y a cada ejecutor de Spark. Debido a que el controlador no realiza demasiado trabajo, el valor predeterminado de 1 CPU y 2 GB de memoria suele ser suficiente para ejecutar la mayoría de las canalizaciones. Es posible que debas aumentar la memoria para las canalizaciones que contienen muchas etapas o esquemas grandes. La cantidad de CPU asignadas a un ejecutor determina la cantidad de tareas que el ejecutor puede ejecutar en paralelo.

Obtén más información sobre los recursos.

Ajuste del motor de ejecución

En las versiones 6.4 y posteriores de Cloud Data Fusion, Cloud Data Fusion configura automáticamente el motor de ejecución para obtener el mejor rendimiento de los clústeres efímeros de Dataproc. Para clústeres de Dataproc estáticos, configura el motor de ejecución.

Más información

Para obtener más detalles sobre los conceptos que se presentan aquí, consulta la guía de ajuste de rendimiento de la canalización de datos de CDAP.