Gestionar perfiles de cálculo

Un perfil de cálculo especifica cómo y dónde se ejecuta una canalización. Encapsula cualquier información necesaria para configurar y eliminar el entorno de ejecución físico de una canalización. Un perfil de cálculo especifica el nombre de un proveedor y los ajustes de configuración de ese proveedor.

Cada perfil de cálculo tiene un ámbito: sistema o usuario. Puede usar perfiles de computación del sistema para cualquier espacio de nombres que esté en él. Los perfiles de computación de usuario se encuentran en un espacio de nombres y solo las canalizaciones de ese espacio de nombres pueden usarlos. Los perfiles de computación se pueden asignar a las canalizaciones de procesamiento por lotes. Cuando se asigna un perfil de computación a una canalización, se usa el aprovisionador especificado en el perfil para crear un clúster en el que se ejecutará la canalización.

Por ejemplo, un administrador puede decidir crear perfiles de cálculo pequeños, medianos y grandes. Configuran cada perfil con las Google Cloud credenciales necesarias para crear y eliminar clústeres de Dataproc en la cuenta de Google Cloud la empresa.

  • El perfil pequeño está configurado para crear un clúster de 5 nodos.
  • El perfil medio está configurado para crear un clúster de 20 nodos.
  • El perfil grande está configurado para crear un clúster de 50 nodos.

El administrador asigna el perfil pequeño a las canalizaciones que se programan para ejecutarse cada hora con pequeñas cantidades de datos. Asignan el perfil grande a las canalizaciones que se programan para ejecutarse todos los días con una gran cantidad de datos.

Perfil de cálculo predeterminado

De forma predeterminada, Cloud Data Fusion usa Autoscale como perfil de computación. Estimar el número adecuado de trabajadores (nodos) de un clúster para una carga de trabajo es difícil, y un único tamaño de clúster para toda una canalización no suele ser lo ideal. El autoescalado de Dataproc es un mecanismo de automatización de la gestión de los recursos de clústeres que permite que se escalen automáticamente las VMs de los trabajadores del clúster. Para obtener más información, consulta Autoescalado.

En la página Configuración de computación, donde se muestra una lista de perfiles, hay una columna Total de núcleos, que indica el número máximo de vCPUs al que se puede ampliar el perfil, como Up to 84.

Perfiles de computación del sistema y del usuario

Un perfil de computación indica qué proveedor se debe usar al crear un clúster y especifica la configuración del clúster. También especifican la configuración del aprovisionador que se debe usar al crear un clúster.

  • Para crear un perfil de cálculo del sistema, ve a la página Administrador del sistema en Cloud Data Fusion Studio. En esta página se muestran todos los perfiles de computación del sistema y se pueden crear otros.
  • Para crear un perfil de computación de usuario, ve a la página Administración de espacio de nombres en Cloud Data Fusion Studio y, a continuación, selecciona el espacio de nombres en el que quieres crear el perfil. Después, puedes crear un perfil que solo exista en ese espacio de nombres.

Asignación de perfil de computación

Puedes asignar perfiles de computación a las canalizaciones por lotes de las siguientes formas:

  • Asigna un perfil predeterminado a la instancia de Cloud Data Fusion.
  • Asigna un perfil predeterminado a un espacio de nombres específico.
  • Asigna un perfil a un flujo de procesamiento por lotes para usarlo en las ejecuciones que se inicien manualmente.
  • Asigna un perfil a una programación de un flujo de procesamiento.

Si se define un perfil en la programación que activa una ejecución o si ejecutas manualmente una canalización y hay un perfil asignado a esa canalización, Cloud Data Fusion utiliza ese perfil de computación.

Si no se define ningún perfil, Cloud Data Fusion usa el perfil predeterminado del espacio de nombres. Si no se ha definido ningún perfil predeterminado para el espacio de nombres,

Cloud Data Fusion usa el perfil predeterminado del sistema. Si no se ha definido ningún valor predeterminado del sistema, se utiliza el perfil integrado.

Asignar un perfil de cálculo predeterminado

Para asignar perfiles predeterminados a un espacio de nombres o a una instancia de Cloud Data Fusion, ve a Cloud Data Fusion Studio y haz clic en Administrador del sistema > Configuración > Perfiles de computación del sistema. Para seleccionar el predeterminado, haz clic en la estrella situada junto al nombre del perfil.

Opcional: usa los microservicios de preferencias para definir perfiles predeterminados

  • Para definir el perfil predeterminado, define una preferencia en la instancia de Cloud Data Fusion con la clave system.profile.name y el valor system:<profile-name>.
  • Para definir el perfil predeterminado de un espacio de nombres, defina una preferencia en el espacio de nombres elegido con la clave system.profile.name y el valor <scope>:<profile-name>.

Asignar un perfil de computación a ejecuciones manuales

Para asignar un perfil que se usará en las ejecuciones manuales de la canalización, sigue estos pasos:

  1. Vaya a la página de detalles de la canalización.
  2. Haz clic en Configurar > Configuración de computación.
  3. Selecciona un perfil y haz clic en Guardar. El perfil seleccionado se usa siempre que la canalización se ejecute manualmente.

También puedes usar los microservicios de preferencias para definir el perfil de las ejecuciones manuales. Para ello, define la preferencia en la entidad DataPipelineWorkflow con la clave system.profile.name y el valor <scope>:<profile-name>.

Asignar un perfil de computación a una programación

Cada vez que crees una programación para una canalización, podrás asignarle un perfil. Cada vez que la programación active una ejecución de flujo de procesamiento, se usará ese perfil para la ejecución. Esto se aplica a las programaciones de tiempo y a las programaciones que activan otras canalizaciones.

Anular la configuración de un perfil de computación

Cuando se crea un perfil, cada ajuste de configuración se puede hacer inmutable bloqueándolo. Sin embargo, si los ajustes de configuración no están bloqueados, se pueden anular en el tiempo de ejecución. Para anular la configuración del perfil, sigue estos pasos:

  1. En la página Lista de flujos de procesamiento, selecciona el flujo de procesamiento implementado que quieras ejecutar.
  2. En la página Detalles de la canalización, haga clic en Configurar.
  3. Elige un perfil de computación y haz clic en Personalizar.
  4. Cambia los ajustes que quieras y haz clic en Guardar.

Puedes usar argumentos de tiempo de ejecución y propiedades de programación para modificar el tamaño del clúster y otros ajustes.

  • Para anular el perfil utilizado, define un argumento de tiempo de ejecución con la clave system.profile.namey el valor <scope>:<profile-name>.
  • Para anular una propiedad de perfil, define un argumento de tiempo de ejecución con la clave system.profile.properties.<property-name> y el valor de esa propiedad.

Por ejemplo, para anular numWorkerssetting con el valor 10, defina una preferencia o un argumento de tiempo de ejecución con la clave system.profile.properties.numWorkers y el valor 10.

Siguientes pasos