Un perfil de procesamiento especifica cómo y dónde se ejecuta una canalización. Integra encapsula toda la información necesaria para configurar y borrar de ejecución de una canalización. Un perfil de procesamiento especifica un nombre de aprovisionador y la configuración de ese aprovisionador.
Cada perfil de procesamiento tiene un alcance: sistema o usuario. Puedes usar sistemas de procesamiento perfiles para cualquier espacio de nombres debajo de él. Existen perfiles de procesamiento de usuario de Terraform, y solo las canalizaciones en ese espacio de nombres pueden usar perfiles de procesamiento del usuario. Los perfiles de procesamiento pueden asignarse a canalizaciones por lotes. Cuando se asigna un perfil de procesamiento a una canalización, se usará el aprovisionador especificado en el perfil para crear un clúster en el que se ejecutará la canalización.
Por ejemplo, un administrador podría decidir crear perfiles de procesamiento pequeños, medianos y grandes. Configura cada perfil con las credenciales de Google Cloud necesarias para crear y borrar clústeres de Dataproc en la cuenta de Google Cloud de la empresa.
- El perfil pequeño está configurado para crear un clúster de 5 nodos.
- El perfil medio se configura para crear un clúster de 20 nodos.
- El perfil grande se configura para crear un clúster de 50 nodos.
El administrador asigna el perfil pequeño a las canalizaciones que están programadas para se ejecutan cada hora con pequeñas cantidades de datos. Asignan el perfil grande a canalizaciones programadas para ejecutarse todos los días con una gran cantidad de datos.
Perfil de procesamiento predeterminado
De forma predeterminada, Cloud Data Fusion usa el escalamiento automático como perfil de procesamiento. Es difícil calcular la cantidad adecuada de trabajadores (nodos) del clúster de una carga de trabajo, y un tamaño único del clúster para toda la canalización no suele ser lo ideal. El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar y habilita el ajuste de escala automático de VM de trabajador del clúster. Para ver más consulta Ajuste de escala automático.
En la página Configuración de procesamiento, donde puedes ver una lista de perfiles, encontrarás
Una columna Total de núcleos, que tiene la cantidad máxima de CPU virtuales que el perfil puede escalar
hasta, como Up to 84
.
Perfiles de procesamiento del sistema y del usuario
Un perfil de procesamiento indica qué aprovisionador usar cuando se crea un clúster y especifica su configuración. También especifican el aprovisionador predeterminada que se debe usar cuando se crea un clúster.
- Para crear un perfil de procesamiento del sistema, ve a la página Administrador del sistema en Studio de Cloud Data Fusion. En esta página, se enumeran todos los perfiles de procesamiento del sistema y permite crear nuevos perfiles de procesamiento del sistema.
- Para crear un perfil de procesamiento de usuarios, ve a la página Administración de espacios de nombres en Studio de Cloud Data Fusion y, luego, selecciona el espacio de nombres en el que deseas crear el perfil. Luego, puedes crear un perfil que solo exista dentro de ese espacio de nombres.
Asignación de perfiles de procesamiento
Puedes asignar perfiles de cómputos a canalizaciones por lotes de las siguientes maneras:
- Asigna un perfil predeterminado para la instancia de Cloud Data Fusion.
- Asigna un perfil predeterminado para un espacio de nombres específico.
- Asigna un perfil a una canalización por lotes para usar en las ejecuciones que se inician manualmente.
- Asignar un perfil a un programa de canalización
Si se configura un perfil en la programación que activa una ejecución o si ejecutas una canalización y hay un perfil asignado a ella, Cloud Data Fusion usa ese perfil de procesamiento.
Si no se establece ningún perfil, Cloud Data Fusion usa el perfil predeterminado para la espacio de nombres. Si no se establece un perfil predeterminado para el espacio de nombres,
Cloud Data Fusion usa el perfil predeterminado del sistema. Si no se establece un valor predeterminado del sistema, se usa el perfil integrado.
Asigna un perfil de procesamiento predeterminado
Para asignar perfiles predeterminados a un espacio de nombres o una instancia de Cloud Data Fusion, ve a Cloud Data Fusion Studio y haz clic en Administrador del sistema > Configuración > Perfiles de procesamiento del sistema. Para seleccionar el de forma predeterminada, haz clic en la estrella que aparece junto al perfil de la fuente de datos.
Opcional: Usa los microservicios de Preferences para establecer perfiles predeterminados
- Para establecer el perfil predeterminado, configura una preferencia en la instancia de Cloud Data Fusion con la clave system.profile.name y el valor
system:<profile-name>
. - Para configurar el perfil predeterminado de un espacio de nombres, establece una preferencia en el
espacio de nombres elegido con la clave
system.profile.name
y el valor<scope>:<profile-name>
Asigna un perfil de procesamiento para ejecuciones manuales
Para asignar un perfil que se usará para las ejecuciones manuales de canalización, sigue estos pasos:
- Navega a la página de detalles de la canalización.
- Haz clic en Configurar > Configuración de procesamiento.
- Selecciona un perfil y haz clic en Guardar. Se usa el perfil seleccionado cada vez que la canalización se ejecuta de forma manual.
También puedes usar los microservicios Preferences para establecer el perfil de
ejecuciones manuales estableciendo preferencias en la entidad DataPipelineWorkflow
con clave
system.profile.name
y el valor <scope>:<profile-name>
.
Asigna un perfil de procesamiento a un programa
Cada vez que creas un programa para una canalización, puedes asignarle un perfil. Cada vez que la programación active una ejecución de canalización, usará ese perfil para la ejecución. Esto se aplica a los cronogramas de tiempo que otras canalizaciones un activador.
Anula una configuración de perfil de procesamiento
Cuando se crea un perfil, cada parámetro de configuración se puede inmovilizar para que sea inmutable. Sin embargo, si los parámetros de configuración no están bloqueados, se pueden anulada en el tiempo de ejecución. Para anular la configuración del perfil, sigue estos pasos:
- En la página Lista de canalizaciones, selecciona la canalización implementada que desees ejecutar.
- En la página Detalles de la canalización, haz clic en Configurar.
- Elige un perfil de procesamiento y haz clic en Personalizar.
- Cambia la configuración que desees y haz clic en Guardar.
Puedes usar argumentos del entorno de ejecución y propiedades de programación para modificar el tamaño del clúster y otros parámetros de configuración.
- Para anular el perfil que se usó, establece un argumento de tiempo de ejecución con la clave
system.profile.name
y el valor<scope>:<profile-name>
. - Para anular una propiedad de perfil, establece un argumento de tiempo de ejecución con la clave
system.profile.properties.<property-name>
y un valor igual al valor de esa propiedad.
Por ejemplo, para anular el numWorkerssetting
a un valor de 10
, establece una preferencia o un argumento de tiempo de ejecución con la clave system.profile.properties.numWorkers
y el valor 10
.
¿Qué sigue?
- Obtén más información sobre los aprovisionadores en Cloud Data Fusion.
- Obtén más información sobre la configuración de clústeres de Dataproc.