Um perfil de computação especifica como e onde um pipeline é executado. Incorpora todas as informações necessárias para configurar e eliminar o ambiente de execução físico de um pipeline. Um perfil de computação especifica um nome do aprovisionador e as definições de configuração desse aprovisionador.
Cada perfil de computação tem um âmbito: sistema ou utilizador. Pode usar perfis de computação do sistema para quaisquer espaços de nomes abaixo. Os perfis de computação do utilizador existem num espaço de nomes e apenas os pipelines nesse espaço de nomes podem usar perfis de computação do utilizador. Os perfis de computação podem ser atribuídos a pipelines em lote. Quando um perfil de computação é atribuído a um pipeline, o aprovisionador especificado no perfil é usado para criar um cluster onde o pipeline é executado.
Por exemplo, um administrador pode decidir criar perfis de computação pequenos, médios e grandes. Configuram cada perfil com as credenciais necessárias para criar e eliminar clusters do Dataproc na conta da empresa. Google CloudGoogle Cloud
- O perfil pequeno está configurado para criar um cluster de 5 nós.
- O perfil médio está configurado para criar um cluster de 20 nós.
- O perfil grande está configurado para criar um cluster de 50 nós.
O administrador atribui o perfil pequeno a pipelines agendados para serem executados a cada hora em pequenas quantidades de dados. Atribuem o perfil grande a pipelines agendados para serem executados todos os dias numa grande quantidade de dados.
Perfil de computação predefinido
Por predefinição, o Cloud Data Fusion usa a criação de escala automática como o perfil de computação. Estimar o número adequado de trabalhadores de cluster (nós) para uma carga de trabalho é difícil, e um único tamanho de cluster para um pipeline completo não é, muitas vezes, o ideal. O redimensionamento automático do Dataproc oferece um mecanismo para automatizar a gestão de recursos do cluster e permite o redimensionamento automático da VM de trabalho do cluster. Para mais informações, consulte o artigo Ajuste automático.
Na página Configuração de computação, onde pode ver uma lista de perfis, existe uma coluna Total de núcleos, que tem o número máximo de vCPUs para o qual o perfil pode ser dimensionado, como Up to 84
.
Perfis de computação do sistema e do utilizador
Um perfil de computação indica que aprovisionador usar ao criar um cluster e especifica a configuração do cluster. Também especificam a configuração do aprovisionador que deve ser usada quando se cria um cluster.
- Para criar um perfil de computação do sistema, aceda à página Administrador do sistema no Cloud Data Fusion Studio. Esta página apresenta todos os perfis de computação do sistema e permite-lhe criar novos perfis de computação do sistema.
- Para criar um perfil de computação do utilizador, aceda à página de administração do espaço de nomes no Cloud Data Fusion Studio e, de seguida, selecione o espaço de nomes no qual quer criar o perfil. Em seguida, pode criar um perfil que existe apenas nesse espaço de nomes.
Atribuição de perfil de computação
Pode atribuir perfis de computação a pipelines em lote das seguintes formas:
- Atribua um perfil predefinido à instância do Cloud Data Fusion.
- Atribuir um perfil predefinido a um espaço de nomes específico.
- Atribua um perfil a um pipeline de processamento em lote para usar em execuções iniciadas manualmente.
- Atribua um perfil a um horário de pipeline.
Se for definido um perfil na programação que aciona uma execução ou se executar manualmente um pipeline e existir um perfil atribuído a esse pipeline, o Cloud Data Fusion usa esse perfil de computação.
Se não estiver definido nenhum perfil, o Cloud Data Fusion usa o perfil predefinido para o espaço de nomes. Se não estiver definido nenhum perfil predefinido para o espaço de nomes,
O Cloud Data Fusion usa o perfil predefinido do sistema. Se não for definido nenhum valor predefinido do sistema, é usado o perfil incorporado.
Atribua um perfil de computação predefinido
Para atribuir perfis predefinidos a um espaço de nomes ou a uma instância do Cloud Data Fusion, aceda ao Cloud Data Fusion Studio e clique em Administrador do sistema > Configuração > Perfis de computação do sistema. Para selecionar o perfil predefinido, clique na estrela junto ao nome do perfil.
Opcional: use os microsserviços de preferências para definir perfis predefinidos
- Para definir o perfil predefinido, defina uma preferência na instância do Cloud Data Fusion com a chave system.profile.name e o valor
system:<profile-name>
. - Para definir o perfil predefinido de um espaço de nomes, defina uma preferência no espaço de nomes escolhido com a chave
system.profile.name
e o valor<scope>:<profile-name>
.
Atribua um perfil de computação para execuções manuais
Para atribuir um perfil a usar para execuções manuais de pipelines, siga estes passos:
- Navegue para a página de detalhes do pipeline.
- Clique em Configurar > Configuração de computação.
- Selecione um perfil e clique em Guardar. O perfil selecionado é usado sempre que o pipeline é executado manualmente.
Em alternativa, pode usar os microsserviços de preferências para definir o perfil para execuções manuais definindo a preferência na entidade DataPipelineWorkflow
com a chave system.profile.name
e o valor <scope>:<profile-name>
.
Atribua um perfil de computação a uma programação
Sempre que criar um agendamento para um pipeline, pode atribuir-lhe um perfil. Sempre que o agendamento aciona uma execução do pipeline, usa esse perfil para a execução. Isto aplica-se a horários e horários que outras pipelines acionam.
Substitua uma configuração do perfil de computação
Quando um perfil é criado, cada definição de configuração pode ser tornada imutável através do bloqueio. No entanto, se as definições de configuração não estiverem bloqueadas, podem ser substituídas no momento da execução. Para substituir a configuração do perfil, siga estes passos:
- Na página Lista de pipelines, selecione o pipeline implementado que quer executar.
- Na página Detalhes do pipeline, clique em Configurar.
- Escolha um perfil de computação e clique em Personalizar.
- Altere as definições pretendidas e clique em Guardar.
Pode usar argumentos de tempo de execução e propriedades de programação para modificar o tamanho do cluster e outras definições.
- Para substituir o perfil usado, defina um argumento de tempo de execução com a chave
system.profile.name
e o valor<scope>:<profile-name>
. - Para substituir uma propriedade do perfil, defina um argumento de tempo de execução com a chave
system.profile.properties.<property-name>
e o valor igual ao valor dessa propriedade.
Por exemplo, para substituir o valor numWorkerssetting
por 10
, defina uma preferência ou um argumento de tempo de execução com a chave system.profile.properties.numWorkers
e o valor 10
.
O que se segue?
- Saiba mais sobre os provisionadores no Cloud Data Fusion.
- Saiba mais sobre a configuração do cluster do Dataproc.