Um perfil de computação especifica como e onde um pipeline é executado. Ele encapsula todas as informações necessárias para configurar e excluir o ambiente de execução física de um pipeline. Um perfil de computação especifica um nome de provisionador e as configurações para esse provisionador.
Cada perfil de computação tem um escopo: sistema ou usuário. É possível usar perfis de computação do sistema para qualquer namespace abaixo dele. Os perfis de computação do usuário existem em um namespace, e somente pipelines nesse namespace podem usar perfis de computação do usuário. Os perfis de computação podem ser atribuídos a pipelines em lote. Quando um perfil de computação é atribuído a um pipeline, o provisionador especificado no perfil é usado para criar um cluster em que o pipeline será executado.
Por exemplo, um administrador pode decidir criar perfis de computação pequenos, médios e grandes. Eles configuram cada perfil com as credenciais de Google Cloud necessárias para criar e excluir clusters do Dataproc na conta Google Cloud da empresa.
- O perfil pequeno é configurado para criar um cluster de cinco nós.
- O perfil médio é configurado para criar um cluster de 20 nós.
- O perfil grande é configurado para criar um cluster de 50 nós.
O administrador atribui o perfil pequeno a pipelines programados para serem executados a cada hora em pequenas quantidades de dados. Eles atribuem o perfil grande a pipelines programados para serem executados todos os dias em uma grande quantidade de dados.
Perfil de computação padrão
Por padrão, o Cloud Data Fusion usa o Autoscale como o perfil de computação. É difícil estimar o número adequado de workers de cluster (nós) para uma carga de trabalho, e um único tamanho de cluster para um pipeline inteiro geralmente não é ideal. O escalonamento automático do Dataproc fornece um mecanismo para automatizar o gerenciamento de recursos do cluster e permite o escalonamento automático da VM de worker do cluster. Para mais informações, consulte Escalonamento automático.
Na página Configuração de computação, onde você pode conferir uma lista de perfis, há
uma coluna Total de núcleos, que mostra o número máximo de vCPUs que o perfil pode
dimensionar, como Up to 84
.
Perfis de computação do sistema e do usuário
Um perfil de computação indica qual provisionador usar ao criar um cluster e especifica a configuração do cluster. Eles também especificam a configuração do provisionador que deve ser usada ao criar um cluster.
- Para criar um perfil de computação do sistema, acesse a página Administrador do sistema no Cloud Data Fusion Studio. Esta página lista todos os perfis de computação do sistema e permite criar novos perfis de computação do sistema.
- Para criar um perfil de computação do usuário, acesse a página Administração de espaço de nome no Cloud Data Fusion Studio e selecione o espaço de nome em que o perfil será criado. Em seguida, você pode criar um perfil que existe apenas dentro desse namespace.
Atribuição de perfil de computação
É possível atribuir perfis de computação a pipelines em lote das seguintes maneiras:
- Atribua um perfil padrão à instância do Cloud Data Fusion.
- Atribuir um perfil padrão a um namespace específico.
- Atribua um perfil a um pipeline de lote para usar em execuções iniciadas manualmente.
- Atribuir um perfil a uma programação de pipeline.
Se um perfil for definido na programação que aciona uma execução ou se você executar manualmente um pipeline e houver um perfil atribuído a ele, o Cloud Data Fusion vai usar esse perfil de computação.
Se nenhum perfil for definido, o Cloud Data Fusion vai usar o perfil padrão do namespace. Se nenhum perfil padrão for definido para o namespace,
O Cloud Data Fusion usa o perfil padrão do sistema. Se nenhum padrão do sistema estiver definido, o perfil integrado será usado.
Atribuir um perfil de computação padrão
Para atribuir perfis padrão a um namespace ou instância do Cloud Data Fusion, acesse o Cloud Data Fusion Studio e clique em Administrador do sistema > Configuração > Perfis de computação do sistema. Para selecionar o padrão, clique na estrela ao lado do nome do perfil.
Opcional: use os microsserviços de preferências para definir perfis padrão
- Para definir o perfil padrão, defina uma preferência na instância do Cloud Data Fusion
com a chave system.profile.name e o valor
system:<profile-name>
. - Para definir o perfil padrão de um namespace, defina uma preferência no
namespace escolhido com a chave
system.profile.name
e o valor<scope>:<profile-name>
.
Atribuir um perfil de computação para execuções manuais
Para atribuir um perfil a ser usado em execuções manuais do pipeline, siga estas etapas:
- Acesse a página de detalhes do pipeline.
- Clique em Configurar > Configuração de computação.
- Selecione um perfil e clique em Salvar. O perfil selecionado é usado sempre que o pipeline é executado manualmente.
Como alternativa, use os microsserviços de preferências para definir o perfil de
execuções manuais definindo a preferência na entidade DataPipelineWorkflow
com a chave
system.profile.name
e o valor <scope>:<profile-name>
.
Atribuir um perfil de computação a uma programação
Sempre que você criar uma programação para um pipeline, poderá atribuir um perfil a ele. Sempre que a programação acionar uma execução de pipeline, ela vai usar esse perfil para a execução. Isso vale para programações e programações que outros pipelines acionam.
Modificar uma configuração de perfil de computação
Quando um perfil é criado, cada configuração pode ser tornada imutável por meio de bloqueio. No entanto, se as configurações não estiverem bloqueadas, elas poderão ser substituídas no momento da execução. Para substituir a configuração do perfil, siga estas etapas:
- Na página "Lista de pipelines", selecione o pipeline implantado que você quer executar.
- Na página "Detalhes do pipeline", clique em Configurar.
- Escolha um perfil de computação e clique em Personalizar.
- Mude as configurações e clique em Salvar.
É possível usar argumentos de execução e programar propriedades para modificar o tamanho do cluster e outras configurações.
- Para substituir o perfil usado, defina um argumento de execução com a chave
system.profile.name
e o valor<scope>:<profile-name>
. - Para substituir uma propriedade de perfil, defina um argumento de execução com a chave
system.profile.properties.<property-name>
e o valor igual ao valor dessa propriedade.
Por exemplo, para substituir o numWorkerssetting
por um valor de 10
, defina uma
preferência ou um argumento de execução com a chave
system.profile.properties.numWorkers
e o valor 10
.
A seguir
- Saiba mais sobre os provisionadores no Cloud Data Fusion.
- Saiba mais sobre a configuração de cluster do Dataproc.