Um perfil de computação especifica como e onde um pipeline é executado. Ela encapsula qualquer informação necessária para configurar e excluir a infraestrutura física ambiente de execução de um pipeline. Um perfil de computação especifica um nome de provisionador e as configurações para esse provisionador.
Cada perfil de computação tem um escopo: sistema ou usuário. É possível usar perfis de computação do sistema para qualquer namespace abaixo dele. Os perfis de computação do usuário existem em um namespace, e somente pipelines nesse namespace podem usar perfis de computação do usuário. Os perfis de computação podem ser atribuídos a pipelines em lote. Quando um perfil de computação atribuído a um pipeline, o provisionador especificado no perfil será usado para criar um cluster em que o pipeline será executado.
Por exemplo, um administrador pode decidir criar perfis de computação pequenos, médios e grandes. Eles configuram cada perfil com o serviço do Google Cloud credenciais necessárias para criar e excluir clusters do Dataproc a conta do Google Cloud da empresa.
- O perfil pequeno é configurado para criar um cluster de cinco nós.
- O perfil médio está configurado para criar um cluster de 20 nós.
- O perfil grande é configurado para criar um cluster de 50 nós.
O administrador atribui o perfil pequeno aos pipelines programados para são executadas a cada hora com pequenos volumes de dados. Eles atribuem o perfil grande a pipelines programados para serem executados todos os dias em uma grande quantidade de dados.
Perfil de computação padrão
Por padrão, o Cloud Data Fusion usa o Autoscale como o perfil de computação. Estimar o número apropriado de workers (nós) de cluster para uma carga de trabalho é difícil, e um único tamanho de cluster para um pipeline inteiro geralmente não é o ideal. O escalonamento automático do Dataproc fornece um mecanismo para automatizar o gerenciamento de recursos do cluster e ativar o escalonamento automático da VM de worker do cluster. Para mais informações, consulte Escalonamento automático.
Na página Configuração de computação, onde é possível conferir uma lista de perfis, há
uma coluna Total de núcleos, que tem o número máximo de vCPUs que o perfil pode escalonar
como Up to 84
.
Perfis de computação do sistema e do usuário
Um perfil de computação indica qual provisionador usar ao criar um cluster e especifica a configuração do cluster. Eles também especificam a configuração do provisionador que deve ser usada ao criar um cluster.
- Para criar um perfil de computação do sistema, acesse a página Administrador do sistema em o Cloud Data Fusion Studio. Esta página lista todos os perfis de computação do sistema e permite criar novos perfis de computação do sistema.
- Para criar um perfil de computação do usuário, acesse a página Administração de espaço de nome no Cloud Data Fusion Studio e selecione o espaço de nome em que o perfil será criado. Em seguida, crie um perfil que existe apenas nesse namespace.
Atribuição de perfil de computação
É possível atribuir perfis de computação a pipelines em lote das seguintes maneiras:
- Atribua um perfil padrão à instância do Cloud Data Fusion.
- Atribuir um perfil padrão a um namespace específico.
- Atribuir um perfil a um pipeline em lote para usar em execuções iniciadas manualmente.
- Atribuir um perfil a uma programação de pipeline.
Se um perfil for definido na programação que aciona uma execução ou se você executar manualmente um pipeline e há um perfil atribuído a ele, O Cloud Data Fusion usa esse perfil de computação.
Se nenhum perfil for definido, o Cloud Data Fusion vai usar o perfil padrão para a . Se nenhum perfil padrão for definido para o namespace,
O Cloud Data Fusion usa o perfil padrão do sistema. Se nenhum padrão do sistema for definido, o perfil integrado é usado.
Atribuir um perfil de computação padrão
Para atribuir perfis padrão a um namespace ou instância do Cloud Data Fusion, acesse o Cloud Data Fusion Studio e clique em Administrador do sistema > Configuração > Perfis de computação do sistema. Para selecionar o padrão, clique na estrela ao lado do nome do perfil.
Opcional: use os microsserviços de preferências para definir perfis padrão
- Para definir o perfil padrão, defina uma preferência no Cloud Data Fusion
instância com a chave system.profile.name e o valor
system:<profile-name>
. - Para definir o perfil padrão de um namespace, defina uma preferência no
namespace escolhido com a chave
system.profile.name
e o valor<scope>:<profile-name>
.
Atribuir um perfil de computação para execuções manuais
Para atribuir um perfil a serem usadas em execuções manuais de pipeline, siga estas etapas:
- Navegue até a página de detalhes do pipeline.
- Clique em Configurar > Configuração do Compute.
- Selecione um perfil e clique em Salvar. O perfil selecionado é usado sempre que o pipeline for executado manualmente.
Também é possível usar os microsserviços de "Preferências" para definir o perfil de
execuções manuais definindo a preferência na entidade DataPipelineWorkflow
com a chave
system.profile.name
e o valor <scope>:<profile-name>
.
Atribuir um perfil de computação a uma programação
Sempre que você criar uma programação para um pipeline, poderá atribuir um perfil a ele. Sempre que a programação acionar uma execução de pipeline, ele usará esse perfil para o correr. Isso vale para programações e programações que outros pipelines acionam.
Modificar uma configuração de perfil de computação
Quando um perfil é criado, cada configuração pode ser tornada imutável por meio de bloqueio. No entanto, se as configurações não estiverem bloqueadas, elas poderão ser substituídas no momento da execução. Para substituir a configuração do perfil, siga estas etapas:
- Na página "Lista de pipelines", selecione o pipeline implantado que você quer executar.
- Na página "Detalhes do pipeline", clique em Configurar.
- Escolha um perfil de computação e clique em Personalizar.
- Altere as configurações e clique em Salvar.
É possível usar argumentos de ambiente de execução e propriedades de programação para modificar o cluster tamanho e outras configurações.
- Para substituir o perfil usado, defina um argumento de tempo de execução com a chave
system.profile.name
e o valor<scope>:<profile-name>
. - Para substituir uma propriedade de perfil, defina um argumento do ambiente de execução com a chave
system.profile.properties.<property-name>
e um valor igual ao valor de essa propriedade.
Por exemplo, para substituir o numWorkerssetting
por um valor de 10
, defina uma
preferência ou um argumento de execução com a chave
system.profile.properties.numWorkers
e o valor 10
.
A seguir
- Saiba mais sobre os provisionadores no Cloud Data Fusion.
- Saiba mais sobre a configuração de clusters do Dataproc.