Gerenciar perfis de computação

Um perfil de computação especifica como e onde um pipeline é executado. Ela encapsula qualquer informação necessária para configurar e excluir a infraestrutura física ambiente de execução de um pipeline. Um perfil de computação especifica um nome de provisionador e as configurações para esse provisionador.

Cada perfil de computação tem um escopo: sistema ou usuário. É possível usar perfis de computação do sistema para qualquer namespace abaixo dele. Os perfis de computação do usuário existem em um namespace, e somente pipelines nesse namespace podem usar perfis de computação do usuário. Os perfis de computação podem ser atribuídos a pipelines em lote. Quando um perfil de computação atribuído a um pipeline, o provisionador especificado no perfil será usado para criar um cluster em que o pipeline será executado.

Por exemplo, um administrador pode decidir criar perfis de computação pequenos, médios e grandes. Eles configuram cada perfil com o serviço do Google Cloud credenciais necessárias para criar e excluir clusters do Dataproc a conta do Google Cloud da empresa.

  • O perfil pequeno é configurado para criar um cluster de cinco nós.
  • O perfil médio está configurado para criar um cluster de 20 nós.
  • O perfil grande é configurado para criar um cluster de 50 nós.

O administrador atribui o perfil pequeno aos pipelines programados para são executadas a cada hora com pequenos volumes de dados. Eles atribuem o perfil grande a pipelines programados para serem executados todos os dias em uma grande quantidade de dados.

Perfil de computação padrão

Por padrão, o Cloud Data Fusion usa o Autoscale como o perfil de computação. Estimar o número apropriado de workers (nós) de cluster para uma carga de trabalho é difícil, e um único tamanho de cluster para um pipeline inteiro geralmente não é o ideal. O escalonamento automático do Dataproc fornece um mecanismo para automatizar o gerenciamento de recursos do cluster e ativar o escalonamento automático da VM de worker do cluster. Para mais informações, consulte Escalonamento automático.

Na página Configuração de computação, onde é possível conferir uma lista de perfis, há uma coluna Total de núcleos, que tem o número máximo de vCPUs que o perfil pode escalonar como Up to 84.

Perfis de computação do sistema e do usuário

Um perfil de computação indica qual provisionador usar ao criar um cluster e especifica a configuração do cluster. Eles também especificam a configuração do provisionador que deve ser usada ao criar um cluster.

  • Para criar um perfil de computação do sistema, acesse a página Administrador do sistema em o Cloud Data Fusion Studio. Esta página lista todos os perfis de computação do sistema e permite criar novos perfis de computação do sistema.
  • Para criar um perfil de computação do usuário, acesse a página Administração de espaço de nome no Cloud Data Fusion Studio e selecione o espaço de nome em que o perfil será criado. Em seguida, crie um perfil que existe apenas nesse namespace.

Atribuição de perfil de computação

É possível atribuir perfis de computação a pipelines em lote das seguintes maneiras:

  • Atribua um perfil padrão à instância do Cloud Data Fusion.
  • Atribuir um perfil padrão a um namespace específico.
  • Atribuir um perfil a um pipeline em lote para usar em execuções iniciadas manualmente.
  • Atribuir um perfil a uma programação de pipeline.

Se um perfil for definido na programação que aciona uma execução ou se você executar manualmente um pipeline e há um perfil atribuído a ele, O Cloud Data Fusion usa esse perfil de computação.

Se nenhum perfil for definido, o Cloud Data Fusion vai usar o perfil padrão para a . Se nenhum perfil padrão for definido para o namespace,

O Cloud Data Fusion usa o perfil padrão do sistema. Se nenhum padrão do sistema for definido, o perfil integrado é usado.

Atribuir um perfil de computação padrão

Para atribuir perfis padrão a um namespace ou instância do Cloud Data Fusion, acesse o Cloud Data Fusion Studio e clique em Administrador do sistema > Configuração > Perfis de computação do sistema. Para selecionar o padrão, clique na estrela ao lado do nome do perfil.

Opcional: use os microsserviços de preferências para definir perfis padrão

  • Para definir o perfil padrão, defina uma preferência no Cloud Data Fusion instância com a chave system.profile.name e o valor system:<profile-name>.
  • Para definir o perfil padrão de um namespace, defina uma preferência no namespace escolhido com a chave system.profile.name e o valor <scope>:<profile-name>.

Atribuir um perfil de computação para execuções manuais

Para atribuir um perfil a serem usadas em execuções manuais de pipeline, siga estas etapas:

  1. Navegue até a página de detalhes do pipeline.
  2. Clique em Configurar > Configuração do Compute.
  3. Selecione um perfil e clique em Salvar. O perfil selecionado é usado sempre que o pipeline for executado manualmente.

Também é possível usar os microsserviços de "Preferências" para definir o perfil de execuções manuais definindo a preferência na entidade DataPipelineWorkflow com a chave system.profile.name e o valor <scope>:<profile-name>.

Atribuir um perfil de computação a uma programação

Sempre que você criar uma programação para um pipeline, poderá atribuir um perfil a ele. Sempre que a programação acionar uma execução de pipeline, ele usará esse perfil para o correr. Isso vale para programações e programações que outros pipelines acionam.

Modificar uma configuração de perfil de computação

Quando um perfil é criado, cada configuração pode ser tornada imutável por meio de bloqueio. No entanto, se as configurações não estiverem bloqueadas, elas poderão ser substituídas no momento da execução. Para substituir a configuração do perfil, siga estas etapas:

  1. Na página "Lista de pipelines", selecione o pipeline implantado que você quer executar.
  2. Na página "Detalhes do pipeline", clique em Configurar.
  3. Escolha um perfil de computação e clique em Personalizar.
  4. Altere as configurações e clique em Salvar.

É possível usar argumentos de ambiente de execução e propriedades de programação para modificar o cluster tamanho e outras configurações.

  • Para substituir o perfil usado, defina um argumento de tempo de execução com a chave system.profile.namee o valor <scope>:<profile-name>.
  • Para substituir uma propriedade de perfil, defina um argumento do ambiente de execução com a chave system.profile.properties.<property-name> e um valor igual ao valor de essa propriedade.

Por exemplo, para substituir o numWorkerssetting por um valor de 10, defina uma preferência ou um argumento de execução com a chave system.profile.properties.numWorkers e o valor 10.

A seguir