Gerenciar perfis de computação

Um perfil de computação especifica como e onde um pipeline é executado. Ela encapsula qualquer informação necessária para configurar e excluir a infraestrutura física ambiente de execução de um pipeline. Um perfil de computação especifica o nome do provisioner e as definições da configuração desse provisionador.

Cada perfil de computação tem um escopo: sistema ou usuário. É possível usar a computação do sistema para os namespaces abaixo dele. Os perfis de computação do usuário existem em um namespace e apenas os pipelines nesse namespace podem usar os perfis de computação do usuário. Os perfis de computação podem ser atribuídos a pipelines em lote. Quando um perfil de computação atribuído a um pipeline, o provisionador especificado no perfil será usado para criar um cluster em que o pipeline será executado.

Por exemplo, um administrador pode decidir criar contas de pequeno, médio e grande do Compute Engine. Eles configuram cada perfil com o serviço do Google Cloud credenciais necessárias para criar e excluir clusters do Dataproc a conta do Google Cloud da empresa.

  • O perfil pequeno é configurado para criar um cluster de cinco nós.
  • O perfil médio está configurado para criar um cluster de 20 nós.
  • O perfil grande é configurado para criar um cluster de 50 nós.

O administrador atribui o perfil pequeno aos pipelines programados para são executadas a cada hora com pequenos volumes de dados. Ele atribui o perfil grande pipelines que são programados para serem executados todos os dias com uma grande quantidade de dados.

Perfil de computação padrão

Por padrão, o Cloud Data Fusion usa escalonamento automático como perfil de computação. Estimar o número apropriado de workers (nós) de cluster para uma carga de trabalho é difícil, e um único tamanho de cluster para um pipeline inteiro geralmente não é o ideal. O escalonamento automático do Dataproc fornece um mecanismo para automatizar clusters gerenciamento de recursos e permite o escalonamento automático deVM de workers do cluster. Para mais informações, consulte Escalonamento automático.

Na página Configuração de computação, onde é possível conferir uma lista de perfis, há uma coluna Total de núcleos, que tem o número máximo de vCPUs que o perfil pode escalonar como Up to 84.

Perfis de computação do sistema e do usuário

Um perfil de computação indica qual provisionador usar ao criar um cluster e especifica a configuração do cluster. Eles também especificam o provisionador configuração que precisa ser usada ao criar um cluster.

  • Para criar um perfil de computação do sistema, acesse a página Administrador do sistema em o Cloud Data Fusion Studio. Esta página lista todos os perfis de computação do sistema e permite criar novos perfis de computação do sistema.
  • Para criar um perfil de computação do usuário, acesse Namespace Administração no Cloud Data Fusion Studio e selecione a namespace para criar o perfil. Em seguida, crie um perfil que existe apenas nesse namespace.

Atribuição do perfil de computação

É possível atribuir perfis de computação a pipelines em lote das seguintes maneiras:

  • Atribuir um perfil padrão para a instância do Cloud Data Fusion.
  • Atribuir um perfil padrão para um namespace específico.
  • Atribuir um perfil a um pipeline em lote para usar em execuções iniciadas manualmente.
  • Atribuir um perfil a uma programação de pipeline.

Se um perfil for definido na programação que aciona uma execução ou se você executar manualmente um pipeline e há um perfil atribuído a ele, O Cloud Data Fusion usa esse perfil de computação.

Se nenhum perfil for definido, o Cloud Data Fusion vai usar o perfil padrão para a . Se nenhum perfil padrão for definido para o namespace,

O Cloud Data Fusion usa o perfil padrão do sistema. Se nenhum padrão do sistema for o perfil integrado será usado.

Atribuir um perfil de computação padrão

Para atribuir perfis padrão a um namespace ou instância do Cloud Data Fusion, acesse o Cloud Data Fusion Studio e clique em Administrador do sistema > Configuração > Perfis de computação do sistema. Para selecionar padrão, clique na estrela ao lado do perfil nome.

Opcional: usar os microsserviços de Preferências para definir perfis padrão

  • Para definir o perfil padrão, defina uma preferência no Cloud Data Fusion instância com a chave system.profile.name e o valor system:<profile-name>.
  • Para definir o perfil padrão de um namespace, defina uma preferência no namespace escolhido com a chave system.profile.name e o valor <scope>:<profile-name>.

Atribuir um perfil de computação para execuções manuais

Para atribuir um perfil a ser usado em execuções manuais de pipelines, siga estas etapas:

  1. Navegue até a página de detalhes do pipeline.
  2. Clique em Configurar > Configuração do Compute.
  3. Selecione um perfil e clique em Salvar. O perfil selecionado é usado sempre que o pipeline for executado manualmente.

Você também pode usar os microsserviços Preferences para definir o perfil do execuções manuais definindo a preferência na entidade DataPipelineWorkflow com a chave system.profile.name e o valor <scope>:<profile-name>.

Atribuir um perfil de computação a uma programação

Sempre que você cria uma programação para um pipeline, é possível atribuir um perfil a ele. Sempre que a programação acionar uma execução de pipeline, ele usará esse perfil para o correr. Isso é válido para cronogramas de tempo e programações que outros pipelines gatilho.

Substituir a configuração de um perfil de computação

Quando um perfil é criado, cada definição pode ser imutável ao bloqueá-lo. No entanto, se as definições de configuração não estiverem bloqueadas, é possível substituído no tempo de execução. Para substituir a configuração do perfil, siga estas etapas:

  1. Na página "Lista de pipelines", selecione o pipeline implantado que você quer executar.
  2. Na página "Detalhes do pipeline", clique em Configurar.
  3. Escolha um perfil de computação e clique em Personalizar.
  4. Altere as configurações e clique em Salvar.

É possível usar argumentos de ambiente de execução e propriedades de programação para modificar o cluster tamanho e outras configurações.

  • Para substituir o perfil usado, defina um argumento do ambiente de execução com a chave system.profile.namee o valor <scope>:<profile-name>.
  • Para substituir uma propriedade de perfil, defina um argumento do ambiente de execução com a chave system.profile.properties.<property-name> e um valor igual ao valor de essa propriedade.

Por exemplo, para substituir numWorkerssetting por um valor de 10, defina um de preferência ou de ambiente de execução com a chave system.profile.properties.numWorkers e o valor 10.

A seguir