Faça a gestão dos perfis de computação

Um perfil de computação especifica como e onde um pipeline é executado. Incorpora todas as informações necessárias para configurar e eliminar o ambiente de execução físico de um pipeline. Um perfil de computação especifica um nome do aprovisionador e as definições de configuração desse aprovisionador.

Cada perfil de computação tem um âmbito: sistema ou utilizador. Pode usar perfis de computação do sistema para quaisquer espaços de nomes abaixo. Os perfis de computação do utilizador existem num espaço de nomes e apenas os pipelines nesse espaço de nomes podem usar perfis de computação do utilizador. Os perfis de computação podem ser atribuídos a pipelines em lote. Quando um perfil de computação é atribuído a um pipeline, o aprovisionador especificado no perfil é usado para criar um cluster onde o pipeline é executado.

Por exemplo, um administrador pode decidir criar perfis de computação pequenos, médios e grandes. Configuram cada perfil com as credenciais necessárias para criar e eliminar clusters do Dataproc na conta da empresa. Google CloudGoogle Cloud

  • O perfil pequeno está configurado para criar um cluster de 5 nós.
  • O perfil médio está configurado para criar um cluster de 20 nós.
  • O perfil grande está configurado para criar um cluster de 50 nós.

O administrador atribui o perfil pequeno a pipelines agendados para serem executados a cada hora em pequenas quantidades de dados. Atribuem o perfil grande a pipelines agendados para serem executados todos os dias numa grande quantidade de dados.

Perfil de computação predefinido

Por predefinição, o Cloud Data Fusion usa a criação de escala automática como o perfil de computação. Estimar o número adequado de trabalhadores de cluster (nós) para uma carga de trabalho é difícil, e um único tamanho de cluster para um pipeline completo não é, muitas vezes, o ideal. O redimensionamento automático do Dataproc oferece um mecanismo para automatizar a gestão de recursos do cluster e permite o redimensionamento automático da VM de trabalho do cluster. Para mais informações, consulte o artigo Ajuste automático.

Na página Configuração de computação, onde pode ver uma lista de perfis, existe uma coluna Total de núcleos, que tem o número máximo de vCPUs para o qual o perfil pode ser dimensionado, como Up to 84.

Perfis de computação do sistema e do utilizador

Um perfil de computação indica que aprovisionador usar ao criar um cluster e especifica a configuração do cluster. Também especificam a configuração do aprovisionador que deve ser usada quando se cria um cluster.

  • Para criar um perfil de computação do sistema, aceda à página Administrador do sistema no Cloud Data Fusion Studio. Esta página apresenta todos os perfis de computação do sistema e permite-lhe criar novos perfis de computação do sistema.
  • Para criar um perfil de computação do utilizador, aceda à página de administração do espaço de nomes no Cloud Data Fusion Studio e, de seguida, selecione o espaço de nomes no qual quer criar o perfil. Em seguida, pode criar um perfil que existe apenas nesse espaço de nomes.

Atribuição de perfil de computação

Pode atribuir perfis de computação a pipelines em lote das seguintes formas:

  • Atribua um perfil predefinido à instância do Cloud Data Fusion.
  • Atribuir um perfil predefinido a um espaço de nomes específico.
  • Atribua um perfil a um pipeline de processamento em lote para usar em execuções iniciadas manualmente.
  • Atribua um perfil a um horário de pipeline.

Se for definido um perfil na programação que aciona uma execução ou se executar manualmente um pipeline e existir um perfil atribuído a esse pipeline, o Cloud Data Fusion usa esse perfil de computação.

Se não estiver definido nenhum perfil, o Cloud Data Fusion usa o perfil predefinido para o espaço de nomes. Se não estiver definido nenhum perfil predefinido para o espaço de nomes,

O Cloud Data Fusion usa o perfil predefinido do sistema. Se não for definido nenhum valor predefinido do sistema, é usado o perfil incorporado.

Atribua um perfil de computação predefinido

Para atribuir perfis predefinidos a um espaço de nomes ou a uma instância do Cloud Data Fusion, aceda ao Cloud Data Fusion Studio e clique em Administrador do sistema > Configuração > Perfis de computação do sistema. Para selecionar o perfil predefinido, clique na estrela junto ao nome do perfil.

Opcional: use os microsserviços de preferências para definir perfis predefinidos

  • Para definir o perfil predefinido, defina uma preferência na instância do Cloud Data Fusion com a chave system.profile.name e o valor system:<profile-name>.
  • Para definir o perfil predefinido de um espaço de nomes, defina uma preferência no espaço de nomes escolhido com a chave system.profile.name e o valor <scope>:<profile-name>.

Atribua um perfil de computação para execuções manuais

Para atribuir um perfil a usar para execuções manuais de pipelines, siga estes passos:

  1. Navegue para a página de detalhes do pipeline.
  2. Clique em Configurar > Configuração de computação.
  3. Selecione um perfil e clique em Guardar. O perfil selecionado é usado sempre que o pipeline é executado manualmente.

Em alternativa, pode usar os microsserviços de preferências para definir o perfil para execuções manuais definindo a preferência na entidade DataPipelineWorkflow com a chave system.profile.name e o valor <scope>:<profile-name>.

Atribua um perfil de computação a uma programação

Sempre que criar um agendamento para um pipeline, pode atribuir-lhe um perfil. Sempre que o agendamento aciona uma execução do pipeline, usa esse perfil para a execução. Isto aplica-se a horários e horários que outras pipelines acionam.

Substitua uma configuração do perfil de computação

Quando um perfil é criado, cada definição de configuração pode ser tornada imutável através do bloqueio. No entanto, se as definições de configuração não estiverem bloqueadas, podem ser substituídas no momento da execução. Para substituir a configuração do perfil, siga estes passos:

  1. Na página Lista de pipelines, selecione o pipeline implementado que quer executar.
  2. Na página Detalhes do pipeline, clique em Configurar.
  3. Escolha um perfil de computação e clique em Personalizar.
  4. Altere as definições pretendidas e clique em Guardar.

Pode usar argumentos de tempo de execução e propriedades de programação para modificar o tamanho do cluster e outras definições.

  • Para substituir o perfil usado, defina um argumento de tempo de execução com a chave system.profile.namee o valor <scope>:<profile-name>.
  • Para substituir uma propriedade do perfil, defina um argumento de tempo de execução com a chave system.profile.properties.<property-name> e o valor igual ao valor dessa propriedade.

Por exemplo, para substituir o valor numWorkerssetting por 10, defina uma preferência ou um argumento de tempo de execução com a chave system.profile.properties.numWorkers e o valor 10.

O que se segue?