Esta página foi traduzida pela API Cloud Translation.

Workers secundários do Dataproc

Além de usar as VMs padrão do Compute Engine como workers do Dataproc (chamados de workers "principais"), os clusters do Dataproc podem usar workers secondary.

As seguintes características se aplicam a todos os workers secundários em um cluster do Dataproc:

Somente processamento: workers secundários não armazenam dados. Elas só funcionam como nós de processamento. Portanto, você pode usar workers secundários para escalonar a computação sem escalonar o armazenamento.
Nenhum cluster secondary-worker-only: o cluster precisa ter workers principais. Se você criar um cluster e não especificar o número de workers principais, o Dataproc adicionará dois workers principais ao cluster.
Tipo de máquina: por padrão, os workers secundários usam o tipo de máquina dos workers principais do cluster. Por exemplo, se você criar um cluster com workers principais que usam tipos de máquina n1-standard-4, por padrão, todos os workers secundários adicionados ao cluster também usarão máquinas n1-standard-4.

Em vez de usar o tipo de máquina de worker principal padrão para workers secundários, é possível especificar uma ou mais listas classificadas de tipos de máquina para workers secundários. Consulte VMs flexíveis do Dataproc para mais informações.
Tamanho do disco permanente: por padrão, os workers secundários são criados com menos de 1.000 GB ou com o tamanho do disco de inicialização do worker principal. Esse espaço em disco é usado para armazenamento em cache local de dados e não está disponível por meio do HDFS. É possível substituir o tamanho padrão do disco com o comando gcloud dataproc clusters create --secondary-worker-boot-disk-size na criação do cluster. É possível especificar essa flag mesmo que o cluster não tenha workers secundários no momento da criação.
Criação assíncrona: quando você adiciona workers secundários criando ou escalonando um cluster, eles podem não ser provisionados no momento em que a operação de criação ou atualização é concluída. Isso ocorre porque o Dataproc gerencia workers secundários usando grupos gerenciados de instâncias (MIGs), que criam VMs de forma assíncrona assim que podem ser provisionadas (consulte Como verificar o status de instâncias gerenciadas).

Workers secundários preemptivos e não preemptivos

Há três tipos de workers secundários: VMs Spot, VMs preemptivas padrão e VMs não preemptivas. O tipo de worker secundário padrão do Dataproc é a VM preemptiva padrão. É possível especificar uma combinação de workers secundários spot e não preemptivos.

Exemplo: se você selecionar três workers secundários ao criar um cluster, poderá especificar três VMs do Spot, três VMs preemptivas, três VMs não preemptivas ou uma combinação de workers do Spot e não preemptivos.

Workers preemptivos

Embora a possível remoção de workers preemptivos possa afetar a estabilidade do job, convém usar instâncias preemptivas para reduzir os custos de computação por hora para processamento de dados não críticos ou para criar clusters muito grandes com um custo total menor. Use a calculadora de preços do Google Cloud para estimar os custos.
Para ter melhores resultados, o número de workers preemptivos no cluster precisa ser menor que 50% do número total de todos os workers (principais e todos os secundários) do cluster.
Ao usar workers preemptivos, os jobs provavelmente vão apresentar um número maior de falhas transitórias de tarefas de workers únicos em comparação a jobs executados em workers não preemptivos. Para aumentar a tolerância do job a falhas de tarefas de nível inferior, defina valores de propriedade de cluster semelhantes aos valores de propriedade padrão usados com clusters de escalonamento automático para aumentar o número máximo de novas tentativas das tarefas e evitar falhas de jobs.

Dica: considere usar o modo de flexibilidade aprimorado se você estiver usando VMs preemptivas com o Spark.
Consideração sobre economia de custos:o uso de VMs preemptivas nem sempre economiza custos, já que as remoções podem causar uma execução mais longa do job, resultando em custos mais altos. Embora o uso do modo de flexibilidade aprimorado (EFM) com VMs preemptivas possa ajudar a reduzir esse resultado, a economia geral de custos das VMs preemptivas varia de acordo com cada caso de uso. Em geral, jobs de curta duração são mais adequados para o uso de VM preemptiva, já que a probabilidade de preempções durante a execução do job é menor. Teste diferentes opções de jobs, como VMs preemptivas e não preemptivas com EFM, para estimar custos e chegar à melhor solução.

Workers não preemptivos

É possível criar um cluster com workers secundários não preemptivos para escalonar a computação sem prejudicar a estabilidade do job. Para isso, especifique non-preemptible como o tipo de worker secundário. É possível misturar workers secundários não preemptivos com spot.

Selecionar workers secundários

Você pode especificar o número e o tipo de workers secundários ao criar um cluster usando o console doGoogle Cloud , a CLI gcloud ou a API Dataproc.

É possível misturar spot com workers secundários não preemptivos.
É possível atualizar seu cluster depois que ele é criado para alterar o número, mas não o tipo, de workers secundários no cluster.
As atualizações de rótulos são propagadas para todos os workers secundários preemptivos em 24 horas. As atualizações de rótulo não se propagam para workers secundários não preemptivos atuais. As atualizações de rótulo se propagam para todos os workers adicionados a um cluster após uma atualização de rótulo. Por exemplo, se você escalonar o cluster, todos os novos workers principais e secundários terão os novos rótulos.

Console

Você pode especificar o número de workers secundários ao criar um cluster do Dataproc no console Google Cloud . Após a criação de um cluster, você pode adicionar e remover workers secundários editando a configuração do cluster no consoleGoogle Cloud .

Criar um cluster com workers secundários

Defina o número e o tipo de workers secundários a serem aplicados a um novo cluster na seção Nós de workers secundários do painel Configurar nós na página Criar um cluster do Dataproc no Google Cloud console. Especifique o número e o tipo de workers secundários nos campos Nós de workers secundários e Capacidade de preempção, respectivamente.

Atualizar um cluster com instâncias secundárias

Para atualizar o número de workers secundários em um cluster, clique no nome do cluster na página Clusters do console Google Cloud . Na página Detalhes do cluster. Clique na guia **Configuração**, depois em Editar e atualize o número no campo "Nós de workers secundários".

Remover todas as instâncias secundárias de um cluster

Para remover todos os workers secundários de um cluster, atualize a configuração do cluster conforme explicado acima, especificando 0 no campo "Nós de workers secundários".

Comando da Google Cloud CLI

Use o comando gcloud dataproc clusters create para adicionar workers secundários a um cluster quando ele for criado. Depois que um cluster é criado, é possível adicionar ou remover workers secundários dele com o comando gcloud dataproc clusters update (o número, mas não o tipo de workers secundários, pode ser atualizado).

Criar um cluster com workers secundários

Para criar um cluster com workers secundários, use o comando gcloud dataproc clusters create com o argumento --num-secondary-workers. Os workers secundários são VMs preemptivas padrão por padrão. É possível especificar workers secundários não preemptivos ou spot ao criar um cluster definindo a flag --secondary-worker-type como "non-preemptible" ou "spot". Os exemplos a seguir mostram como criar um cluster com cada tipo de worker secundário: "preemptible" (padrão), spot (preemptivo) e não preemptivo. É possível usar outras flags para misturar spot com workers secundários não preemptivos.

Exemplo 1

O comando a seguir cria "cluster1" com dois workers secundários preemptivos padrão (tipo padrão).

gcloud dataproc clusters create cluster1 \
    --num-secondary-workers=2 \
    --region=us-central1

Exemplo 2

O comando a seguir usa a flag secondary-worker-type para criar "cluster2" com dois workers secundários spot (preemptivos).

gcloud dataproc clusters create cluster2 \
    --num-secondary-workers=2 \
    --secondary-worker-type=spot \
    --region=us-central1

Exemplo 3:

O comando a seguir usa a flag secondary-worker-type para criar "cluster3" com dois workers secundários não preemptivos.

gcloud dataproc clusters create cluster3 \
    --num-secondary-workers=2 \
    --secondary-worker-type=non-preemptible \
    --region=us-central1

Mude o tamanho do disco de inicialização do worker secundário. Por padrão, todos os workers secundários são criados com o menor disco de 1.000 GB ou com o tamanho do disco de inicialização do worker principal. Esse espaço em disco é usado para armazenamento em cache local de dados e não está disponível por meio do HDFS. É possível substituir o tamanho padrão do disco com o comando gcloud dataproc clusters create --secondary-worker-boot-disk-size na criação do cluster. Essa flag pode ser especificada mesmo que o cluster não tenha workers secundários no momento da criação. Deixe o console Google Cloud construir sua solicitação de criação de cluster. Você pode clicar nos links de REST equivalente ou linha de comando na parte de baixo do painel esquerdo da página Criar um cluster do Dataproc para que o Google Cloud console crie uma solicitação REST de API equivalente ou um comando da ferramenta gcloud.

Atualizar um cluster com workers secundários

Para atualizar um cluster e adicionar ou remover workers secundários, use o comando gcloud dataproc clusters update com a flag --num-secondary-workers.

Exemplo

O comando a seguir atualiza example-cluster para usar quatro workers secundários (do tipo padrão ou do tipo especificado ao criar o cluster).

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=4 \
    --region=us-central1

Remover todos os workers secundários de um cluster

Para remover todos os workers secundários de um cluster, use o comando gcloud dataproc clusters update com --num-secondary-workers definido como 0.

Exemplo

O comando a seguir remove todos os workers secundários de "example-cluster".

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=0 \
    --region=us-central1

API REST

Criar um cluster com workers secundários

Use a API clusters.create do Dataproc para adicionar workers secundários a um cluster quando ele for criado. Os exemplos a seguir mostram como criar um cluster com cada tipo de worker secundário: preemptible (padrão), spot (preemptível) e non-preemptible. Você pode usar outros campos para misturar spot com workers secundários não preemptivos.

Exemplo 1

A solicitação POST a seguir cria um "cluster1" com dois workers de VM preemptivos padrão (tipo padrão).


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster1",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2
    }
  }
}

Exemplo 2

A solicitação POST a seguir cria um "cluster2" com dois workers de VM spot (preemptivos).


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster2",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "SPOT"
    }
  }
}

Exemplo 3:

A solicitação POST a seguir cria "cluster3" com dois workers secundários não preemptivos.


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster3",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "NON_PREEMPTIBLE"
    }
  }
}

Atualizar um cluster com workers secundários

Use a API clusters.patch do Dataproc para adicionar e remover workers secundários.

Exemplo

A seguinte solicitação PATCH atualiza um cluster para ter quatro workers secundários (do tipo padrão ou especificado ao criar o cluster).


PATCH /v1/projects/project-id/regions/region/clusters/cluster-name?updateMask=config.secondary_worker_config.num_instances
{
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 4
    }
  }
}

Deixe o console Google Cloud construir sua solicitação de criação de cluster. Você pode clicar nos links REST equivalente ou linha de comando na parte de baixo do painel esquerdo da página Criar um cluster do Dataproc para que o console Google Cloud crie uma solicitação REST de API equivalente ou um comando da CLI gcloud.

Resolver problemas de workers secundários

Problemas de permissão da conta de serviço:os workers secundários são criados por um grupo gerenciado de instâncias. Se houver um problema de permissão, os registros do Dataproc não vão informar a falha na criação de workers secundários, mas os workers com falha serão listados na guia Instâncias de VM da página Detalhes do cluster no console doGoogle Cloud sem uma marca de seleção verde. Para ver a listagem, abra a página Clusters do Dataproc e clique no nome do cluster para abrir a página Detalhes do cluster.
Problemas de permissões do grupo gerenciado de instâncias:para verificar se há um problema com as permissões do grupo gerenciado de instâncias:
1. Encontre o nome do grupo gerenciado de instâncias (instanceGroupManagerName).
  Console
  1. Abra a página Clusters do Dataproc e clique no nome do cluster para abrir a página Detalhes do cluster.
  2. Clique em REST equivalente na parte de baixo da página e confira o valor de config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName.
  CLI do Google Cloud
  Execute o comando gcloud dataproc clusters describe com a flag --format para mostrar o instanceGroupManagerName.
  gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION \ --format='value(config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName)'
  API REST
  Envie uma solicitação clusters.get para retornar o valor de config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName.
2. Consulte os registros no Explorador de registros.
- Selecione o tipo de recurso Google Compute Engine Instance Group e filtre pelo nome do grupo gerenciado de instâncias.
- Como alternativa, aplique um filtro de geração de registros para `resource.type="gce_instance_group" and resource.labels.instance_group_name=INSTANCE_GROUP_MANAGER_NAME.

Misturar spot com workers secundários não preemptivos

É possível especificar uma combinação de workers secundários spot e não preemptivos ao criar um cluster do Dataproc.

Configurações de worker secundário para misturar spot com workers secundários não preemptivos

Use as seguintes configurações de worker secundário ao criar um cluster do Dataproc para ter um nível mínimo de capacidade de worker secundário com a capacidade de aumentar a capacidade quando as VMs Spot estiverem disponíveis:

Número de workers secundários:o número total de workers secundários a serem provisionados.
Tipo de worker secundário:spot é o tipo de worker secundário ao misturar Spot com workers secundários não preemptivos.
standardCapacityBase:o número de workers secundários não preemptivos (padrão) a serem provisionados. Os workers secundários não preemptivos são provisionados antes de outros tipos de workers secundários.
standardCapacityPercentAboveBase:depois que o número standardCapacityBase de workers secundários é preenchido, o número restante de workers secundários necessários para atender ao número total de workers secundários solicitados é preenchido com uma combinação de VMs não preemptivas e spot da seguinte maneira:
- standardCapacityPercentAboveBase: a porcentagem dos trabalhadores secundários restantes a serem preenchidos com VMs não preemptivas.
- O número restante necessário para atender ao número total de trabalhadores secundários solicitados é preenchido com VMs spot.

Exemplo:

Número de workers secundários: 15
standardCapacityBase: 5
standardCapacityPercentAboveBase 30%

Resultado:

Não preemptível: 8 = 5 (standardCapacityBase) + 3 (30% dos 10 restantes)
Vaga: 7 (70% das 10 restantes)
Total = 15

Criar um cluster com uma combinação de workers secundários Spot e não preemptivos

É possível usar a CLI gcloud ou a API Dataproc para misturar spot com workers secundários não preemptivos ao criar um cluster.

gcloud

Execute o comando a seguir localmente ou no Cloud Shell para criar um cluster com uma combinação de workers secundários spot e não preemptivos.

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --secondary-worker-type=spot \
    --num-secondary-workers=NUMBER_SECONDARY_WORKERS \
    --secondary-worker-standard-capacity-base=STANDARD_CAPACITY_BASE \
    --secondary-worker-standard-capacity-percent-above-base=STANDARD_CAPACITY_PERCENT_ABOVE_BASE \
    OTHER_FLAGS_AS_NEEDED

Observações:

CLUSTER_NAME: o nome do novo cluster.
PROJECT_ID: o ID do projeto do Google Cloud . Os IDs do projeto estão listados na seção Informações do projeto do painel do console Google Cloud .
REGION: uma região do Compute Engine disponível para executar a carga de trabalho.
--secondary-worker-type: ao misturar workers secundários Spot e não preemptivos, especifique o tipo de worker secundário como spot.
STANDARD_CAPACITY_BASE e STANDARD_CAPACITY_PERCENT_ABOVE_BASE: consulte Configurações de worker secundário para misturar spot com workers secundários não preemptivos.
OTHER_FLAGS_AS_NEEDED: consulte gcloud dataproc clusters create.

API

Para misturar workers secundários spot e não preemptivos, defina os campos da API Dataproc preemptibility, standardCapacityBase e standardCapacityPercentAboveBase como parte de uma solicitação cluster.create, conforme mostrado no exemplo JSON a seguir:

{
  "clusterName": "CLUSTER_NAME",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 15,
      "preemptibility": "spot",
      "instanceFlexibilityPolicy": {
        "provisioningModelMix": {
          "standardCapacityBase": STANDARD_CAPACITY_BASE
          "standardCapacityPercentAboveBase": STANDARD_CAPACITY_PERCENT_ABOVE_BASE
        }
      }
    }
  }
}

Observações:

CLUSTER_NAME: o nome do novo cluster.
preemptibility: ao misturar workers secundários spot e não preemptivos, especifique spot.
STANDARD_CAPACITY_BASE e STANDARD_CAPACITY_PERCENT_ABOVE_BASE: consulte Configurações de worker secundário para misturar spot com workers secundários não preemptivos.

Combinar a mistura de workers secundários com VMs flexíveis

É possível misturar workers secundários spot e não preemptivos e especificar formatos flexíveis de VM para workers secundários ao criar um cluster.

Exemplo da CLI gcloud:

gcloud dataproc clusters create cluster-name \
    --project=project-id \
    --region=us-central1 \
    --secondary-worker-type=spot \
    --num-secondary-workers=15 \
    --secondary-worker-standard-capacity-base=5 \
    --secondary-worker-standard-capacity-percent-above-base=30 \
    --secondary-worker-machine-types="type=n2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=e2-standard-8,type=t2d-standard-8,rank=1"
    ...other flags as needed

Características de combinação de workers secundários

Esta seção descreve alguns dos comportamentos e características associados à mistura de workers secundários spot e não preemptivos.

Preferência de worker secundário

O Dataproc não dá preferência a VMs spot ou não preemptivas ao programar aplicativos em workers secundários.

Escalonamento de workers secundários

Quando os workers secundários são escalonados usando o escalonamento automático ou manual, o Dataproc mantém a proporção spot para não preemptivo solicitada ao adicionar workers secundários.

Como atualizar as configurações de combinação de workers secundários

Você especifica a combinação de workers secundários spot e não preemptivos ao criar um cluster do Dataproc. Não é possível mudar as configurações de combinação de trabalhadores secundários depois de criar o cluster.

Preempção de worker secundário do Spot

O Dataproc não controla o tempo de preempção das VMs spot (consulte Preempção de VMs spot).
Quando ocorre uma preempção spot, o grupo de trabalho secundário pode ser executado com capacidade reduzida temporariamente até que o Compute Engine faça o reprovisionamento das VMs preemptadas.
O Dataproc não adiciona capacidade a um grupo de workers secundários além das configurações iniciais do grupo.

Workers secundários do Dataproc Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Workers secundários preemptivos e não preemptivos

Workers preemptivos

Workers não preemptivos

Selecionar workers secundários

Console

Criar um cluster com workers secundários

Atualizar um cluster com instâncias secundárias

Remover todas as instâncias secundárias de um cluster

Comando da Google Cloud CLI

Criar um cluster com workers secundários

Atualizar um cluster com workers secundários

Remover todos os workers secundários de um cluster

API REST

Criar um cluster com workers secundários

Atualizar um cluster com workers secundários

Resolver problemas de workers secundários

Console

CLI do Google Cloud

API REST

Misturar spot com workers secundários não preemptivos

Configurações de worker secundário para misturar spot com workers secundários não preemptivos

Criar um cluster com uma combinação de workers secundários Spot e não preemptivos

gcloud

API

Combinar a mistura de workers secundários com VMs flexíveis

Características de combinação de workers secundários

Preferência de worker secundário

Escalonamento de workers secundários

Como atualizar as configurações de combinação de workers secundários

Preempção de worker secundário do Spot

Workers secundários do Dataproc