Propriedades do provisionador do Dataproc

O provisionador do Dataproc no Cloud Data Fusion chama a API do Dataproc para criar e excluir clusters nos projetos Google Cloud. É possível configurar os clusters nas configurações do provisionador.

Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Dataproc, consulte Compatibilidade de versões.

Propriedades

Propriedade Descrição
ID do projeto O Google Cloud projeto em que o cluster do Dataproc é criado. O projeto precisa ter a API Dataproc ativada.
Chave da conta de serviço do criador

A chave da conta de serviço fornecida ao provisionador precisa ter permissão para acessar as APIs Dataproc e Compute Engine. Como a chave da conta é sensível, recomendamos que você forneça a chave da conta usando o armazenamento seguro.

Depois de criar a chave segura, é possível adicioná-la a um namespace ou a um perfil de computação do sistema. Para um perfil de computação de namespace, clique no escudo e selecione a chave segura. Para um perfil de computação do sistema, insira o nome da chave no campo Secure Account Key.

Região Um local geográfico onde você pode hospedar seus recursos, como os nós de computação do cluster do Dataproc.
Zona Uma área de implantação isolada em uma região.
Rede A rede VPC no projeto Google Cloud que será usada ao criar um cluster do Dataproc.
ID do projeto host da rede Se a rede estiver em outro projeto Google Cloud , insira o ID dele. Para uma VPC compartilhada, insira o ID do projeto host em que a rede está.
Sub-rede A sub-rede a ser usada ao criar clusters. Ele precisa estar na rede especificada e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona.
Conta de serviço do runner O nome da conta de serviço das máquinas virtuais (VMs) do Dataproc usadas para executar programas. Se o campo ficar em branco, a conta de serviço padrão do Compute Engine será usada.
Número de mestres

O número de nós mestres no cluster. Esses nós contêm o YARN Resource Manager, o HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3.

O padrão é 1.

Tipo de máquina mestre

O tipo de máquina mestre a ser usada. Selecione um dos seguintes tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos mestre

Número de núcleos virtuais alocados a um nó mestre.

O padrão é 2.

Memória principal (GB)

A quantidade de memória, em gigabytes, alocada para um nó mestre.

O padrão é 8 GB.

Tamanho do disco mestre (GB)

Tamanho do disco, em gigabytes, alocado para um nó mestre.

O padrão é 1.000 GB.

Tipo de disco mestre

Tipo de disco de inicialização para um nó mestre:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é Disco permanente padrão.

Tipo de máquina do worker

O tipo de máquina de trabalho a ser usada. Selecione um dos seguintes tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Cores de worker

Número de núcleos virtuais alocados a um nó de trabalho.

O padrão é 2.

Memória do worker (GB)

A quantidade de memória, em gigabytes, alocada para um nó de trabalho.

O padrão é 8 GB.

Tamanho do disco do worker (GB)

Tamanho do disco, em gigabytes, alocado para um nó de worker.

O padrão é 1.000 GB.

Tipo de disco do worker

Tipo de disco de inicialização para um nó de trabalho:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é Disco permanente padrão.

Usar o escalonamento automático predefinido Permite o uso do escalonamento automático predefinido do Dataproc.
Número de workers principais

Os nós de worker contêm um YARN NodeManager e um HDFS DataNode.

O padrão é 2.

Número de trabalhadores secundários Os nós de worker secundários contêm um YARN NodeManager, mas não um DataNode do HDFS. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exija um valor maior.
Política de escalonamento automático

Caminho para o ID da política de escalonamento automático ou o URI do recurso.

Para informações sobre como configurar e usar o escalonamento automático do Dataproc para redimensionar de forma automática e dinâmica os clusters e atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonamento automático de clusters do Dataproc.

Metadados Metadados adicionais para instâncias em execução no cluster. Normalmente, ele é usado para rastrear faturamento e chargebacks. Para mais informações, consulte Metadados do cluster.
Tags de rede Atribua tags de rede para aplicar regras de firewall aos nós específicos de um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula ou um número.
Ativar a inicialização segura

Ativa a inicialização segura nas VMs do Dataproc.

O padrão é False.

Ativar o vTPM

Ativa o módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc.

O padrão é False.

Ativar o monitoramento de integridade

Ativa o Monitoramento de integridade virtual nas VMs do Dataproc.

O padrão é False.

Versão da imagem A versão da imagem do Dataproc. Se ficar em branco, uma será selecionada automaticamente. Se a propriedade URI da imagem personalizada for deixada em branco, ela será ignorada.
URI de imagem personalizada O URI da imagem do Dataproc. Se ficar em branco, será inferido da propriedade Versão da imagem.
Bucket de preparo Bucket do Cloud Storage usado para preparar dependências de jobs e arquivos de configuração para executar pipelines no Dataproc.
Bucket temporário

Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Dataproc.

Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.

Nome da chave de criptografia A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Dataproc.
Escopos do OAuth

Os escopos do OAuth 2.0 que você pode precisar solicitar para acessar as APIs do Google, dependendo do nível de acesso necessário. O Google Cloud Escopo da plataforma é sempre incluído.

Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.

Ações de inicialização Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage.
Propriedades do cluster Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster.
Rótulos comuns

Rótulos para organizar os clusters e jobs do Dataproc que estão sendo criados.

É possível rotular cada recurso e filtrar os recursos por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes classifiquem as cobranças de faturamento por rótulo.

Tempo máximo de inatividade

Configure o Dataproc para excluir um cluster se ele ficar inativo por mais tempo do que o número especificado de minutos. Os clusters normalmente são excluídos logo após o término de uma execução, mas a exclusão pode falhar em situações raras. Para mais informações, consulte Resolver problemas ao excluir clusters.

O padrão é de 30 minutos.

Ignorar a exclusão do cluster

Se a exclusão do cluster será ignorada no final de uma execução. É necessário excluir clusters manualmente. Use isso apenas para depurar uma execução com falha.

O padrão é False.

Ativar a integração do Stackdriver Logging

Ative a integração de geração de registros do Stackdriver.

O padrão é True.

Ativar a integração do Stackdriver Monitoring

Ative a integração do Stackdriver Monitoring.

O padrão é True.

Ativar o gateway de componentes

Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer.

O padrão é False.

Preferir IP externo

Quando o sistema está em execução em Google Cloud na mesma rede do cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True.

O padrão é False.

Criar um atraso na enquete

O número de segundos de espera após a criação de um cluster para iniciar a sondagem e verificar se o cluster foi criado.

O padrão é 60 segundos.

As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado ao criar e excluir clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, mude essas configurações.

Criar jitter de enquete

Quantidade máxima de jitter aleatório, em segundos, para adicionar ao atraso ao criar um cluster. É possível usar essa propriedade para evitar muitas chamadas de API simultâneas em Google Cloud quando você tem muitos pipelines programados para serem executados ao mesmo tempo.

O padrão é 20 segundos.

Excluir atraso da pesquisa

O número de segundos a serem aguardados após a exclusão de um cluster para iniciar a pesquisa e conferir se o cluster foi excluído.

O padrão é 30 segundos.

Intervalo de pesquisa

O número de segundos para aguardar entre as pesquisas de status do cluster.

O padrão é 2.

Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON

Nome da propriedade da interface do perfil do Dataproc Nome da propriedade JSON do perfil do Dataproc
Rótulo do perfil name
Nome do perfil label
Descrição description
ID do projeto projectId
Chave da conta de serviço do criador accountKey
Região region
Zona zone
Rede network
ID do projeto host da rede networkHostProjectId
Sub-rede subnet
Conta de serviço do runner serviceAccount
Número de mestres masterNumNodes
Tipo de máquina mestre masterMachineType
Núcleos mestre masterCPUs
Memória principal (GB) masterMemoryMB
Tamanho do disco mestre (GB) masterDiskGB
Tipo de disco mestre masterDiskType
Número de workers principais workerNumNodes
Número de trabalhadores secundários secondaryWorkerNumNodes
Tipo de máquina do worker workerMachineType
Cores de worker workerCPUs
Memória do worker (GB) workerMemoryMB
Tamanho do disco do worker (GB) workerDiskGB
Tipo de disco do worker workerDiskType
Metadados clusterMetaData
Tags de rede networkTags
Ativar a inicialização segura secureBootEnabled
Ativar o vTPM vTpmEnabled
Ativar o monitoramento de integridade integrityMonitoringEnabled
Versão da imagem imageVersion
URI de imagem personalizada customImageUri
Bucket do Cloud Storage gcsBucket
Nome da chave de criptografia encryptionKeyName
Política de escalonamento automático autoScalingPolicy
Ações de inicialização initActions
Propriedades do cluster clusterProperties
Marcadores clusterLabels
Tempo máximo de inatividade idleTTL
Ignorar a exclusão do cluster skipDelete
Ativar a integração do Stackdriver Logging stackdriverLoggingEnabled
Ativar a integração do Stackdriver Monitoring stackdriverMonitoringEnabled
Ativar o gateway de componentes componentGatewayEnabled
Preferir IP externo preferExternalIP
Criar um atraso na enquete pollCreateDelay
Criar jitter de enquete pollCreateJitter
Excluir atraso da pesquisa pollDeleteDelay
Intervalo de pesquisa pollInterval

Práticas recomendadas

Ao criar um cluster estático para os pipelines, consulte as práticas recomendadas de configuração de cluster.

A seguir