Propriedades do provisionador do Dataproc

O provisionador do Dataproc no Cloud Data Fusion chama API Dataproc para criar e excluir clusters no Google Cloud projetos. É possível configurar os clusters nas configurações do provisionador.

Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Dataproc, consulte Compatibilidade de versões.

Propriedades

Propriedade Descrição
ID do projeto O projeto do Google Cloud em que o cluster do Dataproc é criado. O projeto precisa ter a API Dataproc ativada.
Chave da conta de serviço do criador

A chave da conta de serviço informada ao provisionador precisa ter permissão de acesso ao Dataproc e ao Compute Engine APIs de terceiros. Como a chave da sua conta é confidencial, recomendamos que você forneça a chave da conta usando o Armazenamento seguro.

Depois de criar a chave segura, é possível adicioná-la a um namespace ou a um perfil de computação do sistema. Para um perfil do Compute do namespace, clique no escudo e selecione o escudo de dados. Para um perfil de computação do sistema, insira o nome da chave no campo Secure Account Key.

Região Uma localização geográfica onde você pode hospedar seus recursos, como dos nós de computação do cluster do Dataproc.
Zona Uma área de implantação isolada em uma região.
Rede A rede VPC no seu projeto do Google Cloud que será usada ao criar um cluster do Dataproc.
ID do projeto host da rede Se a rede estiver em outro projeto do Google Cloud, insira o ID desse projeto. Para uma VPC compartilhada, insira o ID do projeto host em que a rede está.
Sub-rede A sub-rede a ser usada ao criar clusters. Ele deve estar dentro do e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona.
Conta de serviço do executor O nome da conta de serviço das máquinas virtuais do Dataproc (VM) usados para executar programas. Se deixado em branco, o padrão a conta de serviço do Compute Engine será usada.
Número de mestres

O número de nós mestres no cluster. Esses nós contêm YARN Resource Manager, HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3.

O padrão é 1.

Tipo de máquina mestre

O tipo de máquina mestre a ser usada. Selecione uma das seguintes opções: tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

No Cloud Data Fusion versão 6.7.2 e posteriores, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos mestres

Número de núcleos virtuais alocados a um nó mestre.

O padrão é 2.

Memória principal (GB)

A quantidade de memória, em gigabytes, alocada para um nó mestre.

O padrão é 8 GB.

Tamanho do disco mestre (GB)

Tamanho do disco, em gigabytes, alocado para um nó mestre.

O padrão é 1.000 GB.

Tipo de disco mestre

Tipo de disco de inicialização para um nó mestre:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é Disco permanente padrão.

Tipo de máquina do worker

O tipo de máquina de trabalho a ser usada. Selecione uma das seguintes opções: tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

No Cloud Data Fusion versão 6.7.2 e posteriores, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos de worker

Número de núcleos virtuais alocados para um nó de trabalho.

O padrão é 2.

Memória do worker (GB)

A quantidade de memória, em gigabytes, alocada para um nó de trabalho.

O padrão é 8 GB.

Tamanho do disco do worker (GB)

Tamanho do disco, em gigabytes, alocado para um nó de worker.

O padrão é 1.000 GB.

Tipo de disco do worker

Tipo de disco de inicialização para um nó de trabalho:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é Disco permanente padrão.

Usar o escalonamento automático predefinido Ativa o uso do escalonamento automático predefinido do Dataproc.
Número de workers principais

Os nós de trabalho contêm um YARN NodeManager e um HDFS DataNode.

O padrão é 2.

Número de workers secundários Os nós de trabalho secundários contêm um YARN NodeManager, mas não um HDFS DataNode. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exige que seja maior.
Política de escalonamento automático

Caminho para o ID da política de escalonamento automático ou o URI do recurso.

Para informações sobre como configurar e usar o escalonamento automático do Dataproc para redimensionar de forma automática e dinâmica os clusters e atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonamento automático de clusters do Dataproc.

Metadados Metadados adicionais para instâncias em execução no cluster. Você pode e costumam usá-lo para acompanhar cobranças e estornos. Para mais informações, consulte Metadados do cluster.
Tags de rede Atribuir tags de rede para aplicar regras de firewall aos nós específicos de em um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula ou um número.
Ativar a inicialização segura

Ativa a Inicialização segura no VMs do Dataproc.

O padrão é False.

Ativar o vTPM

Ativa módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc.

O padrão é False.

Ativar monitoramento de integridade

Ativa o monitoramento de integridade virtual no VMs do Dataproc.

O padrão é False.

Versão da imagem A versão de imagem do Dataproc. Se deixado em branco, será selecionadas automaticamente. Se a propriedade URI de imagem personalizada deixado em branco, esta propriedade será ignorada.
URI de imagem personalizada O URI da imagem do Dataproc. Se deixado em branco, ele será inferido da propriedade Versão da imagem.
Bucket de preparo Bucket do Cloud Storage usado para preparar dependências de jobs e arquivos de configuração para executar pipelines no Dataproc.
Bucket temporário

Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Dataproc.

Esta propriedade foi introduzida na versão do Cloud Data Fusion 6.9.2.

Nome da chave de criptografia A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Dataproc.
Escopos do OAuth

Os escopos do OAuth 2.0 que podem ser solicitados para acessar o Google APIs, dependendo do nível de acesso necessário. O escopo do Google Cloud Platform é sempre incluído.

Esta propriedade foi introduzida na versão do Cloud Data Fusion 6.9.2.

Ações de inicialização Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage.
Propriedades do cluster Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster.
Rótulos comuns

Rótulos para organizar os clusters e jobs do Dataproc que estão sendo criados.

É possível rotular cada recurso e filtrar os recursos por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes pode detalhar suas cobranças de faturamento por rótulo.

Tempo máximo de inatividade

Configure o Dataproc para excluir um cluster se ele ficar inativo por mais tempo do que o número especificado de minutos. Normalmente, os clusters são excluídos logo após o término de uma execução, mas a exclusão pode falhar em raras situações. Para mais informações, consulte Resolver problemas ao excluir clusters.

O padrão é 30 minutos.

Ignorar a exclusão do cluster

Define se a exclusão do cluster será ignorada no final de uma execução. É necessário excluir clusters manualmente. Isso só deve ser usado ao depurar um objeto com correr.

O padrão é False.

Ativar a integração do Stackdriver Logging

Ative a integração de geração de registros do Stackdriver.

O padrão é True.

Ativar a integração do Stackdriver Monitoring

Ative a integração do Stackdriver Monitoring.

O padrão é True.

Ativar o gateway de componentes

Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer.

O padrão é False.

Preferir IP externo

Quando o sistema está em execução no Google Cloud na mesma rede que o cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True.

O padrão é False.

Atraso na criação de enquetes

O número de segundos de espera após a criação de um cluster para iniciar a sondagem e verificar se o cluster foi criado.

O padrão é 60 segundos.

As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado quando criação e exclusão de clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, mude essas configurações.

Criar instabilidade nas enquetes

Quantidade máxima de jitter aleatório, em segundos, para adicionar ao atraso ao criar um cluster. É possível usar essa propriedade para evitar muitas chamadas de API simultâneas no Google Cloud quando você tem muitos pipelines programados para serem executados ao mesmo tempo.

O padrão é 20 segundos.

Excluir atraso da enquete

O número de segundos a serem aguardados após a exclusão de um cluster para iniciar a pesquisa e verificar se o cluster foi excluído.

O padrão é 30 segundos.

Intervalo de pesquisa

O número de segundos para aguardar entre as pesquisas de status do cluster.

O padrão é 2.

Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON

Nome da propriedade da interface do perfil do Dataproc Nome da propriedade JSON do perfil do Dataproc
Rótulo do perfil name
Nome do perfil label
Descrição description
ID do projeto projectId
Chave da conta de serviço do criador accountKey
Região region
Zona zone
Rede network
ID do projeto host da rede networkHostProjectId
Sub-rede subnet
Conta de serviço do runner serviceAccount
Número de mestres masterNumNodes
Tipo de máquina mestre masterMachineType
Núcleos mestres masterCPUs
Memória mestre (GB) masterMemoryMB
Tamanho do disco mestre (GB) masterDiskGB
Tipo de disco mestre masterDiskType
Número de workers principais workerNumNodes
Número de workers secundários secondaryWorkerNumNodes
Tipo de máquina do worker workerMachineType
Cores de worker workerCPUs
Memória do worker (GB) workerMemoryMB
Tamanho do disco do worker (GB) workerDiskGB
Tipo de disco do worker workerDiskType
Metadados clusterMetaData
Tags de rede networkTags
Ativar a inicialização segura secureBootEnabled
Ativar o vTPM vTpmEnabled
Ativar o monitoramento de integridade integrityMonitoringEnabled
Versão da imagem imageVersion
URI de imagem personalizada customImageUri
Bucket do Cloud Storage gcsBucket
Nome da chave de criptografia encryptionKeyName
Política de escalonamento automático autoScalingPolicy
Ações de inicialização initActions
Propriedades do cluster clusterProperties
Marcadores clusterLabels
Tempo máximo de inatividade idleTTL
Pular a exclusão do cluster skipDelete
Ativar a integração do Stackdriver Logging stackdriverLoggingEnabled
Ativar a integração do Stackdriver Monitoring stackdriverMonitoringEnabled
Ativar o gateway de componentes componentGatewayEnabled
Preferir IP externo preferExternalIP
Criar um atraso na enquete pollCreateDelay
Criar jitter de enquete pollCreateJitter
Excluir atraso da enquete pollDeleteDelay
Intervalo da enquete pollInterval

Práticas recomendadas

Ao criar um cluster estático para os pipelines, consulte as práticas recomendadas de configuração de cluster.

A seguir