Propriedades do provisionador do Dataproc

O provisionador do Dataproc no Cloud Data Fusion chama API Dataproc para criar e excluir clusters no Google Cloud projetos. É possível definir os clusters nas configurações do provisionador.

Para mais informações sobre compatibilidade entre o Cloud Data Fusion, do Dataproc e do Dataproc, consulte Compatibilidade de versões.

Propriedades

Propriedade Descrição
ID do projeto O projeto do Google Cloud em que o Dataproc cluster é criado. O projeto precisa ter a API Dataproc ativado.
Chave da conta de serviço do criador de conteúdo

A chave da conta de serviço informada ao provisionador precisa ter permissão de acesso ao Dataproc e ao Compute Engine APIs de terceiros. Como a chave da sua conta é confidencial, recomendamos que você forneça a chave da conta usando o Armazenamento seguro.

Depois de criar a chave segura, você pode adicioná-la a um namespace ou a um de computação do sistema. Para um perfil do Compute do namespace, clique no escudo e selecione o escudo de dados. Para um perfil de computação do sistema, insira o nome da chave no Chave da conta segura.

Região Uma localização geográfica onde você pode hospedar seus recursos, como dos nós de computação do cluster do Dataproc.
Zona Uma área de implantação isolada em uma região.
Rede A rede VPC no seu projeto do Google Cloud que será usada ao criar um cluster do Dataproc.
ID do projeto host da rede Se a rede estiver em outro projeto do Google Cloud, digite o ID desse projeto. Para uma VPC compartilhada, insira o projeto host ID em que a rede reside.
Sub-rede A sub-rede a ser usada ao criar clusters. Ele deve estar dentro do e na região em que a zona está. Se deixado em branco, uma sub-rede será selecionados com base na rede e zona.
Conta de serviço do executor O nome da conta de serviço das máquinas virtuais do Dataproc (VM) usados para executar programas. Se deixado em branco, o padrão a conta de serviço do Compute Engine será usada.
Número de mestres

O número de nós mestres no cluster. Esses nós contêm YARN Resource Manager, HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3.

O padrão é 1.

Tipo de máquina mestre

O tipo de máquina mestre a ser usada. Selecione uma das seguintes opções: tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

No Cloud Data Fusion versão 6.7.2 e posteriores, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos mestres

Número de núcleos virtuais alocados para um nó mestre.

O padrão é 2.

Memória mestre (GB)

A quantidade de memória, em gigabytes, alocada para um nó mestre.

O padrão é 8 GB.

Tamanho do disco mestre (GB)

Tamanho do disco, em gigabytes, alocado para um nó mestre.

O padrão é 1.000 GB.

Tipo de disco mestre

Tipo de disco de inicialização para um nó mestre:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é Disco permanente padrão.

Tipo de máquina do worker

O tipo de máquina de worker a ser usado. Selecione uma das seguintes opções: tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

No Cloud Data Fusion versão 6.7.2 e posteriores, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos de worker

Número de núcleos virtuais alocados para um nó de trabalho.

O padrão é 2.

Memória do worker (GB)

A quantidade de memória, em gigabytes, alocada para um nó de trabalho.

O padrão é 8 GB.

Tamanho do disco do worker (GB)

Tamanho do disco, em gigabytes, alocado para um nó de trabalho.

O padrão é 1.000 GB.

Tipo de disco do worker

Tipo de disco de inicialização para um nó de trabalho:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é Disco permanente padrão.

Usar o escalonamento automático predefinido Ativa o uso do escalonamento automático predefinido do Dataproc.
Número de workers principais

Os nós de trabalho contêm um YARN NodeManager e um HDFS DataNode.

O padrão é 2.

Número de workers secundários Os nós de trabalho secundários contêm um YARN NodeManager, mas não um HDFS o DataNode. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exige que seja maior.
Política de escalonamento automático

Caminho para o ID da política de escalonamento automático ou o URI do recurso.

Para informações sobre como configurar e usar o Dataproc escalonamento automático para redimensionar de forma automática e dinâmica os clusters demandas de carga de trabalho, consulte Quando usar o escalonamento automático e escalonar automaticamente o Dataproc clusters.

Metadados Metadados adicionais para instâncias em execução no cluster. Você pode e costumam usá-lo para acompanhar cobranças e estornos. Para mais informações, consulte Metadados do cluster.
Tags de rede Atribuir tags de rede para aplicar regras de firewall aos nós específicos de em um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula uma letra ou um número.
Ativar a inicialização segura

Ativa a Inicialização segura no VMs do Dataproc.

O padrão é False.

Ativar o vTPM

Ativa módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc.

O padrão é False.

Ativar monitoramento de integridade

Ativa o monitoramento de integridade virtual no VMs do Dataproc.

O padrão é False.

Versão da imagem A versão de imagem do Dataproc. Se deixado em branco, será selecionadas automaticamente. Se a propriedade URI de imagem personalizada deixado em branco, esta propriedade será ignorada.
URI de imagem personalizada O URI da imagem do Dataproc. Se deixado em branco, é inferido de a propriedade Versão da imagem.
Bucket de preparo o bucket do Cloud Storage usado para organizar dependências do job e arquivos de configuração para executar pipelines no Dataproc.
Bucket temporário

bucket do Cloud Storage usado para armazenar clusters efêmeros e dados de jobs, como arquivos de histórico do Spark no Dataproc.

Esta propriedade foi introduzida na versão do Cloud Data Fusion 6.9.2.

Nome da chave de criptografia A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo o Dataproc.
Escopos do OAuth

Os escopos do OAuth 2.0 que podem ser solicitados para acessar o Google APIs, dependendo do nível de acesso necessário. Escopo do Google Cloud Platform é sempre incluído.

Esta propriedade foi introduzida na versão do Cloud Data Fusion 6.9.2.

Ações de inicialização Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage.
Propriedades do cluster Propriedades de cluster que substituem as propriedades de configuração padrão de os serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster.
Marcadores comuns

Rótulos para organizar os clusters e jobs do Dataproc que está sendo criado.

É possível rotular cada recurso e, em seguida, filtrá-los por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes pode detalhar suas cobranças de faturamento por rótulo.

Tempo máximo de inatividade

Configurar o Dataproc para excluir um cluster inativo além do número de minutos especificado. Normalmente, os clusters são excluídos logo após o término de uma execução, mas a exclusão pode falhar em raras situações. Para mais informações, consulte Resolver problemas de exclusão clusters.

O padrão é 30 minutos.

Pular a exclusão do cluster

Define se a exclusão do cluster será ignorada no final de uma execução. Você deve e excluir manualmente os clusters. Isso só deve ser usado ao depurar um objeto com correr.

O padrão é False.

Ativar a integração do Stackdriver Logging

Ative a integração do Stackdriver Logging.

O padrão é True.

Ativar a integração do Stackdriver Monitoring

Ative a integração do Stackdriver Monitoring.

O padrão é True.

Ativar o gateway de componentes

Ative o gateway do componente para acessar as interfaces do cluster. como o YARN ResourceManager e o Spark HistoryServer.

O padrão é False.

Preferir IP externo

Quando o sistema é executado no Google Cloud na mesma rede que o cluster, ele normalmente usa o endereço IP interno se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True.

O padrão é False.

Atraso na criação de enquetes

O número de segundos para aguardar após a criação de um cluster para começar para verificar se o cluster foi criado.

O padrão é 60 segundos.

As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado quando criação e exclusão de clusters. Se você tiver muitos pipelines programados forem executados ao mesmo tempo, altere essas configurações.

Criar instabilidade nas enquetes

Quantidade máxima de instabilidade aleatória, em segundos, a ser adicionada ao atraso quando criar um cluster. É possível usar essa propriedade para evitar que muitos chamadas de API simultâneas no Google Cloud quando há muitos pipelines que estão programados para serem executados exatamente ao mesmo tempo.

O padrão é 20 segundos.

Excluir atraso da enquete

O número de segundos a serem aguardados após o início da exclusão de um cluster a verificação para saber se o cluster foi excluído.

O padrão é 30 segundos.

Intervalo da enquete

O número de segundos para aguardar entre as pesquisas pelo status do cluster.

O padrão é 2.

Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON

Nome da propriedade da UI do perfil do Dataproc Nome da propriedade JSON do perfil do Dataproc
Rótulo do perfil name
Nome do perfil label
Descrição description
ID do projeto projectId
Chave da conta de serviço do criador de conteúdo accountKey
Região region
Zona zone
Rede network
ID do projeto host da rede networkHostProjectId
Sub-rede subnet
Conta de serviço do executor serviceAccount
Número de mestres masterNumNodes
Tipo de máquina mestre masterMachineType
Núcleos mestres masterCPUs
Memória mestre (GB) masterMemoryMB
Tamanho do disco mestre (GB) masterDiskGB
Tipo de disco mestre masterDiskType
Número de workers principais workerNumNodes
Número de workers secundários secondaryWorkerNumNodes
Tipo de máquina do worker workerMachineType
Núcleos de worker workerCPUs
Memória do worker (GB) workerMemoryMB
Tamanho do disco do worker (GB) workerDiskGB
Tipo de disco do worker workerDiskType
Metadados clusterMetaData
Tags de rede networkTags
Ativar a inicialização segura secureBootEnabled
Ativar o vTPM vTpmEnabled
Ativar monitoramento de integridade integrityMonitoringEnabled
Versão da imagem imageVersion
URI de imagem personalizada customImageUri
Bucket do Cloud Storage gcsBucket
Nome da chave de criptografia encryptionKeyName
Política de escalonamento automático autoScalingPolicy
Ações de inicialização initActions
Propriedades do cluster clusterProperties
Marcadores clusterLabels
Tempo máximo de inatividade idleTTL
Pular a exclusão do cluster skipDelete
Ativar a integração do Stackdriver Logging stackdriverLoggingEnabled
Ativar a integração do Stackdriver Monitoring stackdriverMonitoringEnabled
Ativar o gateway de componentes componentGatewayEnabled
Preferir IP externo preferExternalIP
Atraso na criação de enquetes pollCreateDelay
Criar instabilidade nas enquetes pollCreateJitter
Excluir atraso da enquete pollDeleteDelay
Intervalo da enquete pollInterval

Práticas recomendadas

Ao criar um cluster estático para os pipelines, consulte a práticas recomendadas de configuração de cluster.

A seguir