Propriedades do aprovisionador do Dataproc

O aprovisionador do Dataproc no Cloud Data Fusion chama a API Dataproc para criar e eliminar clusters nos seus projetos Google Cloud. Pode configurar os clusters nas definições do aprovisionador.

Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e as versões do Dataproc, consulte o artigo Compatibilidade de versões.

Propriedades

Propriedade Descrição
ID do projeto O Google Cloud projeto onde o cluster do Dataproc é criado. O projeto tem de ter a API Dataproc ativada.
Chave da conta de serviço do criador

A chave da conta de serviço fornecida ao aprovisionador tem de ter autorização para aceder às APIs Dataproc e Compute Engine. Como a chave da conta é sensível, recomendamos que faculte a chave da conta através do armazenamento seguro.

Depois de criar a chave segura, pode adicioná-la a um espaço de nomes ou a um perfil de computação do sistema. Para um perfil de computação do espaço de nomes, clique no ícone de escudo e selecione a chave segura. Para um perfil de cálculo do sistema, introduza o nome da chave no campo Chave da conta segura.

Região Uma localização geográfica onde pode alojar os seus recursos, como os nós de computação para o cluster do Dataproc.
Zona Uma área de implementação isolada numa região.
Rede A rede VPC no seu Google Cloud projeto que vai ser usada quando criar um cluster do Dataproc.
ID do projeto anfitrião da rede Se a rede residir noutro Google Cloud projeto, introduza o ID desse projeto. Para uma VPC partilhada, introduza o ID do projeto anfitrião onde a rede reside.
Sub-rede A sub-rede a usar quando criar clusters. Tem de estar na rede indicada e na região em que a zona se encontra. Se deixar em branco, é selecionada uma sub-rede com base na rede e na zona.
Conta de serviço do executor O nome da conta de serviço das máquinas virtuais (VM) do Dataproc que são usadas para executar programas. Se deixar em branco, é usada a conta de serviço do Compute Engine predefinida.
Número de mestres

O número de nós principais no cluster. Estes nós contêm o gestor de recursos do YARN, o NameNode do HDFS e todos os controladores. Tem de ser definido como 1 ou 3.

A predefinição é 1.

Tipo de máquina principal

O tipo de máquina principal a usar. Selecione um dos seguintes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

Na versão 6.7.2 e posteriores do Cloud Data Fusion, a predefinição é e2.

Na versão 6.7.1, o valor predefinido é n2.

Na versão 6.7.0 e anteriores, a predefinição é n1.

Núcleos principais

Número de núcleos virtuais atribuídos a um nó principal.

A predefinição é 2.

Memória principal (GB)

A quantidade de memória, em gigabytes, atribuída a um nó principal.

A predefinição é 8 GB.

Tamanho do disco principal (GB)

Tamanho do disco, em gigabytes, atribuído a um nó principal.

A predefinição é 1000 GB.

Tipo de disco principal

Tipo de disco de arranque para um nó principal:

  • Disco persistente padrão
  • Disco persistente SSD

A predefinição é Disco persistente padrão.

Tipo de máquina de trabalhador

O tipo de máquina de trabalho a usar. Selecione um dos seguintes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

Na versão 6.7.2 e posteriores do Cloud Data Fusion, a predefinição é e2.

Na versão 6.7.1, o valor predefinido é n2.

Na versão 6.7.0 e anteriores, a predefinição é n1.

Núcleos de trabalho

Número de núcleos virtuais atribuídos a um nó trabalhador.

A predefinição é 2.

Memória do trabalhador (GB)

A quantidade de memória, em gigabytes, atribuída a um nó trabalhador.

A predefinição é 8 GB.

Tamanho do disco do trabalhador (GB)

Tamanho do disco, em gigabytes, atribuído a um nó trabalhador.

A predefinição é 1000 GB.

Tipo de disco de trabalhador

Tipo de disco de arranque para um nó trabalhador:

  • Disco persistente padrão
  • Disco persistente SSD

A predefinição é Disco persistente padrão.

Use o dimensionamento automático predefinido Permite a utilização do dimensionamento automático do Dataproc predefinido.
Número de trabalhadores principais

Os nós de trabalho contêm um YARN NodeManager e um HDFS DataNode.

A predefinição é 2.

Número de trabalhadores secundários Os nós de trabalho secundários contêm um YARN NodeManager, mas não um HDFS DataNode. Normalmente, este valor é definido como zero, a menos que uma política de escalamento automático exija que seja superior.
Política de dimensionamento automático

Caminho para o ID da política de escalamento automático ou o URI do recurso.

Para obter informações sobre a configuração e a utilização da escalabilidade automática do Dataproc para redimensionar automaticamente e dinamicamente os clusters de forma a satisfazer as exigências da carga de trabalho, consulte Quando usar a escalabilidade automática e Crie uma escala automática de clusters do Dataproc.

Metadados Metadados adicionais para instâncias em execução no seu cluster. Normalmente, pode usá-lo para acompanhar a faturação e as anulações de débitos. Para mais informações, consulte o artigo Metadados de clusters.
Etiquetas de rede Atribua etiquetas de rede para aplicar regras de firewall aos nós específicos de um cluster. As etiquetas de rede têm de começar por uma letra minúscula e podem conter letras minúsculas, números e hífenes. As etiquetas têm de terminar com uma letra minúscula ou um número.
Ative o arranque seguro

Ativa o arranque seguro nas VMs do Dataproc.

O valor predefinido é False.

Ative o vTPM

Ativa o Trusted Platform Module virtual (vTPM) nas VMs do Dataproc.

O valor predefinido é False.

Ative a monitorização da integridade

Ativa a monitorização da integridade virtual nas VMs do Dataproc.

O valor predefinido é False.

Versão da imagem A versão da imagem do Dataproc. Se deixar em branco, é selecionada automaticamente uma das opções. Se a propriedade URI da imagem personalizada for deixada em branco, esta propriedade é ignorada.
URI de imagem personalizada O URI da imagem do Dataproc. Se for deixado em branco, é inferido a partir da propriedade Versão da imagem.
Contentor de preparação Contentor do Cloud Storage usado para preparar dependências de tarefas e ficheiros de configuração para executar pipelines no Dataproc.
Segmento temporário

Recipiente do Cloud Storage usado para armazenar dados de tarefas e clusters efémeros, como ficheiros do histórico do Spark no Dataproc.

Esta propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.

Nome da chave de encriptação A chave de encriptação gerida pelo cliente (CMEK) usada pelo Dataproc.
Âmbitos do OAuth

Os âmbitos do OAuth 2.0 que pode ter de pedir para aceder às APIs Google, consoante o nível de acesso de que precisa. Google Cloud Âmbito da plataforma está sempre incluído.

Esta propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.

Ações de inicialização Uma lista de scripts a executar durante a inicialização do cluster. As ações de inicialização devem ser colocadas no Cloud Storage.
Propriedades de cluster Propriedades do cluster que substituem as propriedades de configuração predefinidas dos serviços Hadoop. Para mais informações sobre os pares de chave-valor aplicáveis, consulte Propriedades do cluster.
Etiquetas comuns

Etiquetas para organizar os clusters e as tarefas do Dataproc que estão a ser criados.

Pode etiquetar cada recurso e, em seguida, filtrar os recursos por etiquetas. As informações sobre as etiquetas são encaminhadas para o sistema de faturação, para que os clientes possam discriminá-las por etiqueta.

Tempo de inatividade máximo

Configure o Dataproc para eliminar um cluster se estiver inativo durante mais tempo do que o número de minutos especificado. Normalmente, os clusters são eliminados imediatamente após a conclusão de uma execução, mas a eliminação pode falhar em situações raras. Para mais informações, consulte o artigo Resolva problemas de eliminação de clusters.

A predefinição é 30 minutos.

Ignorar eliminação de cluster

Se deve ignorar a eliminação de clusters no final de uma execução. Tem de eliminar manualmente os clusters. Isto só deve ser usado quando depurar uma execução com falhas.

O valor predefinido é False.

Ative a integração do Stackdriver Logging

Ative a integração do registo do Stackdriver.

A predefinição é True.

Ative a integração do Stackdriver Monitoring

Ative a integração do Stackdriver Monitoring.

A predefinição é True.

Ative o gateway de componentes

Ative o gateway de componentes para aceder às interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer.

O valor predefinido é False.

Preferir IP externo

Quando o sistema é executado Google Cloud na mesma rede que o cluster, normalmente, usa o endereço IP interno quando comunica com o cluster. Para usar sempre o endereço IP externo, defina este valor como Verdadeiro.

O valor predefinido é False.

Criar atraso na sondagem

O número de segundos a aguardar após a criação de um cluster para começar a sondar para ver se o cluster foi criado.

A predefinição é 60 segundos.

As definições de sondagem controlam a frequência com que o estado do cluster é sondado quando cria e elimina clusters. Se tiver muitos pipelines agendados para serem executados em simultâneo, é aconselhável alterar estas definições.

Criar instabilidade de sondagem

Quantidade máxima de instabilidade aleatória, em segundos, a adicionar ao atraso quando criar um cluster. Pode usar esta propriedade para evitar muitas chamadas de API simultâneas quando tem muitos pipelines agendados para serem executados exatamente ao mesmo tempo. Google Cloud

A predefinição é 20 segundos.

Elimine o atraso da sondagem

O número de segundos a aguardar após a eliminação de um cluster para iniciar a sondagem para ver se o cluster foi eliminado.

A predefinição é 30 segundos.

Intervalo de sondagem

O número de segundos a aguardar entre as sondagens do estado do cluster.

A predefinição é 2.

Propriedades da interface Web do perfil do Dataproc mapeadas para propriedades JSON

Nome da propriedade da IU do perfil do Dataproc Nome da propriedade JSON do perfil do Dataproc
Etiqueta do perfil name
Nome do perfil label
Descrição description
ID do projeto projectId
Chave da conta de serviço do criador accountKey
Região region
Zona zone
Rede network
ID do projeto anfitrião da rede networkHostProjectId
Sub-rede subnet
Conta de serviço do executor serviceAccount
Número de mestres masterNumNodes
Tipo de máquina principal masterMachineType
Núcleos principais masterCPUs
Memória principal (GB) masterMemoryMB
Tamanho do disco principal (GB) masterDiskGB
Tipo de disco principal masterDiskType
Número de trabalhadores principais workerNumNodes
Número de trabalhadores secundários secondaryWorkerNumNodes
Tipo de máquina de trabalhador workerMachineType
Núcleos de trabalho workerCPUs
Memória do trabalhador (GB) workerMemoryMB
Tamanho do disco do trabalhador (GB) workerDiskGB
Tipo de disco de trabalhador workerDiskType
Metadados clusterMetaData
Etiquetas de rede networkTags
Ative o arranque seguro secureBootEnabled
Ative o vTPM vTpmEnabled
Ative a monitorização da integridade integrityMonitoringEnabled
Versão da imagem imageVersion
URI de imagem personalizada customImageUri
Contentor do Cloud Storage gcsBucket
Nome da chave de encriptação encryptionKeyName
Política de dimensionamento automático autoScalingPolicy
Ações de inicialização initActions
Propriedades de cluster clusterProperties
Marcadores clusterLabels
Tempo de inatividade máximo idleTTL
Ignorar eliminação de cluster skipDelete
Ative a integração do Stackdriver Logging stackdriverLoggingEnabled
Ative a integração do Stackdriver Monitoring stackdriverMonitoringEnabled
Ative o gateway de componentes componentGatewayEnabled
Preferir IP externo preferExternalIP
Criar atraso na sondagem pollCreateDelay
Criar instabilidade de sondagem pollCreateJitter
Elimine o atraso da sondagem pollDeleteDelay
Intervalo de sondagem pollInterval

Práticas recomendadas

Quando criar um cluster estático para os seus pipelines, consulte as práticas recomendadas de configuração de clusters.

O que se segue?