Esta página foi traduzida pela API Cloud Translation.

Propriedades do provisionador do Dataproc

O provisionador do Dataproc no Cloud Data Fusion chama a API do Dataproc para criar e excluir clusters nos projetos Google Cloud. É possível configurar os clusters nas configurações do provisionador.

Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Dataproc, consulte Compatibilidade de versões.

Propriedades

Propriedade	Descrição
ID do projeto	O Google Cloud projeto em que o cluster do Dataproc é criado. O projeto precisa ter a API Dataproc ativada.
Chave da conta de serviço do criador	A chave da conta de serviço fornecida ao provisionador precisa ter permissão para acessar as APIs Dataproc e Compute Engine. Como a chave da conta é sensível, recomendamos que você forneça a chave da conta usando o armazenamento seguro. Depois de criar a chave segura, é possível adicioná-la a um namespace ou a um perfil de computação do sistema. Para um perfil de computação de namespace, clique no escudo e selecione a chave segura. Para um perfil de computação do sistema, insira o nome da chave no campo Secure Account Key.
Região	Um local geográfico onde você pode hospedar seus recursos, como os nós de computação do cluster do Dataproc.
Zona	Uma área de implantação isolada em uma região.
Rede	A rede VPC no projeto Google Cloud que será usada ao criar um cluster do Dataproc.
ID do projeto host da rede	Se a rede estiver em outro projeto Google Cloud , insira o ID dele. Para uma VPC compartilhada, insira o ID do projeto host em que a rede está.
Sub-rede	A sub-rede a ser usada ao criar clusters. Ele precisa estar na rede especificada e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona.
Conta de serviço do runner	O nome da conta de serviço das máquinas virtuais (VMs) do Dataproc usadas para executar programas. Se o campo ficar em branco, a conta de serviço padrão do Compute Engine será usada.
Número de mestres	O número de nós mestres no cluster. Esses nós contêm o YARN Resource Manager, o HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3. O padrão é 1.
Tipo de máquina mestre	O tipo de máquina mestre a ser usada. Selecione um dos seguintes tipos de máquina: n1 n2 n2d e2 Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1.
Núcleos mestre	Número de núcleos virtuais alocados a um nó mestre. O padrão é 2.
Memória principal (GB)	A quantidade de memória, em gigabytes, alocada para um nó mestre. O padrão é 8 GB.
Tamanho do disco mestre (GB)	Tamanho do disco, em gigabytes, alocado para um nó mestre. O padrão é 1.000 GB.
Tipo de disco mestre	Tipo de disco de inicialização de um nó mestre: Disco permanente padrão Disco permanente SSD O padrão é Disco permanente padrão.
Tipo de máquina do worker	O tipo de máquina de trabalho a ser usada. Selecione um dos seguintes tipos de máquina: n1 n2 n2d e2 Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1.
Cores de worker	Número de núcleos virtuais alocados a um nó de trabalho. O padrão é 2.
Memória do worker (GB)	A quantidade de memória, em gigabytes, alocada para um nó de trabalho. O padrão é 8 GB.
Tamanho do disco do worker (GB)	Tamanho do disco, em gigabytes, alocado para um nó de worker. O padrão é 1.000 GB.
Tipo de disco do worker	Tipo de disco de inicialização de um nó de trabalho: Disco permanente padrão Disco permanente SSD O padrão é Disco permanente padrão.
Usar o escalonamento automático predefinido	Permite o uso do escalonamento automático predefinido do Dataproc.
Número de workers principais	Os nós de worker contêm um YARN NodeManager e um HDFS DataNode. O padrão é 2.
Número de trabalhadores secundários	Os nós de worker secundários contêm um YARN NodeManager, mas não um DataNode do HDFS. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exija um valor maior.
Política de escalonamento automático	Caminho para o ID da política de escalonamento automático ou o URI do recurso. Para informações sobre como configurar e usar o escalonamento automático do Dataproc para redimensionar de forma automática e dinâmica os clusters e atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonamento automático de clusters do Dataproc.
Metadados	Metadados adicionais para instâncias em execução no cluster. Normalmente, ele é usado para rastrear faturamento e chargebacks. Para mais informações, consulte Metadados do cluster.
Tags de rede	Atribua tags de rede para aplicar regras de firewall aos nós específicos de um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula ou um número.
Ativar a inicialização segura	Ativa a Inicialização segura nas VMs do Dataproc. O padrão é False.
Ativar o vTPM	Ativa o módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc. O padrão é False.
Ativar o monitoramento de integridade	Ativa o Monitoramento de integridade virtual nas VMs do Dataproc. O padrão é False.
Versão da imagem	A versão da imagem do Dataproc. Se ficar em branco, uma será selecionada automaticamente. Se a propriedade URI da imagem personalizada for deixada em branco, ela será ignorada.
URI de imagem personalizada	O URI da imagem do Dataproc. Se ficar em branco, será inferido da propriedade Versão da imagem.
Bucket de preparo	Bucket do Cloud Storage usado para preparar dependências de jobs e arquivos de configuração para executar pipelines no Dataproc.
Bucket temporário	Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Dataproc. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.
Nome da chave de criptografia	A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Dataproc.
Escopos do OAuth	Os escopos do OAuth 2.0 que você pode precisar solicitar para acessar as APIs do Google, dependendo do nível de acesso necessário. O Google Cloud Escopo da plataforma é sempre incluído. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.
Ações de inicialização	Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage.
Propriedades do cluster	Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster.
Rótulos comuns	Rótulos para organizar os clusters e jobs do Dataproc que estão sendo criados. É possível rotular cada recurso e filtrar os recursos por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes classifiquem as cobranças de faturamento por rótulo.
Tempo máximo de inatividade	Configure o Dataproc para excluir um cluster se ele ficar inativo por mais tempo do que o número especificado de minutos. Os clusters normalmente são excluídos logo após o término de uma execução, mas a exclusão pode falhar em situações raras. Para mais informações, consulte Resolver problemas ao excluir clusters. O padrão é de 30 minutos.
Ignorar a exclusão do cluster	Se a exclusão do cluster será ignorada no final de uma execução. É necessário excluir clusters manualmente. Use isso apenas para depurar uma execução com falha. O padrão é False.
Ativar a integração do Stackdriver Logging	Ative a integração de geração de registros do Stackdriver. O padrão é True.
Ativar a integração do Stackdriver Monitoring	Ative a integração do Stackdriver Monitoring. O padrão é True.
Ativar o gateway de componentes	Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer. O padrão é False.
Preferir IP externo	Quando o sistema está em execução em Google Cloud na mesma rede do cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True. O padrão é False.
Criar um atraso na enquete	O número de segundos de espera após a criação de um cluster para iniciar a sondagem e verificar se o cluster foi criado. O padrão é 60 segundos. As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado ao criar e excluir clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, mude essas configurações.
Criar jitter de enquete	Quantidade máxima de jitter aleatório, em segundos, para adicionar ao atraso ao criar um cluster. É possível usar essa propriedade para evitar muitas chamadas de API simultâneas em Google Cloud quando você tem muitos pipelines programados para serem executados ao mesmo tempo. O padrão é 20 segundos.
Excluir atraso de pesquisa	O número de segundos a serem aguardados após a exclusão de um cluster para iniciar a pesquisa e conferir se o cluster foi excluído. O padrão é 30 segundos.
Intervalo de pesquisa	O número de segundos para aguardar entre as pesquisas de status do cluster. O padrão é 2.

Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON

Nome da propriedade da interface do perfil do Dataproc	Nome da propriedade JSON do perfil do Dataproc
Rótulo do perfil	`name`
Nome do perfil	`label`
Descrição	`description`
ID do projeto	`projectId`
Chave da conta de serviço do criador	`accountKey`
Região	`region`
Zona	`zone`
Rede	`network`
ID do projeto host da rede	`networkHostProjectId`
Sub-rede	`subnet`
Conta de serviço do runner	`serviceAccount`
Número de mestres	`masterNumNodes`
Tipo de máquina mestre	`masterMachineType`
Núcleos mestre	`masterCPUs`
Memória principal (GB)	`masterMemoryMB`
Tamanho do disco mestre (GB)	`masterDiskGB`
Tipo de disco mestre	`masterDiskType`
Número de workers principais	`workerNumNodes`
Número de trabalhadores secundários	`secondaryWorkerNumNodes`
Tipo de máquina do worker	`workerMachineType`
Cores de worker	`workerCPUs`
Memória do worker (GB)	`workerMemoryMB`
Tamanho do disco do worker (GB)	`workerDiskGB`
Tipo de disco do worker	`workerDiskType`
Metadados	`clusterMetaData`
Tags de rede	`networkTags`
Ativar a inicialização segura	`secureBootEnabled`
Ativar o vTPM	`vTpmEnabled`
Ativar o monitoramento de integridade	`integrityMonitoringEnabled`
Versão da imagem	`imageVersion`
URI de imagem personalizada	`customImageUri`
Bucket do Cloud Storage	`gcsBucket`
Nome da chave de criptografia	`encryptionKeyName`
Política de escalonamento automático	`autoScalingPolicy`
Ações de inicialização	`initActions`
Propriedades do cluster	`clusterProperties`
Marcadores	`clusterLabels`
Tempo máximo de inatividade	`idleTTL`
Ignorar a exclusão do cluster	`skipDelete`
Ativar a integração do Stackdriver Logging	`stackdriverLoggingEnabled`
Ativar a integração do Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Ativar o gateway de componentes	`componentGatewayEnabled`
Preferir IP externo	`preferExternalIP`
Criar um intervalo de enquete	`pollCreateDelay`
Criar jitter de enquete	`pollCreateJitter`
Excluir atraso da pesquisa	`pollDeleteDelay`
Intervalo de pesquisa	`pollInterval`

Práticas recomendadas

Ao criar um cluster estático para os pipelines, consulte as práticas recomendadas de configuração de cluster.

A seguir

Saiba mais sobre como gerenciar perfis de computação.