O provisionador do Dataproc no Cloud Data Fusion chama a API do Dataproc para criar e excluir clusters nos projetos Google Cloud. É possível configurar os clusters nas configurações do provisionador.
Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Dataproc, consulte Compatibilidade de versões.
Propriedades
| Propriedade | Descrição |
|---|---|
| ID do projeto | O Google Cloud projeto em que o cluster do Dataproc é criado. O projeto precisa ter a API Dataproc ativada. |
| Chave da conta de serviço do criador | A chave da conta de serviço fornecida ao provisionador precisa ter permissão para acessar as APIs Dataproc e Compute Engine. Como a chave da conta é sensível, recomendamos que você forneça a chave da conta usando o armazenamento seguro. Depois de criar a chave segura, é possível adicioná-la a um namespace ou a um perfil de computação do sistema. Para um perfil de computação de namespace, clique no escudo e selecione a chave segura. Para um perfil de computação do sistema, insira o nome da chave no campo Secure Account Key. |
| Região | Um local geográfico onde você pode hospedar seus recursos, como os nós de computação do cluster do Dataproc. |
| Zona | Uma área de implantação isolada em uma região. |
| Rede | A rede VPC no projeto Google Cloud que será usada ao criar um cluster do Dataproc. |
| ID do projeto host da rede | Se a rede estiver em outro projeto Google Cloud , insira o ID dele. Para uma VPC compartilhada, insira o ID do projeto host em que a rede está. |
| Sub-rede | A sub-rede a ser usada ao criar clusters. Ele precisa estar na rede especificada e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona. |
| Conta de serviço do runner | O nome da conta de serviço das máquinas virtuais (VMs) do Dataproc usadas para executar programas. Se o campo ficar em branco, a conta de serviço padrão do Compute Engine será usada. |
| Número de mestres | O número de nós mestres no cluster. Esses nós contêm o YARN Resource Manager, o HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3. O padrão é 1. |
| Tipo de máquina mestre | O tipo de máquina mestre a ser usada. Selecione um dos seguintes tipos de máquina:
Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
| Núcleos mestre | Número de núcleos virtuais alocados a um nó mestre. O padrão é 2. |
| Memória principal (GB) | A quantidade de memória, em gigabytes, alocada para um nó mestre. O padrão é 8 GB. |
| Tamanho do disco mestre (GB) | Tamanho do disco, em gigabytes, alocado para um nó mestre. O padrão é 1.000 GB. |
| Tipo de disco mestre | Tipo de disco de inicialização de um nó mestre:
O padrão é Disco permanente padrão. |
| Tipo de máquina do worker | O tipo de máquina de trabalho a ser usada. Selecione um dos seguintes tipos de máquina:
Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
| Cores de worker | Número de núcleos virtuais alocados a um nó de trabalho. O padrão é 2. |
| Memória do worker (GB) | A quantidade de memória, em gigabytes, alocada para um nó de trabalho. O padrão é 8 GB. |
| Tamanho do disco do worker (GB) | Tamanho do disco, em gigabytes, alocado para um nó de worker. O padrão é 1.000 GB. |
| Tipo de disco do worker | Tipo de disco de inicialização de um nó de trabalho:
O padrão é Disco permanente padrão. |
| Usar o escalonamento automático predefinido | Permite o uso do escalonamento automático predefinido do Dataproc. |
| Número de workers principais | Os nós de worker contêm um YARN NodeManager e um HDFS DataNode. O padrão é 2. |
| Número de trabalhadores secundários | Os nós de worker secundários contêm um YARN NodeManager, mas não um DataNode do HDFS. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exija um valor maior. |
| Política de escalonamento automático | Caminho para o ID da política de escalonamento automático ou o URI do recurso. Para informações sobre como configurar e usar o escalonamento automático do Dataproc para redimensionar de forma automática e dinâmica os clusters e atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonamento automático de clusters do Dataproc. |
| Metadados | Metadados adicionais para instâncias em execução no cluster. Normalmente, ele é usado para rastrear faturamento e chargebacks. Para mais informações, consulte Metadados do cluster. |
| Tags de rede | Atribua tags de rede para aplicar regras de firewall aos nós específicos de um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula ou um número. |
| Ativar a inicialização segura | Ativa a Inicialização segura nas VMs do Dataproc. O padrão é False. |
| Ativar o vTPM | Ativa o módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc. O padrão é False. |
| Ativar o monitoramento de integridade | Ativa o Monitoramento de integridade virtual nas VMs do Dataproc. O padrão é False. |
| Versão da imagem | A versão da imagem do Dataproc. Se ficar em branco, uma será selecionada automaticamente. Se a propriedade URI da imagem personalizada for deixada em branco, ela será ignorada. |
| URI de imagem personalizada | O URI da imagem do Dataproc. Se ficar em branco, será inferido da propriedade Versão da imagem. |
| Bucket de preparo | Bucket do Cloud Storage usado para preparar dependências de jobs e arquivos de configuração para executar pipelines no Dataproc. |
| Bucket temporário | Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Dataproc. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
| Nome da chave de criptografia | A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Dataproc. |
| Escopos do OAuth | Os escopos do OAuth 2.0 que você pode precisar solicitar para acessar as APIs do Google, dependendo do nível de acesso necessário. O Google Cloud Escopo da plataforma é sempre incluído. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
| Ações de inicialização | Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage. |
| Propriedades do cluster | Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster. |
| Rótulos comuns | Rótulos para organizar os clusters e jobs do Dataproc que estão sendo criados. É possível rotular cada recurso e filtrar os recursos por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes classifiquem as cobranças de faturamento por rótulo. |
| Tempo máximo de inatividade | Configure o Dataproc para excluir um cluster se ele ficar inativo por mais tempo do que o número especificado de minutos. Os clusters normalmente são excluídos logo após o término de uma execução, mas a exclusão pode falhar em situações raras. Para mais informações, consulte Resolver problemas ao excluir clusters. O padrão é de 30 minutos. |
| Ignorar a exclusão do cluster | Se a exclusão do cluster será ignorada no final de uma execução. É necessário excluir clusters manualmente. Use isso apenas para depurar uma execução com falha. O padrão é False. |
| Ativar a integração do Stackdriver Logging | Ative a integração de geração de registros do Stackdriver. O padrão é True. |
| Ativar a integração do Stackdriver Monitoring | Ative a integração do Stackdriver Monitoring. O padrão é True. |
| Ativar o gateway de componentes | Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer. O padrão é False. |
| Preferir IP externo | Quando o sistema está em execução em Google Cloud na mesma rede do cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True. O padrão é False. |
| Criar um atraso na enquete | O número de segundos de espera após a criação de um cluster para iniciar a sondagem e verificar se o cluster foi criado. O padrão é 60 segundos. As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado ao criar e excluir clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, mude essas configurações. |
| Criar jitter de enquete | Quantidade máxima de jitter aleatório, em segundos, para adicionar ao atraso ao criar um cluster. É possível usar essa propriedade para evitar muitas chamadas de API simultâneas em Google Cloud quando você tem muitos pipelines programados para serem executados ao mesmo tempo. O padrão é 20 segundos. |
| Excluir atraso de pesquisa | O número de segundos a serem aguardados após a exclusão de um cluster para iniciar a pesquisa e conferir se o cluster foi excluído. O padrão é 30 segundos. |
| Intervalo de pesquisa | O número de segundos para aguardar entre as pesquisas de status do cluster. O padrão é 2. |
Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON
| Nome da propriedade da interface do perfil do Dataproc | Nome da propriedade JSON do perfil do Dataproc |
|---|---|
| Rótulo do perfil | name |
| Nome do perfil | label |
| Descrição | description |
| ID do projeto | projectId |
| Chave da conta de serviço do criador | accountKey |
| Região | region |
| Zona | zone |
| Rede | network |
| ID do projeto host da rede | networkHostProjectId |
| Sub-rede | subnet |
| Conta de serviço do runner | serviceAccount |
| Número de mestres | masterNumNodes |
| Tipo de máquina mestre | masterMachineType |
| Núcleos mestre | masterCPUs |
| Memória principal (GB) | masterMemoryMB |
| Tamanho do disco mestre (GB) | masterDiskGB |
| Tipo de disco mestre | masterDiskType |
| Número de workers principais | workerNumNodes |
| Número de trabalhadores secundários | secondaryWorkerNumNodes |
| Tipo de máquina do worker | workerMachineType |
| Cores de worker | workerCPUs |
| Memória do worker (GB) | workerMemoryMB |
| Tamanho do disco do worker (GB) | workerDiskGB |
| Tipo de disco do worker | workerDiskType |
| Metadados | clusterMetaData |
| Tags de rede | networkTags |
| Ativar a inicialização segura | secureBootEnabled |
| Ativar o vTPM | vTpmEnabled |
| Ativar o monitoramento de integridade | integrityMonitoringEnabled |
| Versão da imagem | imageVersion |
| URI de imagem personalizada | customImageUri |
| Bucket do Cloud Storage | gcsBucket |
| Nome da chave de criptografia | encryptionKeyName |
| Política de escalonamento automático | autoScalingPolicy |
| Ações de inicialização | initActions |
| Propriedades do cluster | clusterProperties |
| Marcadores | clusterLabels |
| Tempo máximo de inatividade | idleTTL |
| Ignorar a exclusão do cluster | skipDelete |
| Ativar a integração do Stackdriver Logging | stackdriverLoggingEnabled |
| Ativar a integração do Stackdriver Monitoring | stackdriverMonitoringEnabled |
| Ativar o gateway de componentes | componentGatewayEnabled |
| Preferir IP externo | preferExternalIP |
| Criar um intervalo de enquete | pollCreateDelay |
| Criar jitter de enquete | pollCreateJitter |
| Excluir atraso da pesquisa | pollDeleteDelay |
| Intervalo de pesquisa | pollInterval |
Práticas recomendadas
Ao criar um cluster estático para os pipelines, consulte as práticas recomendadas de configuração de cluster.
A seguir
- Saiba mais sobre como gerenciar perfis de computação.