O provisionador do Dataproc no Cloud Data Fusion chama a API do Dataproc para criar e excluir clusters nos projetos Google Cloud. É possível configurar os clusters nas configurações do provisionador.
Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Dataproc, consulte Compatibilidade de versões.
Propriedades
Propriedade | Descrição |
---|---|
ID do projeto | O Google Cloud projeto em que o cluster do Dataproc é criado. O projeto precisa ter a API Dataproc ativada. |
Chave da conta de serviço do criador | A chave da conta de serviço fornecida ao provisionador precisa ter permissão para acessar as APIs Dataproc e Compute Engine. Como a chave da conta é sensível, recomendamos que você forneça a chave da conta usando o armazenamento seguro. Depois de criar a chave segura, é possível adicioná-la a um namespace ou a um perfil de computação do sistema. Para um perfil de computação de namespace, clique no escudo e selecione a chave segura. Para um perfil de computação do sistema, insira o nome da chave no campo Secure Account Key. |
Região | Um local geográfico onde você pode hospedar seus recursos, como os nós de computação do cluster do Dataproc. |
Zona | Uma área de implantação isolada em uma região. |
Rede | A rede VPC no projeto Google Cloud que será usada ao criar um cluster do Dataproc. |
ID do projeto host da rede | Se a rede estiver em outro projeto Google Cloud , insira o ID dele. Para uma VPC compartilhada, insira o ID do projeto host em que a rede está. |
Sub-rede | A sub-rede a ser usada ao criar clusters. Ele precisa estar na rede especificada e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona. |
Conta de serviço do runner | O nome da conta de serviço das máquinas virtuais (VMs) do Dataproc usadas para executar programas. Se o campo ficar em branco, a conta de serviço padrão do Compute Engine será usada. |
Número de mestres | O número de nós mestres no cluster. Esses nós contêm o YARN Resource Manager, o HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3. O padrão é 1. |
Tipo de máquina mestre | O tipo de máquina mestre a ser usada. Selecione um dos seguintes tipos de máquina:
Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
Núcleos mestre | Número de núcleos virtuais alocados a um nó mestre. O padrão é 2. |
Memória principal (GB) | A quantidade de memória, em gigabytes, alocada para um nó mestre. O padrão é 8 GB. |
Tamanho do disco mestre (GB) | Tamanho do disco, em gigabytes, alocado para um nó mestre. O padrão é 1.000 GB. |
Tipo de disco mestre | Tipo de disco de inicialização para um nó mestre:
O padrão é Disco permanente padrão. |
Tipo de máquina do worker | O tipo de máquina de trabalho a ser usada. Selecione um dos seguintes tipos de máquina:
Na versão 6.7.2 e mais recentes do Cloud Data Fusion, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
Cores de worker | Número de núcleos virtuais alocados a um nó de trabalho. O padrão é 2. |
Memória do worker (GB) | A quantidade de memória, em gigabytes, alocada para um nó de trabalho. O padrão é 8 GB. |
Tamanho do disco do worker (GB) | Tamanho do disco, em gigabytes, alocado para um nó de worker. O padrão é 1.000 GB. |
Tipo de disco do worker | Tipo de disco de inicialização para um nó de trabalho:
O padrão é Disco permanente padrão. |
Usar o escalonamento automático predefinido | Permite o uso do escalonamento automático predefinido do Dataproc. |
Número de workers principais | Os nós de worker contêm um YARN NodeManager e um HDFS DataNode. O padrão é 2. |
Número de trabalhadores secundários | Os nós de worker secundários contêm um YARN NodeManager, mas não um DataNode do HDFS. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exija um valor maior. |
Política de escalonamento automático | Caminho para o ID da política de escalonamento automático ou o URI do recurso. Para informações sobre como configurar e usar o escalonamento automático do Dataproc para redimensionar de forma automática e dinâmica os clusters e atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonamento automático de clusters do Dataproc. |
Metadados | Metadados adicionais para instâncias em execução no cluster. Normalmente, ele é usado para rastrear faturamento e chargebacks. Para mais informações, consulte Metadados do cluster. |
Tags de rede | Atribua tags de rede para aplicar regras de firewall aos nós específicos de um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula ou um número. |
Ativar a inicialização segura | Ativa a inicialização segura nas VMs do Dataproc. O padrão é False. |
Ativar o vTPM | Ativa o módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc. O padrão é False. |
Ativar o monitoramento de integridade | Ativa o Monitoramento de integridade virtual nas VMs do Dataproc. O padrão é False. |
Versão da imagem | A versão da imagem do Dataproc. Se ficar em branco, uma será selecionada automaticamente. Se a propriedade URI da imagem personalizada for deixada em branco, ela será ignorada. |
URI de imagem personalizada | O URI da imagem do Dataproc. Se ficar em branco, será inferido da propriedade Versão da imagem. |
Bucket de preparo | Bucket do Cloud Storage usado para preparar dependências de jobs e arquivos de configuração para executar pipelines no Dataproc. |
Bucket temporário | Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Dataproc. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
Nome da chave de criptografia | A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Dataproc. |
Escopos do OAuth | Os escopos do OAuth 2.0 que você pode precisar solicitar para acessar as APIs do Google, dependendo do nível de acesso necessário. O Google Cloud Escopo da plataforma é sempre incluído. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
Ações de inicialização | Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage. |
Propriedades do cluster | Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster. |
Rótulos comuns | Rótulos para organizar os clusters e jobs do Dataproc que estão sendo criados. É possível rotular cada recurso e filtrar os recursos por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes classifiquem as cobranças de faturamento por rótulo. |
Tempo máximo de inatividade | Configure o Dataproc para excluir um cluster se ele ficar inativo por mais tempo do que o número especificado de minutos. Os clusters normalmente são excluídos logo após o término de uma execução, mas a exclusão pode falhar em situações raras. Para mais informações, consulte Resolver problemas ao excluir clusters. O padrão é de 30 minutos. |
Ignorar a exclusão do cluster | Se a exclusão do cluster será ignorada no final de uma execução. É necessário excluir clusters manualmente. Use isso apenas para depurar uma execução com falha. O padrão é False. |
Ativar a integração do Stackdriver Logging | Ative a integração de geração de registros do Stackdriver. O padrão é True. |
Ativar a integração do Stackdriver Monitoring | Ative a integração do Stackdriver Monitoring. O padrão é True. |
Ativar o gateway de componentes | Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer. O padrão é False. |
Preferir IP externo | Quando o sistema está em execução em Google Cloud na mesma rede do cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True. O padrão é False. |
Criar um atraso na enquete | O número de segundos de espera após a criação de um cluster para iniciar a sondagem e verificar se o cluster foi criado. O padrão é 60 segundos. As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado ao criar e excluir clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, mude essas configurações. |
Criar jitter de enquete | Quantidade máxima de jitter aleatório, em segundos, para adicionar ao atraso ao criar um cluster. É possível usar essa propriedade para evitar muitas chamadas de API simultâneas em Google Cloud quando você tem muitos pipelines programados para serem executados ao mesmo tempo. O padrão é 20 segundos. |
Excluir atraso da pesquisa | O número de segundos a serem aguardados após a exclusão de um cluster para iniciar a pesquisa e conferir se o cluster foi excluído. O padrão é 30 segundos. |
Intervalo de pesquisa | O número de segundos para aguardar entre as pesquisas de status do cluster. O padrão é 2. |
Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON
Nome da propriedade da interface do perfil do Dataproc | Nome da propriedade JSON do perfil do Dataproc |
---|---|
Rótulo do perfil | name |
Nome do perfil | label |
Descrição | description |
ID do projeto | projectId |
Chave da conta de serviço do criador | accountKey |
Região | region |
Zona | zone |
Rede | network |
ID do projeto host da rede | networkHostProjectId |
Sub-rede | subnet |
Conta de serviço do runner | serviceAccount |
Número de mestres | masterNumNodes |
Tipo de máquina mestre | masterMachineType |
Núcleos mestre | masterCPUs |
Memória principal (GB) | masterMemoryMB |
Tamanho do disco mestre (GB) | masterDiskGB |
Tipo de disco mestre | masterDiskType |
Número de workers principais | workerNumNodes |
Número de trabalhadores secundários | secondaryWorkerNumNodes |
Tipo de máquina do worker | workerMachineType |
Cores de worker | workerCPUs |
Memória do worker (GB) | workerMemoryMB |
Tamanho do disco do worker (GB) | workerDiskGB |
Tipo de disco do worker | workerDiskType |
Metadados | clusterMetaData |
Tags de rede | networkTags |
Ativar a inicialização segura | secureBootEnabled |
Ativar o vTPM | vTpmEnabled |
Ativar o monitoramento de integridade | integrityMonitoringEnabled |
Versão da imagem | imageVersion |
URI de imagem personalizada | customImageUri |
Bucket do Cloud Storage | gcsBucket |
Nome da chave de criptografia | encryptionKeyName |
Política de escalonamento automático | autoScalingPolicy |
Ações de inicialização | initActions |
Propriedades do cluster | clusterProperties |
Marcadores | clusterLabels |
Tempo máximo de inatividade | idleTTL |
Ignorar a exclusão do cluster | skipDelete |
Ativar a integração do Stackdriver Logging | stackdriverLoggingEnabled |
Ativar a integração do Stackdriver Monitoring | stackdriverMonitoringEnabled |
Ativar o gateway de componentes | componentGatewayEnabled |
Preferir IP externo | preferExternalIP |
Criar um atraso na enquete | pollCreateDelay |
Criar jitter de enquete | pollCreateJitter |
Excluir atraso da pesquisa | pollDeleteDelay |
Intervalo de pesquisa | pollInterval |
Práticas recomendadas
Ao criar um cluster estático para os pipelines, consulte as práticas recomendadas de configuração de cluster.
A seguir
- Saiba mais sobre como gerenciar perfis de computação.