O provisionador do Dataproc no Cloud Data Fusion chama API Dataproc para criar e excluir clusters no Google Cloud projetos. É possível configurar os clusters nas configurações do provisionador.
Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Dataproc, consulte Compatibilidade de versões.
Propriedades
Propriedade | Descrição |
---|---|
ID do projeto | O projeto do Google Cloud em que o cluster do Dataproc é criado. O projeto precisa ter a API Dataproc ativada. |
Chave da conta de serviço do criador | A chave da conta de serviço informada ao provisionador precisa ter permissão de acesso ao Dataproc e ao Compute Engine APIs de terceiros. Como a chave da sua conta é confidencial, recomendamos que você forneça a chave da conta usando o Armazenamento seguro. Depois de criar a chave segura, é possível adicioná-la a um namespace ou a um perfil de computação do sistema. Para um perfil do Compute do namespace, clique no escudo e selecione o escudo de dados. Para um perfil de computação do sistema, insira o nome da chave no campo Secure Account Key. |
Região | Uma localização geográfica onde você pode hospedar seus recursos, como dos nós de computação do cluster do Dataproc. |
Zona | Uma área de implantação isolada em uma região. |
Rede | A rede VPC no seu projeto do Google Cloud que será usada ao criar um cluster do Dataproc. |
ID do projeto host da rede | Se a rede estiver em outro projeto do Google Cloud, insira o ID desse projeto. Para uma VPC compartilhada, insira o ID do projeto host em que a rede está. |
Sub-rede | A sub-rede a ser usada ao criar clusters. Ele deve estar dentro do e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona. |
Conta de serviço do executor | O nome da conta de serviço das máquinas virtuais do Dataproc (VM) usados para executar programas. Se deixado em branco, o padrão a conta de serviço do Compute Engine será usada. |
Número de mestres | O número de nós mestres no cluster. Esses nós contêm YARN Resource Manager, HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3. O padrão é 1. |
Tipo de máquina mestre | O tipo de máquina mestre a ser usada. Selecione uma das seguintes opções: tipos de máquina:
No Cloud Data Fusion versão 6.7.2 e posteriores, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
Núcleos mestres | Número de núcleos virtuais alocados a um nó mestre. O padrão é 2. |
Memória principal (GB) | A quantidade de memória, em gigabytes, alocada para um nó mestre. O padrão é 8 GB. |
Tamanho do disco mestre (GB) | Tamanho do disco, em gigabytes, alocado para um nó mestre. O padrão é 1.000 GB. |
Tipo de disco mestre | Tipo de disco de inicialização para um nó mestre:
O padrão é Disco permanente padrão. |
Tipo de máquina do worker | O tipo de máquina de trabalho a ser usada. Selecione uma das seguintes opções: tipos de máquina:
No Cloud Data Fusion versão 6.7.2 e posteriores, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
Núcleos de worker | Número de núcleos virtuais alocados para um nó de trabalho. O padrão é 2. |
Memória do worker (GB) | A quantidade de memória, em gigabytes, alocada para um nó de trabalho. O padrão é 8 GB. |
Tamanho do disco do worker (GB) | Tamanho do disco, em gigabytes, alocado para um nó de worker. O padrão é 1.000 GB. |
Tipo de disco do worker | Tipo de disco de inicialização para um nó de trabalho:
O padrão é Disco permanente padrão. |
Usar o escalonamento automático predefinido | Ativa o uso do escalonamento automático predefinido do Dataproc. |
Número de workers principais | Os nós de trabalho contêm um YARN NodeManager e um HDFS DataNode. O padrão é 2. |
Número de workers secundários | Os nós de trabalho secundários contêm um YARN NodeManager, mas não um HDFS DataNode. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exige que seja maior. |
Política de escalonamento automático | Caminho para o ID da política de escalonamento automático ou o URI do recurso. Para informações sobre como configurar e usar o escalonamento automático do Dataproc para redimensionar de forma automática e dinâmica os clusters e atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonamento automático de clusters do Dataproc. |
Metadados | Metadados adicionais para instâncias em execução no cluster. Você pode e costumam usá-lo para acompanhar cobranças e estornos. Para mais informações, consulte Metadados do cluster. |
Tags de rede | Atribuir tags de rede para aplicar regras de firewall aos nós específicos de em um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. As tags precisam terminar com uma letra minúscula ou um número. |
Ativar a inicialização segura | Ativa a Inicialização segura no VMs do Dataproc. O padrão é False. |
Ativar o vTPM | Ativa módulo de plataforma confiável virtual (vTPM) nas VMs do Dataproc. O padrão é False. |
Ativar monitoramento de integridade | Ativa o monitoramento de integridade virtual no VMs do Dataproc. O padrão é False. |
Versão da imagem | A versão de imagem do Dataproc. Se deixado em branco, será selecionadas automaticamente. Se a propriedade URI de imagem personalizada deixado em branco, esta propriedade será ignorada. |
URI de imagem personalizada | O URI da imagem do Dataproc. Se deixado em branco, ele será inferido da propriedade Versão da imagem. |
Bucket de preparo | Bucket do Cloud Storage usado para preparar dependências de jobs e arquivos de configuração para executar pipelines no Dataproc. |
Bucket temporário | Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Dataproc. Esta propriedade foi introduzida na versão do Cloud Data Fusion 6.9.2. |
Nome da chave de criptografia | A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Dataproc. |
Escopos do OAuth | Os escopos do OAuth 2.0 que podem ser solicitados para acessar o Google APIs, dependendo do nível de acesso necessário. O escopo do Google Cloud Platform é sempre incluído. Esta propriedade foi introduzida na versão do Cloud Data Fusion 6.9.2. |
Ações de inicialização | Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage. |
Propriedades do cluster | Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre pares de chave-valor aplicáveis, consulte Propriedades do cluster. |
Rótulos comuns | Rótulos para organizar os clusters e jobs do Dataproc que estão sendo criados. É possível rotular cada recurso e filtrar os recursos por rótulos. As informações sobre rótulos são encaminhadas ao sistema de faturamento para que os clientes pode detalhar suas cobranças de faturamento por rótulo. |
Tempo máximo de inatividade | Configure o Dataproc para excluir um cluster se ele ficar inativo por mais tempo do que o número especificado de minutos. Normalmente, os clusters são excluídos logo após o término de uma execução, mas a exclusão pode falhar em raras situações. Para mais informações, consulte Resolver problemas ao excluir clusters. O padrão é 30 minutos. |
Ignorar a exclusão do cluster | Define se a exclusão do cluster será ignorada no final de uma execução. É necessário excluir clusters manualmente. Isso só deve ser usado ao depurar um objeto com correr. O padrão é False. |
Ativar a integração do Stackdriver Logging | Ative a integração de geração de registros do Stackdriver. O padrão é True. |
Ativar a integração do Stackdriver Monitoring | Ative a integração do Stackdriver Monitoring. O padrão é True. |
Ativar o gateway de componentes | Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer. O padrão é False. |
Preferir IP externo | Quando o sistema está em execução no Google Cloud na mesma rede que o cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True. O padrão é False. |
Atraso na criação de enquetes | O número de segundos de espera após a criação de um cluster para iniciar a sondagem e verificar se o cluster foi criado. O padrão é 60 segundos. As configurações de pesquisa controlam a frequência com que o status do cluster é pesquisado quando criação e exclusão de clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, mude essas configurações. |
Criar instabilidade nas enquetes | Quantidade máxima de jitter aleatório, em segundos, para adicionar ao atraso ao criar um cluster. É possível usar essa propriedade para evitar muitas chamadas de API simultâneas no Google Cloud quando você tem muitos pipelines programados para serem executados ao mesmo tempo. O padrão é 20 segundos. |
Excluir atraso da enquete | O número de segundos a serem aguardados após a exclusão de um cluster para iniciar a pesquisa e verificar se o cluster foi excluído. O padrão é 30 segundos. |
Intervalo de pesquisa | O número de segundos para aguardar entre as pesquisas de status do cluster. O padrão é 2. |
Propriedades da interface da Web do perfil do Dataproc mapeadas para propriedades JSON
Nome da propriedade da interface do perfil do Dataproc | Nome da propriedade JSON do perfil do Dataproc |
---|---|
Rótulo do perfil | name |
Nome do perfil | label |
Descrição | description |
ID do projeto | projectId |
Chave da conta de serviço do criador | accountKey |
Região | region |
Zona | zone |
Rede | network |
ID do projeto host da rede | networkHostProjectId |
Sub-rede | subnet |
Conta de serviço do runner | serviceAccount |
Número de mestres | masterNumNodes |
Tipo de máquina mestre | masterMachineType |
Núcleos mestres | masterCPUs |
Memória mestre (GB) | masterMemoryMB |
Tamanho do disco mestre (GB) | masterDiskGB |
Tipo de disco mestre | masterDiskType |
Número de workers principais | workerNumNodes |
Número de workers secundários | secondaryWorkerNumNodes |
Tipo de máquina do worker | workerMachineType |
Cores de worker | workerCPUs |
Memória do worker (GB) | workerMemoryMB |
Tamanho do disco do worker (GB) | workerDiskGB |
Tipo de disco do worker | workerDiskType |
Metadados | clusterMetaData |
Tags de rede | networkTags |
Ativar a inicialização segura | secureBootEnabled |
Ativar o vTPM | vTpmEnabled |
Ativar o monitoramento de integridade | integrityMonitoringEnabled |
Versão da imagem | imageVersion |
URI de imagem personalizada | customImageUri |
Bucket do Cloud Storage | gcsBucket |
Nome da chave de criptografia | encryptionKeyName |
Política de escalonamento automático | autoScalingPolicy |
Ações de inicialização | initActions |
Propriedades do cluster | clusterProperties |
Marcadores | clusterLabels |
Tempo máximo de inatividade | idleTTL |
Pular a exclusão do cluster | skipDelete |
Ativar a integração do Stackdriver Logging | stackdriverLoggingEnabled |
Ativar a integração do Stackdriver Monitoring | stackdriverMonitoringEnabled |
Ativar o gateway de componentes | componentGatewayEnabled |
Preferir IP externo | preferExternalIP |
Criar um atraso na enquete | pollCreateDelay |
Criar jitter de enquete | pollCreateJitter |
Excluir atraso da enquete | pollDeleteDelay |
Intervalo da enquete | pollInterval |
Práticas recomendadas
Ao criar um cluster estático para os pipelines, consulte as práticas recomendadas de configuração de cluster.
A seguir
- Saiba mais sobre como gerenciar perfis de computação.