O aprovisionador do Dataproc no Cloud Data Fusion chama a API Dataproc para criar e eliminar clusters nos seus projetos Google Cloud. Pode configurar os clusters nas definições do aprovisionador.
Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e as versões do Dataproc, consulte o artigo Compatibilidade de versões.
Propriedades
Propriedade | Descrição |
---|---|
ID do projeto | O Google Cloud projeto onde o cluster do Dataproc é criado. O projeto tem de ter a API Dataproc ativada. |
Chave da conta de serviço do criador | A chave da conta de serviço fornecida ao aprovisionador tem de ter autorização para aceder às APIs Dataproc e Compute Engine. Como a chave da conta é sensível, recomendamos que faculte a chave da conta através do armazenamento seguro. Depois de criar a chave segura, pode adicioná-la a um espaço de nomes ou a um perfil de computação do sistema. Para um perfil de computação do espaço de nomes, clique no ícone de escudo e selecione a chave segura. Para um perfil de cálculo do sistema, introduza o nome da chave no campo Chave da conta segura. |
Região | Uma localização geográfica onde pode alojar os seus recursos, como os nós de computação para o cluster do Dataproc. |
Zona | Uma área de implementação isolada numa região. |
Rede | A rede VPC no seu Google Cloud projeto que vai ser usada quando criar um cluster do Dataproc. |
ID do projeto anfitrião da rede | Se a rede residir noutro Google Cloud projeto, introduza o ID desse projeto. Para uma VPC partilhada, introduza o ID do projeto anfitrião onde a rede reside. |
Sub-rede | A sub-rede a usar quando criar clusters. Tem de estar na rede indicada e na região em que a zona se encontra. Se deixar em branco, é selecionada uma sub-rede com base na rede e na zona. |
Conta de serviço do executor | O nome da conta de serviço das máquinas virtuais (VM) do Dataproc que são usadas para executar programas. Se deixar em branco, é usada a conta de serviço do Compute Engine predefinida. |
Número de mestres | O número de nós principais no cluster. Estes nós contêm o gestor de recursos do YARN, o NameNode do HDFS e todos os controladores. Tem de ser definido como 1 ou 3. A predefinição é 1. |
Tipo de máquina principal | O tipo de máquina principal a usar. Selecione um dos seguintes tipos de máquinas:
Na versão 6.7.2 e posteriores do Cloud Data Fusion, a predefinição é e2. Na versão 6.7.1, o valor predefinido é n2. Na versão 6.7.0 e anteriores, a predefinição é n1. |
Núcleos principais | Número de núcleos virtuais atribuídos a um nó principal. A predefinição é 2. |
Memória principal (GB) | A quantidade de memória, em gigabytes, atribuída a um nó principal. A predefinição é 8 GB. |
Tamanho do disco principal (GB) | Tamanho do disco, em gigabytes, atribuído a um nó principal. A predefinição é 1000 GB. |
Tipo de disco principal | Tipo de disco de arranque para um nó principal:
A predefinição é Disco persistente padrão. |
Tipo de máquina de trabalhador | O tipo de máquina de trabalho a usar. Selecione um dos seguintes tipos de máquinas:
Na versão 6.7.2 e posteriores do Cloud Data Fusion, a predefinição é e2. Na versão 6.7.1, o valor predefinido é n2. Na versão 6.7.0 e anteriores, a predefinição é n1. |
Núcleos de trabalho | Número de núcleos virtuais atribuídos a um nó trabalhador. A predefinição é 2. |
Memória do trabalhador (GB) | A quantidade de memória, em gigabytes, atribuída a um nó trabalhador. A predefinição é 8 GB. |
Tamanho do disco do trabalhador (GB) | Tamanho do disco, em gigabytes, atribuído a um nó trabalhador. A predefinição é 1000 GB. |
Tipo de disco de trabalhador | Tipo de disco de arranque para um nó trabalhador:
A predefinição é Disco persistente padrão. |
Use o dimensionamento automático predefinido | Permite a utilização do dimensionamento automático do Dataproc predefinido. |
Número de trabalhadores principais | Os nós de trabalho contêm um YARN NodeManager e um HDFS DataNode. A predefinição é 2. |
Número de trabalhadores secundários | Os nós de trabalho secundários contêm um YARN NodeManager, mas não um HDFS DataNode. Normalmente, este valor é definido como zero, a menos que uma política de escalamento automático exija que seja superior. |
Política de dimensionamento automático | Caminho para o ID da política de escalamento automático ou o URI do recurso. Para obter informações sobre a configuração e a utilização da escalabilidade automática do Dataproc para redimensionar automaticamente e dinamicamente os clusters de forma a satisfazer as exigências da carga de trabalho, consulte Quando usar a escalabilidade automática e Crie uma escala automática de clusters do Dataproc. |
Metadados | Metadados adicionais para instâncias em execução no seu cluster. Normalmente, pode usá-lo para acompanhar a faturação e as anulações de débitos. Para mais informações, consulte o artigo Metadados de clusters. |
Etiquetas de rede | Atribua etiquetas de rede para aplicar regras de firewall aos nós específicos de um cluster. As etiquetas de rede têm de começar por uma letra minúscula e podem conter letras minúsculas, números e hífenes. As etiquetas têm de terminar com uma letra minúscula ou um número. |
Ative o arranque seguro | Ativa o arranque seguro nas VMs do Dataproc. O valor predefinido é False. |
Ative o vTPM | Ativa o Trusted Platform Module virtual (vTPM) nas VMs do Dataproc. O valor predefinido é False. |
Ative a monitorização da integridade | Ativa a monitorização da integridade virtual nas VMs do Dataproc. O valor predefinido é False. |
Versão da imagem | A versão da imagem do Dataproc. Se deixar em branco, é selecionada automaticamente uma das opções. Se a propriedade URI da imagem personalizada for deixada em branco, esta propriedade é ignorada. |
URI de imagem personalizada | O URI da imagem do Dataproc. Se for deixado em branco, é inferido a partir da propriedade Versão da imagem. |
Contentor de preparação | Contentor do Cloud Storage usado para preparar dependências de tarefas e ficheiros de configuração para executar pipelines no Dataproc. |
Segmento temporário | Recipiente do Cloud Storage usado para armazenar dados de tarefas e clusters efémeros, como ficheiros do histórico do Spark no Dataproc. Esta propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
Nome da chave de encriptação | A chave de encriptação gerida pelo cliente (CMEK) usada pelo Dataproc. |
Âmbitos do OAuth | Os âmbitos do OAuth 2.0 que pode ter de pedir para aceder às APIs Google, consoante o nível de acesso de que precisa. Google Cloud Âmbito da plataforma está sempre incluído. Esta propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
Ações de inicialização | Uma lista de scripts a executar durante a inicialização do cluster. As ações de inicialização devem ser colocadas no Cloud Storage. |
Propriedades de cluster | Propriedades do cluster que substituem as propriedades de configuração predefinidas dos serviços Hadoop. Para mais informações sobre os pares de chave-valor aplicáveis, consulte Propriedades do cluster. |
Etiquetas comuns | Etiquetas para organizar os clusters e as tarefas do Dataproc que estão a ser criados. Pode etiquetar cada recurso e, em seguida, filtrar os recursos por etiquetas. As informações sobre as etiquetas são encaminhadas para o sistema de faturação, para que os clientes possam discriminá-las por etiqueta. |
Tempo de inatividade máximo | Configure o Dataproc para eliminar um cluster se estiver inativo durante mais tempo do que o número de minutos especificado. Normalmente, os clusters são eliminados imediatamente após a conclusão de uma execução, mas a eliminação pode falhar em situações raras. Para mais informações, consulte o artigo Resolva problemas de eliminação de clusters. A predefinição é 30 minutos. |
Ignorar eliminação de cluster | Se deve ignorar a eliminação de clusters no final de uma execução. Tem de eliminar manualmente os clusters. Isto só deve ser usado quando depurar uma execução com falhas. O valor predefinido é False. |
Ative a integração do Stackdriver Logging | Ative a integração do registo do Stackdriver. A predefinição é True. |
Ative a integração do Stackdriver Monitoring | Ative a integração do Stackdriver Monitoring. A predefinição é True. |
Ative o gateway de componentes | Ative o gateway de componentes para aceder às interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer. O valor predefinido é False. |
Preferir IP externo | Quando o sistema é executado Google Cloud na mesma rede que o cluster, normalmente, usa o endereço IP interno quando comunica com o cluster. Para usar sempre o endereço IP externo, defina este valor como Verdadeiro. O valor predefinido é False. |
Criar atraso na sondagem | O número de segundos a aguardar após a criação de um cluster para começar a sondar para ver se o cluster foi criado. A predefinição é 60 segundos. As definições de sondagem controlam a frequência com que o estado do cluster é sondado quando cria e elimina clusters. Se tiver muitos pipelines agendados para serem executados em simultâneo, é aconselhável alterar estas definições. |
Criar instabilidade de sondagem | Quantidade máxima de instabilidade aleatória, em segundos, a adicionar ao atraso quando criar um cluster. Pode usar esta propriedade para evitar muitas chamadas de API simultâneas quando tem muitos pipelines agendados para serem executados exatamente ao mesmo tempo. Google Cloud A predefinição é 20 segundos. |
Elimine o atraso da sondagem | O número de segundos a aguardar após a eliminação de um cluster para iniciar a sondagem para ver se o cluster foi eliminado. A predefinição é 30 segundos. |
Intervalo de sondagem | O número de segundos a aguardar entre as sondagens do estado do cluster. A predefinição é 2. |
Propriedades da interface Web do perfil do Dataproc mapeadas para propriedades JSON
Nome da propriedade da IU do perfil do Dataproc | Nome da propriedade JSON do perfil do Dataproc |
---|---|
Etiqueta do perfil | name |
Nome do perfil | label |
Descrição | description |
ID do projeto | projectId |
Chave da conta de serviço do criador | accountKey |
Região | region |
Zona | zone |
Rede | network |
ID do projeto anfitrião da rede | networkHostProjectId |
Sub-rede | subnet |
Conta de serviço do executor | serviceAccount |
Número de mestres | masterNumNodes |
Tipo de máquina principal | masterMachineType |
Núcleos principais | masterCPUs |
Memória principal (GB) | masterMemoryMB |
Tamanho do disco principal (GB) | masterDiskGB |
Tipo de disco principal | masterDiskType |
Número de trabalhadores principais | workerNumNodes |
Número de trabalhadores secundários | secondaryWorkerNumNodes |
Tipo de máquina de trabalhador | workerMachineType |
Núcleos de trabalho | workerCPUs |
Memória do trabalhador (GB) | workerMemoryMB |
Tamanho do disco do trabalhador (GB) | workerDiskGB |
Tipo de disco de trabalhador | workerDiskType |
Metadados | clusterMetaData |
Etiquetas de rede | networkTags |
Ative o arranque seguro | secureBootEnabled |
Ative o vTPM | vTpmEnabled |
Ative a monitorização da integridade | integrityMonitoringEnabled |
Versão da imagem | imageVersion |
URI de imagem personalizada | customImageUri |
Contentor do Cloud Storage | gcsBucket |
Nome da chave de encriptação | encryptionKeyName |
Política de dimensionamento automático | autoScalingPolicy |
Ações de inicialização | initActions |
Propriedades de cluster | clusterProperties |
Marcadores | clusterLabels |
Tempo de inatividade máximo | idleTTL |
Ignorar eliminação de cluster | skipDelete |
Ative a integração do Stackdriver Logging | stackdriverLoggingEnabled |
Ative a integração do Stackdriver Monitoring | stackdriverMonitoringEnabled |
Ative o gateway de componentes | componentGatewayEnabled |
Preferir IP externo | preferExternalIP |
Criar atraso na sondagem | pollCreateDelay |
Criar instabilidade de sondagem | pollCreateJitter |
Elimine o atraso da sondagem | pollDeleteDelay |
Intervalo de sondagem | pollInterval |
Práticas recomendadas
Quando criar um cluster estático para os seus pipelines, consulte as práticas recomendadas de configuração de clusters.
O que se segue?
- Saiba como gerir perfis de computação.