Propriedades de cluster

Os componentes de código aberto instalados em clusters do Google Cloud Dataproc contêm muitos arquivos de configuração. Por exemplo, o Apache Spark e o Apache Hadoop têm vários arquivos de configuração XML e texto simples. De vez em quando, convém atualizar ou suplementar esses arquivos de configuração. Use a sinalização ‑‑properties do comando gcloud dataproc clusters create no SDK do Cloud para modificar muitos arquivos de configuração comuns ao criar um cluster.

Como a sinalização properties funciona

Para facilitar a atualização de arquivos e propriedades, a sinalização gcloud dataproc clusters create --properties usa um formato especial para especificar o arquivo de configuração, a propriedade e o valor dentro do arquivo, que precisam ser atualizados.

Como formatar

A sinalização --properties requer uma string de texto no seguinte formato:

file_prefix:property=value

A sinalização --properties só pode modificar um grupo específico de arquivos de configuração usados normalmente. O file_prefix é mapeado para um grupo predefinido de arquivos de configuração.

Prefixo do arquivo Arquivo Objetivo do arquivo
capacity-scheduler capacity-scheduler.xml Configuração YARN Capacity Scheduler do Hadoop
core core-site.xml Configuração geral do Hadoop
distcp distcp-default.xml Configuração de cópia distribuída do Hadoop
hadoop-env hadoop-env.sh Variáveis de ambiente específicas do Hadoop
hdfs hdfs-site.xml Configuração HDFS do Hadoop
hive hive-site.xml Configuração do Hive
mapred mapred-site.xml Configuração MapReduce do Hadoop
mapred-env mapred-env.sh Variáveis de ambiente específicas do Hadoop MapReduce
pig pig.properties Configuração do Pig
presto config.properties Configuração do Presto
presto-jvm jvm.config Configuração JVM específica do Presto
spark spark-defaults.conf Configuração do Spark
spark-env spark-env.sh Variáveis de ambiente específicas do Spark
yarn yarn-site.xml Configuração YARN do Hadoop
yarn-env yarn-env.sh Variáveis de ambiente específicas YARN do Hadoop

Observações importantes

  • Algumas propriedades são reservadas e não podem ser substituídas porque afetam a funcionalidade do cluster do Cloud Dataproc. Se tentar alterar uma propriedade reservada, você receberá uma mensagem de erro ao criar o cluster.
  • Especifique várias alterações separando cada uma com uma vírgula.
  • A sinalização --properties não modifica arquivos de configuração não mostrados acima.
  • Atualmente, não há o recurso de alteração de propriedades durante a criação de clusters no Console do Google Cloud Platform.
  • As alterações nas propriedades serão aplicadas antes da inicialização dos daemons no cluster.
  • Se já existir, a propriedade especificada será atualizada. Se não existir, ela será adicionada ao arquivo de configuração.

Propriedades de serviço do Cloud Dataproc

Estas são propriedades adicionais específicas do Cloud Dataproc não incluídas nos arquivos listados acima. Elas podem ser usadas para configurar ainda mais a funcionalidade do cluster do Cloud Dataproc.

Propriedade Valores Função
dataproc:dataproc.logging.stackdriver.enable true ou false Ativa (true) ou desativa (false) a geração de registros no Stackdriver.
dataproc:dataproc.monitoring.stackdriver.enable true ou false Ativa (true) ou desativa (false) o Agente do Stackdriver Monitoring.
dataproc:dataproc.localssd.mount.enable true ou false Define a necessidade de ativar SSDs locais como diretórios temporários do Hadoop/Spark e diretórios de dados do HDFS (padrão: true).
dataproc:dataproc.allow.zero.workers true ou false Defina esta propriedade SoftwareConfig como true em uma solicitação de API clusters.create do Cloud Dataproc para criar um cluster de nó único, que altera o número padrão de trabalhos de dois para zero, e coloca componentes de trabalho no host mestre. Um cluster de nó único também pode ser criado no Console do GCP ou com a ferramenta de linha de comando gcloud definindo o número de trabalhos como 0.
dataproc:dataproc.conscrypt.provider.enable true ou false Ativa (true) ou desativa (false) Conscrypt como o fornecedor de segurança Java. Observação: Conscrypt permanece ativado por padrão no Dataproc 1.2 e superior, mas desativado no 1.0/1.1.
dataproc:am.primary_only true ou false Defina esta propriedade como true para evitar que o mestre do aplicativo seja executado nos trabalhos preemptivos do cluster do Cloud Dataproc. Observação: este recurso só está disponível com o Cloud Dataproc 1.2 e posterior. O valor padrão é false.

Exemplos

Comando gcloud

Para alterar a configuração spark.master no arquivo spark-defaults.conf, faça isso adicionando a seguinte sinalização properties ao criar um novo cluster na linha de comando:
--properties 'spark:spark.master=spark://example.com'
Altere várias propriedades ao mesmo tempo, em um ou mais arquivos de configuração, usando vírgula como separador. É preciso especificar cada propriedade no formato file_prefix:property=value completo. Por exemplo, para alterar a configuração spark.master no arquivo spark-defaults.conf e a configuração dfs.hosts no arquivo hdfs-site.xml, você pode usar a seguinte sinalização ao criar um cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

Para definir spark.executor.memory como 10gb, insira o seguinte no corpo da solicitação JSON de criação de cluster:
"properties": {
  "spark:spark.executor.memory": "10gb"
}

Console

Atualmente, não é possível adicionar propriedades de cluster a partir da página do Cloud Dataproc Criar um cluster do Console do GCP.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Cloud Dataproc
Precisa de ajuda? Acesse nossa página de suporte.