Esta página foi traduzida pela API Cloud Translation.

Propriedades do cluster

Apache Hadoop YARN, HDFS, Spark e propriedades relacionadas

Os componentes de código aberto instalados em clusters do Dataproc contêm muitos ficheiros de configuração. Por exemplo, o Apache Spark e o Apache Hadoop têm vários ficheiros de configuração XML e de texto simples. Pode usar a flag ‑‑properties do comando gcloud dataproc clusters create para modificar muitos ficheiros de configuração comuns quando cria um cluster.

Formatação

A flag gcloud dataproc clusters create --properties aceita o seguinte formato de string:

file_prefix1:property1=value1,file_prefix2:property2=value2,...

O elemento file_prefix é mapeado para um ficheiro de configuração predefinido, conforme mostrado na tabela abaixo, e o elemento property é mapeado para uma propriedade no ficheiro.
O delimitador predefinido usado para separar várias propriedades de cluster é a vírgula (,). No entanto, se uma vírgula estiver incluída num valor de propriedade, tem de alterar o delimitador especificando "^delimiter^" no início da lista de propriedades (consulte gcloud topic escaping para mais informações).
- Exemplo com um delimitador "#":
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Exemplos

comando gcloud

Para alterar a spark.masterdefinição no ficheirospark-defaults.conf, adicione a seguinte flag gcloud dataproc clusters create --properties:

--properties 'spark:spark.master=spark://example.com'

Pode alterar várias propriedades em simultâneo, num ou mais ficheiros de configuração, usando uma vírgula como separador. Cada propriedade tem de ser especificada no formato file_prefix:property=value completo. Por exemplo, para alterar a definição spark.master no ficheiro spark-defaults.conf e a definição dfs.hosts no ficheiro hdfs-site.xml, use a seguinte flag --properties ao criar um cluster:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Para definir spark.executor.memory como 10g, insira a seguinte definição properties na secção SoftwareConfig do seu pedido clusters.create:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Uma forma fácil de ver como construir o corpo JSON de um pedido REST de clusters da API Dataproc é iniciar o comando gcloud equivalente com a flag --log-http. Segue-se um exemplo de um comando gcloud dataproc clusters create, que define as propriedades do cluster com a flag --properties spark:spark.executor.memory=10g. O registo stdout mostra o corpo do pedido REST resultante (o fragmento properties é apresentado abaixo):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Saída:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Certifique-se de que cancela o comando depois de o corpo JSON ser apresentado no resultado se não quiser que o comando entre em vigor.

Consola

Para alterar a definição spark.master no ficheiro spark-defaults.conf:

Na Google Cloud consola, abra a página do Dataproc Criar um cluster. Clique no painel Personalizar cluster e, de seguida, desloque a página até à secção Propriedades do cluster.
Clique em + ADICIONAR PROPRIEDADES. Selecione spark na lista Prefixo e, de seguida, adicione "spark.master" no campo Chave e a definição no campo Valor.

Propriedades do cluster vs. do trabalho

As propriedades do Apache Hadoop YARN, HDFS, Spark e outras com o prefixo file são aplicadas ao nível do cluster quando cria um cluster. Não é possível aplicar estas propriedades a um cluster após a criação do cluster. No entanto, muitas destas propriedades também podem ser aplicadas a trabalhos específicos. Quando aplica uma propriedade a uma tarefa, o prefixo do ficheiro não é usado.

O exemplo seguinte define a memória do executor do Spark como 4g para uma tarefa do Spark (prefixo spark: omitido).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

As propriedades do trabalho podem ser enviadas num ficheiro através do comando gcloud dataproc jobs submit job-type --properties-file flag (consulte, por exemplo, a descrição de --properties-file para um envio de trabalho do Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

O PROPERTIES_FILE é um conjunto de pares key=value delimitados por linhas. A propriedade a definir é key e o valor para o qual definir a propriedade é value. Consulte a classe java.util.Properties para uma descrição detalhada do formato de ficheiro de propriedades.

Segue-se um exemplo de um ficheiro de propriedades que pode ser transmitido ao comando --properties-file quando envia uma tarefa do Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabela de propriedades com prefixo de ficheiro

Prefixo do ficheiro	Ficheiro	Finalidade do ficheiro
capacity-scheduler	capacity-scheduler.xml	Configuração do programador de capacidade do Hadoop YARN
core	core-site.xml	Configuração geral do Hadoop
distcp	distcp-default.xml	Configuração de cópia distribuída do Hadoop
flink	flink-conf.yaml	Configuração do Flink
flink-log4j	log4j.properties	Ficheiro de definições do Log4j
hadoop-env	hadoop-env.sh	Variáveis de ambiente específicas do Hadoop
hadoop-log4j	log4j.properties	Ficheiro de definições do Log4j
hbase	hbase-site.xml	Configuração do HBase
hbase-log4j	log4j.properties	Ficheiro de definições do Log4j
hdfs	hdfs-site.xml	Configuração do Hadoop HDFS
hive	hive-site.xml	Configuração da hive
hive-log4j2	hive-log4j2.properties	Ficheiro de definições do Log4j
hudi	hudi-default.conf	Configuração do Hudi
mapred	mapred-site.xml	Configuração do Hadoop MapReduce
mapred-env	mapred-env.sh	Variáveis de ambiente específicas do Hadoop MapReduce
porco	pig.properties	Configuração do Pig
pig-log4j	log4j.properties	Ficheiro de definições do Log4j
presto	config.properties	Configuração do Presto
presto-jvm	jvm.config	Configuração da JVM específica do Presto
faísca	spark-defaults.conf	Configuração do Spark
spark-env	spark-env.sh	Variáveis de ambiente específicas do Spark
spark-log4j	log4j.properties	Ficheiro de definições do Log4j
tez	tez-site.xml	Configuração do Tez
webcat-log4j	webhcat-log4j2.properties	Ficheiro de definições do Log4j
fio	yarn-site.xml	Configuração do Hadoop YARN
yarn-env	yarn-env.sh	Variáveis de ambiente específicas do Hadoop YARN
zepelim	zeppelin-site.xml	Configuração do Zeppelin
zeppelin-env	zeppelin-env.sh	Variáveis de ambiente específicas do Zepelim (apenas componente opcional)
zeppelin-log4j	log4j.properties	Ficheiro de definições do Log4j
tratador de animais	zoo.cfg	Configuração do Zookeeper
zookeeper-log4j	log4j.properties	Ficheiro de definições do Log4j

Notes

Algumas propriedades estão reservadas e não podem ser substituídas porque afetam a funcionalidade do cluster do Dataproc. Se tentar alterar uma propriedade reservada, recebe uma mensagem de erro quando cria o cluster.
Pode especificar várias alterações separando cada uma com uma vírgula.
A flag --properties não pode modificar ficheiros de configuração não apresentados acima.
As alterações às propriedades são aplicadas antes de os daemons no cluster serem iniciados.
Se a propriedade especificada existir, é atualizada. Se a propriedade especificada não existir, é adicionada ao ficheiro de configuração.

Propriedades do serviço Dataproc

As propriedades apresentadas nesta secção são específicas do Dataproc. Pode usar estas propriedades para configurar ainda mais a funcionalidade do seu cluster do Dataproc.

Formatação

A flag gcloud dataproc clusters create --properties aceita o seguinte formato de string:

property_prefix1:property1=value1,property_prefix2:property2=value2,...

O delimitador predefinido usado para separar várias propriedades de clusters é a vírgula (,). No entanto, se uma vírgula estiver incluída num valor de propriedade, tem de alterar o delimitador especificando "^delimiter^" no início da lista de propriedades (consulte gcloud topic escaping para mais informações).
- Exemplo com um delimitador "#":
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Exemplo:

Crie um cluster e defina o Modo de flexibilidade melhorado para a aleatorização do trabalhador principal do Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tabela de propriedades do serviço Dataproc

Prefixo da propriedade	Propriedade	Valores	Descrição
dataproc	agent.process.threads.job.min	`number`	O Dataproc executa controladores de tarefas do utilizador em simultâneo num conjunto de threads. Esta propriedade controla o número mínimo de threads no conjunto de threads para um arranque rápido, mesmo quando não existem tarefas em execução (predefinição: 10).
dataproc	agent.process.threads.job.max	`number`	O Dataproc executa controladores de tarefas do utilizador em simultâneo num conjunto de threads. Esta propriedade controla o número máximo de threads no conjunto de threads, limitando, por conseguinte, a simultaneidade máxima de tarefas do utilizador. Aumente este valor para uma concorrência mais elevada (predefinição: 100).
dataproc	am.primary_only	`true` ou `false`	Defina esta propriedade como `true` para impedir que o mestre da aplicação seja executado em trabalhadores com capacidade de interrupção do cluster do Dataproc. Nota: esta funcionalidade só está disponível com o Dataproc 1.2 e superior. O valor predefinido é `false`.
dataproc	conda.env.config.uri	`gs://<path>`	Localização no Cloud Storage do ficheiro de configuração do ambiente Conda. É criado e ativado um novo ambiente Conda com base neste ficheiro. Para mais informações, consulte o artigo Usar propriedades de cluster relacionadas com o Conda. (predefinição: `empty`).
dataproc	conda.packages	Pacotes Conda	Esta propriedade recebe uma lista de pacotes Conda separados por vírgulas com versões específicas a serem instaladas no ambiente Conda.`base` Para mais informações, consulte o artigo Usar propriedades de cluster relacionadas com o Conda. (predefinição: `empty`).
dataproc	dataproc.allow.zero.workers	`true` ou `false`	Defina esta propriedade SoftwareConfig como `true` num pedido da API Dataproc `clusters.create` para criar um cluster de nó único, o que altera o número predefinido de trabalhadores de 2 para 0 e coloca os componentes do trabalhador no anfitrião principal. Também pode criar um cluster de nó único a partir da Google Cloud consola ou com a CLI Google Cloud definindo o número de trabalhadores como `0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	A definição de um valor cria um mestre do Dataproc com memória persistente Intel Optane DC. Nota: as VMs Optane só podem ser criadas em zonas `us-central1-f`, apenas com o tipo de máquina `n1-highmem-96-aep` e apenas em projetos na lista de autorizações.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	A definição de um valor cria um trabalhador do Dataproc com memória persistente Intel Optane DC. Nota: as VMs Optane só podem ser criadas em zonas `us-central1-f`, apenas com o tipo de máquina `n1-highmem-96-aep` e apenas em projetos na lista de autorizações.
dataproc:	dataproc.await-new-workers-service-registration	`true` ou `false`	Esta propriedade está disponível em imagens 2.0.49 ou superior. O valor predefinido é `false`. Defina esta propriedade como `true` para aguardar que os novos trabalhadores principais registem líderes de serviços, como o HDFS NameNode e o YARN ResourceManager, durante a criação ou o aumento da escala do cluster (apenas os serviços HDFS e YARN são monitorizados). Quando definido como `true`, se um novo trabalhador não conseguir registar-se num serviço, é-lhe atribuído o estado `FAILED`. Um trabalhador com falhas é removido se o cluster estiver a ser aumentado. Se o cluster estiver a ser criado, um trabalhador com falhas é removido se a flag `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` ou o campo da API `actionOnFailedPrimaryWorkers=DELETE` tiver sido especificado como parte do comando `gcloud` ou do pedido de criação do cluster da API.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Esta propriedade recebe uma lista de mapeamentos de utilizadores para contas de serviço. Os utilizadores mapeados podem enviar cargas de trabalho interativas para o cluster com identidades de utilizador isoladas (consulte Multi-inquilino seguro baseado na conta de serviço do Dataproc).
dataproc:	dataproc.cluster.caching.enabled	`true` ou `false`	Quando o armazenamento em cache de clusters está ativado, o cluster armazena em cache os dados do Cloud Storage acedidos por tarefas do Spark, o que melhora o desempenho das tarefas sem comprometer a consistência. (predefinição: `false`).
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` ou `false`	Quando definida como `true`, a eliminação programada de clusters considera a atividade da API YARN e Dataproc Jobs ao calcular o tempo de inatividade do cluster. Quando definido como `false`, apenas é considerada a atividade da API Dataproc Jobs. (predefinição: `true`). Para mais informações, consulte o artigo Cálculo do tempo de inatividade do cluster.
dataproc	dataproc.conscrypt.provider.enable	`true` ou `false`	Ativa (`true`) ou desativa (`false`) o Conscrypt como o fornecedor de segurança Java principal. Nota: o Conscrypt está ativado por predefinição no Dataproc 1.2 e superior, mas desativado nas versões 1.0/1.1.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Esta propriedade recebe uma lista de mapeamentos de utilizadores para contas de serviço separados por vírgulas. Se um cluster for criado com esta propriedade definida, quando um utilizador envia uma tarefa, o cluster tenta roubar a identidade da conta de serviço correspondente quando acede ao Cloud Storage através do conetor do Cloud Storage. Esta funcionalidade requer a versão `2.1.4` ou superior do conector do armazenamento na nuvem. Para mais informações, consulte o artigo Multilocatário cooperativo do Dataproc. (predefinição: `empty`).
dataproc	dataproc.control.max.assigned.job.tasks	`100`	Esta propriedade limita o número de tarefas que podem ser executadas em simultâneo num nó principal do cluster. Se a contagem de tarefas ativas exceder o limite de tarefas, as novas tarefas são colocadas em fila até que as tarefas em execução sejam concluídas e os recursos sejam libertados para permitir a agendamento de novas tarefas. Nota: não é recomendável definir um limite de tarefas predefinido superior a `100` (o predefinido), uma vez que pode causar uma condição de falta de memória no nó principal.
dataproc	dataproc:hudi.version	Versão do Hudi	Define a versão do Hudi usada com o componente Dataproc Hudi opcional. Nota: esta versão é definida pelo Dataproc para ser compatível com a versão da imagem do cluster. Se for definida pelo utilizador, a criação de clusters pode falhar se a versão especificada não for compatível com a imagem do cluster.
dataproc	dataproc.lineage.enabled	`true`	Ativa a linhagem de dados num cluster do Dataproc para tarefas do Spark.
dataproc	dataproc.localssd.mount.enable	`true` ou `false`	Se os SSDs locais devem ser montados como diretórios temporários do Hadoop/Spark e diretórios de dados do HDFS (predefinição: `true`).
dataproc	dataproc.logging.extended.enabled	`true` ou `false`	Ativa (`true`) ou desativa (`false`) os registos no Cloud Logging para o seguinte: `knox`, `zeppelin`, `ranger-usersync`, `jupyter_notebook`, `jupyter_kernel_gateway` e `spark-history-server` (predefinição: `false`). Para mais informações, consulte o artigo Registos de clusters do Dataproc no Logging.
dataproc	dataproc.logging.stackdriver.enable	`true` ou `false`	Ativa (`true`) ou desativa (`false`) o Cloud Logging (predefinição: `true`). Consulte os preços do Cloud Logging para ver os encargos associados.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` ou `false`	Ativa (`true`) ou desativa (`false`) os registos do controlador de tarefas do Dataproc no Cloud Logging. Consulte o resultado e os registos da tarefa do Dataproc (predefinição: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` ou `false`	Ativa (`true`) ou desativa (`false`) os registos de contentores YARN no Cloud Logging. Consulte as opções de saída de tarefas do Spark. (predefinição: `false`).
dataproc	dataproc.logging.syslog.enabled	`true` ou `false`	Ativa (`true`) ou desativa (`false`) os registos do sistema da VM no Cloud Logging (predefinição: `false`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` ou `RUN_AFTER_SERVICES`	Para clusters de imagens 2.0 ou superior, quando definido como `RUN_AFTER_SERVICES`, as ações de inicialização no nó principal são executadas após o HDFS e quaisquer serviços que dependam do HDFS serem inicializados. Alguns exemplos de serviços dependentes do HDFS incluem: HBase, Hive Server2, Ranger, Solr e os servidores de histórico do Spark e do MapReduce. (predefinição: `RUN_BEFORE_SERVICES`).
dataproc	dataproc.monitoring.stackdriver.enable	`true` ou `false`	Ativa (`true`) ou desativa (`false`) o agente de monitorização (predefinição: `false`). Esta propriedade está obsoleta. Consulte o artigo Ative a recolha de métricas personalizadas para ativar a recolha de métricas do OSS do Dataproc no Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	A quantidade de memória média do controlador, que determina o número máximo de tarefas simultâneas que um cluster vai executar. O valor predefinido é `1` GB. Um valor inferior, como `256`, pode ser adequado para tarefas do Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	As tarefas são limitadas se esta taxa for excedida. A taxa predefinida é de `1.0` QPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	O número máximo de tarefas simultâneas. Se este valor não for definido quando o cluster for criado, o limite superior de tarefas simultâneas é calculado como `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. `masterMemoryMb` é determinado pelo tipo de máquina da VM principal. `masterMemoryMbPerJob` é `1024` por predefinição, mas é configurável na criação do cluster com a propriedade do cluster `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	A quantidade máxima de RAM que pode ser usada. Se a utilização atual estiver acima deste limite, não é possível agendar novas tarefas. A predefinição é `0.9` (90%). Se estiver definido como `1.0`, a limitação de tarefas de utilização de memória principal está desativada.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	A quantidade mínima de memória livre em megabytes necessária para o controlador de tarefas do Dataproc agendar outra tarefa no cluster. A predefinição é `256` MB.
dataproc	dataproc.snap.enabled	`true` ou `false`	Ativa ou desativa o daemon do Ubuntu Snap. O valor predefinido é `true`. Se estiver definido como`false`, os pacotes Snap pré-instalados na imagem não são afetados, mas a atualização automática está desativada. Aplica-se às imagens do Ubuntu 1.4.71, 1.5.46, 2.0.20 e mais recentes.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	Para clusters de imagens anteriores à versão 2.0, o parâmetro RUN_BEFORE_SERVICES não está definido, mas pode ser definido pelo utilizador quando o cluster é criado. Para clusters de imagens 2.0 ou superior, RUN_BEFORE_SERVICES está definido e não é possível transmitir a propriedade ao cluster (o utilizador não a pode alterar). Para obter informações sobre o efeito desta definição, consulte o artigo Considerações e diretrizes importantes: processamento de inicialização.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` ou `false`	O valor predefinido é `true`. Definido como `false` para impedir que o Dataproc termine apps YARN "órfãs". O Dataproc considera uma app YARN órfã se o controlador de tarefas que enviou a app YARN tiver sido terminado. Aviso: se usar o modo de cluster do Spark (`spark.submit.deployMode=cluster`) e definir `spark.yarn.submit.waitAppCompletion=false`, o controlador do Spark sai sem esperar que as apps YARN sejam concluídas. Neste caso, defina `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. Defina também esta propriedade como `false` se enviar tarefas do Hive.
dataproc	diagnostic.capture.enabled	`true` ou `false`	Permite a recolha de dados de diagnóstico de pontos de verificação de clusters. (predefinição: `false`).
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	Se estiver definido como `GOOGLE_DATAPROC_DIAGNOSE`, os dados de diagnóstico de pontos de verificação do cluster, que são guardados no Cloud Storage, são partilhados com o apoio técnico do Dataproc. (predefinição: não definido).
dataproc	efm.spark.shuffle	`primary-worker`	Se estiver definido como `primary-worker`, os dados de ordenação aleatória do Spark são escritos nos trabalhadores principais". Consulte o modo de flexibilidade melhorada do Dataproc para mais informações.
dataproc	job.history.to-gcs.enabled	`true` ou `false`	Permite persistir ficheiros de histórico do MapReduce e do Spark no contentor temporário do Dataproc (predefinição: `true` para versões de imagens 1.5 ou superiores). Os utilizadores podem substituir as localizações da persistência de ficheiros do histórico de tarefas através das seguintes propriedades: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir` e `spark.history.fs.logDirectory`. Consulte o servidor de histórico persistente do Dataproc para ver informações sobre estas e outras propriedades do cluster associadas ao histórico de tarefas e aos ficheiros de eventos do Dataproc.
dataproc	jobs.file-backed-output.enable	`true` ou `false`	Configura as tarefas do Dataproc para encaminhar a respetiva saída para ficheiros temporários no diretório `/var/log/google-dataproc-job`. Tem de ser definido como `true` para ativar o registo do controlador de tarefas no Cloud Logging (predefinição: `true`).
dataproc	jupyter.listen.all.interfaces	`true` ou `false`	Para reduzir o risco de execução de código remoto através de APIs de servidor de blocos de notas não seguras, a predefinição para as versões de imagens 1.3 e posteriores é `false`, o que restringe as ligações a `localhost` (`127.0.0.1`) quando o Component Gateway está ativado (a ativação do Component Gateway não é necessária para imagens 2.0 e posteriores). Esta definição predefinida pode ser substituída definindo esta propriedade como `true` para permitir todas as ligações.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Localização no Cloud Storage para guardar blocos de notas do Jupyter.
dataproc	kerberos.beta.automatic-config.enable	`true` ou `false`	Quando definida como `true`, os utilizadores não precisam de especificar a palavra-passe principal raiz do Kerberos com os indicadores `--kerberos-root-principal-password` e `--kerberos-kms-key-uri` (predefinição: `false`). Consulte o artigo Ativar o modo seguro do Hadoop através do Kerberos para mais informações.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	Nome de anfitrião/endereço do servidor de administração remoto (muitas vezes, o mesmo que o servidor KDC).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	nome do anfitrião/endereço do KDC remoto.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	Os nomes dos domínios podem ser compostos por qualquer string ASCII em MAIÚSCULAS. Normalmente, o nome do domínio é igual ao nome do domínio DNS (em MAIÚSCULAS). Exemplo: se as máquinas tiverem o nome "`machine-id`.example.west-coast.mycompany.com", o domínio associado pode ser designado como "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Localização no Cloud Storage da palavra-passe partilhada encriptada com o KMS.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a chave principal da base de dados do KDC.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a palavra-passe da chave no ficheiro do arquivo de chaves.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a palavra-passe do arquivo de chaves.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Localização no Cloud Storage do ficheiro de keystore que contém o certificado wildcard e a chave privada usada pelos nós do cluster.
dataproc	kerberos.kms.key.uri	`KMS key URI`	O URI da chave do KMS usada para desencriptar a palavra-passe de raiz, por exemplo, `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (consulte o ID do recurso da chave).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Localização no Cloud Storage da palavra-passe encriptada com o KMS para o principal raiz do Kerberos.
dataproc	kerberos.tgt.lifetime.hours	`hours`	Tempo de vida máximo do bilhete de concessão de bilhetes.
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a palavra-passe do ficheiro truststore.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Localização no Cloud Storage do ficheiro do repositório fidedigno encriptado com o KMS que contém certificados fidedignos.
dataproc	pip.packages	Pacotes Pip	Esta propriedade recebe uma lista de pacotes Pip separados por vírgulas com versões específicas, a serem instalados no ambiente `base` Conda. Para mais informações, consulte o artigo Propriedades de cluster relacionadas com o Conda. (predefinição: `empty`).
dataproc	ranger.kms.key.uri	`KMS key URI`	O URI da chave do KMS usada para desencriptar a palavra-passe do utilizador administrador do Ranger, por exemplo, `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (consulte o ID do recurso de chave).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Localização no Cloud Storage da palavra-passe encriptada com o KMS para o utilizador administrador do Ranger.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Localização no Cloud Storage da palavra-passe encriptada com o KMS para o utilizador administrador da base de dados do Ranger.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	O nome de ligação da instância do Cloud SQL, por exemplo, `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Localização no Cloud Storage da palavra-passe encriptada com o KMS para o utilizador root da instância do Cloud SQL.
dataproc	ranger.cloud-sql.use-private-ip	`true` ou `false`	Se a comunicação entre as instâncias do cluster e a instância do Cloud SQL deve ser através de IP privado (o valor predefinido é `false`).
dataproc	solr.gcs.path	`gs://<dir-path>`	Caminho do Cloud Storage para atuar como diretório principal do Solr.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	O tempo que o script de arranque do Dataproc aguarda que o hadoop-hdfs-namenode se associe às portas antes de decidir que o arranque foi bem-sucedido. O valor máximo reconhecido é de 1800 segundos (30 minutos).
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	O período de tempo que o script de arranque do Dataproc aguarda que o serviço hive-metastore se associe a portas antes de decidir que o arranque foi bem-sucedido. O valor máximo reconhecido é de 1800 segundos (30 minutos).
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	O tempo que o script de arranque do Dataproc aguarda que o hive-server2 se associe às portas antes de decidir que o arranque foi bem-sucedido. O valor máximo reconhecido é de 1800 segundos (30 minutos).
dataproc	user-attribution.enabled	`true` ou `false`	Defina esta propriedade como `true` para atribuir uma tarefa do Dataproc à identidade do utilizador que a enviou (o valor predefinido é `false`).
dataproc	yarn.docker.enable	`true` ou `false`	Defina como `true` para ativar a funcionalidade Dataproc Docker on YARN (o valor predefinido é `false`).
dataproc	yarn.docker.image	`docker image`	Quando ativa a funcionalidade Dataproc Docker on YARN (`dataproc:yarn.docker.enable=true`), pode usar esta propriedade opcional para especificar a sua imagem do Docker (por exemplo, `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Se for especificada, a imagem é transferida e colocada em cache em todos os nós do cluster durante a criação do cluster.
dataproc	yarn.log-aggregation.enabled	`true` ou `false`	Permite (`true`) ativar a agregação de registos do YARN para o `temp bucket` do cluster. O nome do contentor tem o seguinte formato: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (predefinição: `true` para versões de imagens 1.5 ou superiores). Nota: o contentor temporário do cluster não é eliminado quando o cluster é eliminado. Os utilizadores também podem definir a localização dos registos YARN agregados ao substituir a propriedade YARN `yarn.nodemanager.remote-app-log-dir`.
knox	gateway.host	`ip address`	Para reduzir o risco de execução de código remoto através de APIs de servidor de blocos de notas não seguras, a predefinição para as versões de imagens 1.3 e posteriores é `127.0.0.1`, o que restringe as ligações a `localhost` quando o Component Gateway está ativado. A definição predefinida pode ser substituída, por exemplo, definindo esta propriedade como `0.0.0.0` para permitir todas as associações.
zepelim	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Localização no Cloud Storage para guardar blocos de notas do Zeppelin.
zepelim	zeppelin.server.addr	`ip address`	Para reduzir o risco de execução de código remoto através de APIs de servidor de blocos de notas não seguras, a predefinição para as versões de imagem 1.3 e posteriores é `127.0.0.1`, o que restringe as ligações a `localhost` quando o Component Gateway está ativado. Esta definição predefinida pode ser substituída, por exemplo, definindo esta propriedade como `0.0.0.0` para permitir todas as associações.

¹Ficheiro de keystore: o ficheiro de keystore contém o certificado SSL. Deve estar no formato Java KeyStore (JKS). Quando é copiado para VMs, o nome é alterado para keystore.jks. O certificado SSL deve ser um certificado universal que se aplica a cada nó no cluster.

²Ficheiro truststore: o ficheiro truststore deve estar no formato Java KeyStore (JKS). Quando é copiado para VMs, o nome é alterado para truststore.jks.

Propriedades do cluster Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Apache Hadoop YARN, HDFS, Spark e propriedades relacionadas

Formatação

Exemplos

comando gcloud

API REST

Consola

Propriedades do cluster vs. do trabalho

Tabela de propriedades com prefixo de ficheiro

Propriedades do serviço Dataproc

Formatação

Tabela de propriedades do serviço Dataproc

Propriedades do cluster