Apache Hadoop YARN, HDFS, Spark e propriedades relacionadas
Os componentes de código aberto instalados em clusters do Dataproc contêm muitos ficheiros de configuração. Por exemplo, o Apache Spark e o Apache Hadoop têm vários ficheiros de configuração XML e de texto simples. Pode usar a flag ‑‑properties
do comando gcloud dataproc clusters create para modificar muitos ficheiros de configuração comuns quando cria um cluster.
Formatação
A flag gcloud dataproc clusters create --properties
aceita o seguinte formato de string:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
O elemento file_prefix é mapeado para um ficheiro de configuração predefinido, conforme mostrado na tabela abaixo, e o elemento property é mapeado para uma propriedade no ficheiro.
O delimitador predefinido usado para separar várias propriedades de cluster é a vírgula (,). No entanto, se uma vírgula estiver incluída num valor de propriedade, tem de alterar o delimitador especificando "^delimiter^" no início da lista de propriedades (consulte gcloud topic escaping para mais informações).
- Exemplo com um delimitador "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Exemplo com um delimitador "#":
Exemplos
comando gcloud
Para alterar a spark.master
definição no ficheirospark-defaults.conf
, adicione a seguinte flag gcloud dataproc clusters create --properties
:
--properties 'spark:spark.master=spark://example.com'
Pode alterar várias propriedades em simultâneo, num ou mais ficheiros de configuração,
usando uma vírgula como separador. Cada propriedade tem de ser especificada no formato file_prefix:property=value
completo. Por exemplo, para alterar a definição spark.master
no ficheiro spark-defaults.conf
e a definição dfs.hosts
no ficheiro hdfs-site.xml
, use a seguinte flag --properties
ao criar um cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API REST
Para definir spark.executor.memory
como 10g
, insira a seguinte definição properties
na secção SoftwareConfig do seu pedido clusters.create:
"properties": { "spark:spark.executor.memory": "10g" }
Uma forma fácil de ver como construir o corpo JSON de um pedido REST de clusters da API Dataproc é iniciar o comando gcloud
equivalente com a flag --log-http
.
Segue-se um exemplo de um comando gcloud dataproc clusters create
, que define as propriedades do cluster com a flag --properties spark:spark.executor.memory=10g
.
O registo stdout mostra o corpo do pedido REST resultante (o fragmento properties
é apresentado abaixo):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Saída:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Certifique-se de que cancela o comando depois de o corpo JSON ser apresentado no resultado se não quiser que o comando entre em vigor.
Consola
Para alterar a definição spark.master
no ficheiro spark-defaults.conf
:
- Na Google Cloud consola, abra a página do Dataproc Criar um cluster. Clique no painel Personalizar cluster e, de seguida, desloque a página até à secção Propriedades do cluster.
- Clique em + ADICIONAR PROPRIEDADES. Selecione spark na lista Prefixo e, de seguida, adicione "spark.master" no campo Chave e a definição no campo Valor.
Propriedades do cluster vs. do trabalho
As propriedades do Apache Hadoop YARN, HDFS, Spark e outras com o prefixo file são aplicadas ao nível do cluster quando cria um cluster. Não é possível aplicar estas propriedades a um cluster após a criação do cluster. No entanto, muitas destas propriedades também podem ser aplicadas a trabalhos específicos. Quando aplica uma propriedade a uma tarefa, o prefixo do ficheiro não é usado.
O exemplo seguinte define a memória do executor do Spark como 4g para uma tarefa do Spark (prefixo spark:
omitido).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
As propriedades do trabalho podem ser enviadas num ficheiro através do comando
gcloud dataproc jobs submit job-type --properties-file
flag (consulte, por exemplo, a descrição de
--properties-file
para um envio de trabalho do Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
O PROPERTIES_FILE
é um conjunto de pares key
=value
delimitados por linhas. A propriedade a definir é key
e o valor para o qual definir a propriedade é value
. Consulte a classe
java.util.Properties
para uma descrição detalhada do formato de ficheiro de propriedades.
Segue-se um exemplo de um ficheiro de propriedades que pode ser transmitido ao comando --properties-file
quando envia uma tarefa do Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabela de propriedades com prefixo de ficheiro
Prefixo do ficheiro | Ficheiro | Finalidade do ficheiro |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Configuração do programador de capacidade do Hadoop YARN |
core | core-site.xml | Configuração geral do Hadoop |
distcp | distcp-default.xml | Configuração de cópia distribuída do Hadoop |
flink | flink-conf.yaml | Configuração do Flink |
flink-log4j | log4j.properties | Ficheiro de definições do Log4j |
hadoop-env | hadoop-env.sh | Variáveis de ambiente específicas do Hadoop |
hadoop-log4j | log4j.properties | Ficheiro de definições do Log4j |
hbase | hbase-site.xml | Configuração do HBase |
hbase-log4j | log4j.properties | Ficheiro de definições do Log4j |
hdfs | hdfs-site.xml | Configuração do Hadoop HDFS |
hive | hive-site.xml | Configuração da hive |
hive-log4j2 | hive-log4j2.properties | Ficheiro de definições do Log4j |
hudi | hudi-default.conf | Configuração do Hudi |
mapred | mapred-site.xml | Configuração do Hadoop MapReduce |
mapred-env | mapred-env.sh | Variáveis de ambiente específicas do Hadoop MapReduce |
porco | pig.properties | Configuração do Pig |
pig-log4j | log4j.properties | Ficheiro de definições do Log4j |
presto | config.properties | Configuração do Presto |
presto-jvm | jvm.config | Configuração da JVM específica do Presto |
faísca | spark-defaults.conf | Configuração do Spark |
spark-env | spark-env.sh | Variáveis de ambiente específicas do Spark |
spark-log4j | log4j.properties | Ficheiro de definições do Log4j |
tez | tez-site.xml | Configuração do Tez |
webcat-log4j | webhcat-log4j2.properties | Ficheiro de definições do Log4j |
fio | yarn-site.xml | Configuração do Hadoop YARN |
yarn-env | yarn-env.sh | Variáveis de ambiente específicas do Hadoop YARN |
zepelim | zeppelin-site.xml | Configuração do Zeppelin |
zeppelin-env | zeppelin-env.sh | Variáveis de ambiente específicas do Zepelim (apenas componente opcional) |
zeppelin-log4j | log4j.properties | Ficheiro de definições do Log4j |
tratador de animais | zoo.cfg | Configuração do Zookeeper |
zookeeper-log4j | log4j.properties | Ficheiro de definições do Log4j |
Notes
- Algumas propriedades estão reservadas e não podem ser substituídas porque afetam a funcionalidade do cluster do Dataproc. Se tentar alterar uma propriedade reservada, recebe uma mensagem de erro quando cria o cluster.
- Pode especificar várias alterações separando cada uma com uma vírgula.
- A flag
--properties
não pode modificar ficheiros de configuração não apresentados acima. - As alterações às propriedades são aplicadas antes de os daemons no cluster serem iniciados.
- Se a propriedade especificada existir, é atualizada. Se a propriedade especificada não existir, é adicionada ao ficheiro de configuração.
Propriedades do serviço Dataproc
As propriedades apresentadas nesta secção são específicas do Dataproc. Pode usar estas propriedades para configurar ainda mais a funcionalidade do seu cluster do Dataproc.
Formatação
A flag gcloud dataproc clusters create --properties
aceita o seguinte formato de string:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
O delimitador predefinido usado para separar várias propriedades de clusters é a vírgula (,). No entanto, se uma vírgula estiver incluída num valor de propriedade, tem de alterar o delimitador especificando "^delimiter^" no início da lista de propriedades (consulte gcloud topic escaping para mais informações).
- Exemplo com um delimitador "#":
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Exemplo com um delimitador "#":
Exemplo:
Crie um cluster e defina o Modo de flexibilidade melhorado para a aleatorização do trabalhador principal do Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabela de propriedades do serviço Dataproc
Prefixo da propriedade | Propriedade | Valores | Descrição |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
O Dataproc executa controladores de tarefas do utilizador em simultâneo num conjunto de threads. Esta propriedade controla o número mínimo de threads no conjunto de threads para um arranque rápido, mesmo quando não existem tarefas em execução (predefinição: 10). |
dataproc | agent.process.threads.job.max | number |
O Dataproc executa controladores de tarefas do utilizador em simultâneo num conjunto de threads. Esta propriedade controla o número máximo de threads no conjunto de threads, limitando, por conseguinte, a simultaneidade máxima de tarefas do utilizador. Aumente este valor para uma concorrência mais elevada (predefinição: 100). |
dataproc | am.primary_only | true ou false |
Defina esta propriedade como true para impedir que o mestre da aplicação seja executado em trabalhadores com capacidade de interrupção do cluster do Dataproc. Nota: esta funcionalidade só está disponível com o Dataproc 1.2 e superior. O valor predefinido é false . |
dataproc | conda.env.config.uri | gs://<path> |
Localização no Cloud Storage do ficheiro de configuração do ambiente Conda. É criado e ativado um novo ambiente Conda com base neste ficheiro. Para mais informações, consulte o artigo Usar propriedades de cluster relacionadas com o Conda. (predefinição: empty ). |
dataproc | conda.packages | Pacotes Conda | Esta propriedade recebe uma lista de pacotes Conda separados por vírgulas com versões específicas a serem instaladas no ambiente Conda.base Para mais informações, consulte o artigo Usar propriedades de cluster relacionadas com o Conda. (predefinição: empty ). |
dataproc | dataproc.allow.zero.workers | true ou false |
Defina esta propriedade SoftwareConfig como true num pedido da API Dataproc clusters.create para criar um cluster de nó único, o que altera o número predefinido de trabalhadores de 2 para 0 e coloca os componentes do trabalhador no anfitrião principal. Também pode criar um cluster de nó único a partir da Google Cloud consola ou com a CLI Google Cloud definindo o número de trabalhadores como 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | A definição de um valor cria um mestre do Dataproc com memória persistente Intel Optane DC. Nota: as VMs Optane só podem ser criadas em zonas us-central1-f , apenas com o tipo de máquina n1-highmem-96-aep e apenas em projetos na lista de autorizações. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | A definição de um valor cria um trabalhador do Dataproc com memória persistente Intel Optane DC. Nota: as VMs Optane só podem ser criadas em zonas us-central1-f , apenas com o tipo de máquina n1-highmem-96-aep e apenas em projetos na lista de autorizações. |
dataproc: | dataproc.await-new-workers-service-registration | true ou false |
Esta propriedade está disponível em imagens 2.0.49 ou superior. O valor predefinido é false . Defina esta propriedade como true para aguardar que os novos trabalhadores principais registem líderes de serviços, como o HDFS NameNode e o YARN ResourceManager, durante a criação ou o aumento da escala do cluster (apenas os serviços HDFS e YARN são monitorizados). Quando definido como true , se um novo trabalhador não conseguir registar-se num serviço, é-lhe atribuído o estado FAILED . Um trabalhador com falhas é removido se o cluster estiver a ser aumentado. Se o cluster estiver a ser criado, um trabalhador com falhas é removido se a flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE ou o campo da API actionOnFailedPrimaryWorkers=DELETE tiver sido especificado como parte do comando gcloud ou do pedido de criação do cluster da API. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Esta propriedade recebe uma lista de mapeamentos de utilizadores para contas de serviço. Os utilizadores mapeados podem enviar cargas de trabalho interativas para o cluster com identidades de utilizador isoladas (consulte Multi-inquilino seguro baseado na conta de serviço do Dataproc). |
dataproc: | dataproc.cluster.caching.enabled | true ou false |
Quando o armazenamento em cache de clusters está ativado, o cluster armazena em cache os dados do Cloud Storage acedidos por tarefas do Spark, o que melhora o desempenho das tarefas sem comprometer a consistência. (predefinição: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true ou false |
Quando definida como true , a eliminação programada de clusters considera a atividade da API YARN e Dataproc Jobs ao calcular o tempo de inatividade do cluster. Quando definido como false , apenas é considerada a atividade da API Dataproc Jobs. (predefinição: true ). Para mais informações, consulte o artigo Cálculo do tempo de inatividade do cluster. |
dataproc | dataproc.conscrypt.provider.enable | true ou false |
Ativa (true ) ou desativa (false ) o Conscrypt como o fornecedor de segurança Java principal. Nota: o Conscrypt está ativado por predefinição no Dataproc 1.2 e superior, mas desativado nas versões 1.0/1.1. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Esta propriedade recebe uma lista de mapeamentos de utilizadores para contas de serviço separados por vírgulas. Se um cluster for criado com esta propriedade definida, quando um utilizador envia uma tarefa, o cluster tenta roubar a identidade da conta de serviço correspondente quando acede ao Cloud Storage através do conetor do Cloud Storage. Esta funcionalidade requer a versão 2.1.4 ou superior do conector do armazenamento na nuvem. Para mais informações, consulte o artigo Multilocatário cooperativo do Dataproc. (predefinição: empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Esta propriedade limita o número de tarefas que podem ser executadas em simultâneo num nó principal do cluster. Se a contagem de tarefas ativas exceder o limite de tarefas, as novas tarefas são colocadas em fila até que as tarefas em execução sejam concluídas e os recursos sejam libertados para permitir a agendamento de novas tarefas. Nota: não é recomendável definir um limite de tarefas predefinido superior a 100 (o predefinido), uma vez que pode causar uma condição de falta de memória no nó principal. |
dataproc | dataproc:hudi.version | Versão do Hudi | Define a versão do Hudi usada com o componente Dataproc Hudi opcional. Nota: esta versão é definida pelo Dataproc para ser compatível com a versão da imagem do cluster. Se for definida pelo utilizador, a criação de clusters pode falhar se a versão especificada não for compatível com a imagem do cluster. |
dataproc | dataproc.lineage.enabled | true |
Ativa a linhagem de dados num cluster do Dataproc para tarefas do Spark. |
dataproc | dataproc.localssd.mount.enable | true ou false |
Se os SSDs locais devem ser montados como diretórios temporários do Hadoop/Spark e diretórios de dados do HDFS (predefinição: true ). |
dataproc | dataproc.logging.extended.enabled | true ou false |
Ativa (true ) ou desativa (false ) os registos no Cloud Logging para o seguinte: knox , zeppelin , ranger-usersync , jupyter_notebook , jupyter_kernel_gateway e spark-history-server (predefinição: false ). Para mais informações, consulte o artigo Registos de clusters do Dataproc no Logging. |
dataproc | dataproc.logging.stackdriver.enable | true ou false |
Ativa (true ) ou desativa (false ) o Cloud Logging (predefinição: true ). Consulte os preços do Cloud Logging para ver os encargos associados. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true ou false |
Ativa (true ) ou desativa (false ) os registos do controlador de tarefas do Dataproc no Cloud Logging. Consulte o resultado e os registos da tarefa do Dataproc (predefinição: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true ou false |
Ativa (true ) ou desativa (false ) os registos de contentores YARN no Cloud Logging. Consulte as opções de saída de tarefas do Spark. (predefinição: false ). |
dataproc | dataproc.logging.syslog.enabled | true ou false |
Ativa (true ) ou desativa (false ) os registos do sistema da VM no Cloud Logging (predefinição: false ). |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES ou RUN_AFTER_SERVICES |
Para clusters de imagens 2.0 ou superior, quando definido como RUN_AFTER_SERVICES , as ações de inicialização no nó principal são executadas após o HDFS e quaisquer serviços que dependam do HDFS serem inicializados. Alguns exemplos de serviços dependentes do HDFS incluem: HBase, Hive Server2, Ranger, Solr e os servidores de histórico do Spark e do MapReduce. (predefinição: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true ou false |
Ativa (true ) ou desativa (false ) o agente de monitorização (predefinição: false ). Esta propriedade está obsoleta. Consulte o artigo Ative a recolha de métricas personalizadas para ativar a recolha de métricas do OSS do Dataproc no Monitoring. |
dataproc | dataproc.scheduler.driver-size-mb | number |
A quantidade de memória média do controlador, que determina o número máximo de tarefas simultâneas que um cluster vai executar. O valor predefinido é 1 GB. Um valor inferior, como 256 , pode ser adequado para tarefas do Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
As tarefas são limitadas se esta taxa for excedida. A taxa predefinida é de 1.0 QPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
O número máximo de tarefas simultâneas. Se este valor não for definido quando o cluster for criado, o limite superior de tarefas simultâneas é calculado como max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb é determinado pelo tipo de máquina da VM principal. masterMemoryMbPerJob é 1024 por predefinição, mas é configurável na criação do cluster com a propriedade do cluster dataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
A quantidade máxima de RAM que pode ser usada. Se a utilização atual estiver acima deste limite, não é possível agendar novas tarefas. A predefinição é 0.9 (90%). Se estiver definido como 1.0 , a limitação de tarefas de utilização de memória principal está desativada. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
A quantidade mínima de memória livre em megabytes necessária para o controlador de tarefas do Dataproc agendar outra tarefa no cluster. A predefinição é 256 MB. |
dataproc | dataproc.snap.enabled | true ou false |
Ativa ou desativa o daemon do Ubuntu Snap. O valor predefinido é true . Se estiver definido comofalse , os pacotes Snap pré-instalados na imagem não são afetados, mas a atualização automática está desativada. Aplica-se às imagens do Ubuntu 1.4.71, 1.5.46, 2.0.20 e mais recentes. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Para clusters de imagens anteriores à versão 2.0, o parâmetro RUN_BEFORE_SERVICES não está definido, mas pode ser definido pelo utilizador quando o cluster é criado. Para clusters de imagens 2.0 ou superior, RUN_BEFORE_SERVICES está definido e não é possível transmitir a propriedade ao cluster (o utilizador não a pode alterar). Para obter informações sobre o efeito desta definição, consulte o artigo Considerações e diretrizes importantes: processamento de inicialização. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true ou false |
O valor predefinido é true . Definido como false para impedir que o Dataproc termine apps YARN "órfãs". O Dataproc considera uma app YARN órfã se o controlador de tarefas que enviou a app YARN tiver sido terminado. Aviso: se usar o modo de cluster do Spark (spark.submit.deployMode=cluster ) e definir spark.yarn.submit.waitAppCompletion=false , o controlador do Spark sai sem esperar que as apps YARN sejam concluídas. Neste caso, defina dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Defina também esta propriedade como false se enviar tarefas do Hive. |
dataproc | diagnostic.capture.enabled | true ou false |
Permite a recolha de dados de diagnóstico de pontos de verificação de clusters. (predefinição: false ). |
dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE |
Se estiver definido como GOOGLE_DATAPROC_DIAGNOSE , os dados de diagnóstico de pontos de verificação do cluster, que são guardados no Cloud Storage, são partilhados com o apoio técnico do Dataproc. (predefinição: não definido). |
dataproc | efm.spark.shuffle | primary-worker |
Se estiver definido como primary-worker , os dados de ordenação aleatória do Spark são escritos nos trabalhadores principais". Consulte o modo de flexibilidade melhorada do Dataproc para mais informações. |
dataproc | job.history.to-gcs.enabled | true ou false |
Permite persistir ficheiros de histórico do MapReduce e do Spark no contentor temporário do Dataproc (predefinição: true para versões de imagens 1.5 ou superiores). Os utilizadores podem substituir as localizações da persistência de ficheiros do histórico de tarefas através das seguintes propriedades: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir e spark.history.fs.logDirectory . Consulte o servidor de histórico persistente do Dataproc para ver informações sobre estas e outras propriedades do cluster associadas ao histórico de tarefas e aos ficheiros de eventos do Dataproc. |
dataproc | jobs.file-backed-output.enable | true ou false |
Configura as tarefas do Dataproc para encaminhar a respetiva saída para ficheiros temporários no diretório /var/log/google-dataproc-job . Tem de ser definido como true para ativar o registo do controlador de tarefas no Cloud Logging (predefinição: true ). |
dataproc | jupyter.listen.all.interfaces | true ou false |
Para reduzir o risco de execução de código remoto através de APIs de servidor de blocos de notas não seguras, a predefinição para as versões de imagens 1.3 e posteriores é false , o que restringe as ligações a localhost (127.0.0.1 ) quando o Component Gateway está ativado (a ativação do Component Gateway não é necessária para imagens 2.0 e posteriores). Esta definição predefinida pode ser substituída definindo esta propriedade como true para permitir todas as ligações. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Localização no Cloud Storage para guardar blocos de notas do Jupyter. |
dataproc | kerberos.beta.automatic-config.enable | true ou false |
Quando definida como true , os utilizadores não precisam de especificar a palavra-passe principal raiz do Kerberos com os indicadores --kerberos-root-principal-password e --kerberos-kms-key-uri (predefinição: false ). Consulte o artigo Ativar o modo seguro do Hadoop através do Kerberos para mais informações. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
Nome de anfitrião/endereço do servidor de administração remoto (muitas vezes, o mesmo que o servidor KDC). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
nome do anfitrião/endereço do KDC remoto. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
Os nomes dos domínios podem ser compostos por qualquer string ASCII em MAIÚSCULAS. Normalmente, o nome do domínio é igual ao nome do domínio DNS (em MAIÚSCULAS). Exemplo: se as máquinas tiverem o nome "machine-id.example.west-coast.mycompany.com", o domínio associado pode ser designado como "EXAMPLE.WEST-COAST.MYCOMPANY.COM". |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Localização no Cloud Storage da palavra-passe partilhada encriptada com o KMS. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a chave principal da base de dados do KDC. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a palavra-passe da chave no ficheiro do arquivo de chaves. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a palavra-passe do arquivo de chaves. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Localização no Cloud Storage do ficheiro de keystore que contém o certificado wildcard e a chave privada usada pelos nós do cluster. |
dataproc | kerberos.kms.key.uri | KMS key URI |
O URI da chave do KMS usada para desencriptar a palavra-passe de raiz, por exemplo, projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (consulte o ID do recurso da chave). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Localização no Cloud Storage da palavra-passe encriptada com o KMS para o principal raiz do Kerberos. |
dataproc | kerberos.tgt.lifetime.hours | hours |
Tempo de vida máximo do bilhete de concessão de bilhetes. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Localização no Cloud Storage do ficheiro encriptado com o KMS que contém a palavra-passe do ficheiro truststore. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Localização no Cloud Storage do ficheiro do repositório fidedigno encriptado com o KMS que contém certificados fidedignos. |
dataproc | pip.packages | Pacotes Pip | Esta propriedade recebe uma lista de pacotes Pip separados por vírgulas com versões específicas, a serem instalados no ambiente base Conda. Para mais informações, consulte o artigo Propriedades de cluster relacionadas com o Conda. (predefinição: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
O URI da chave do KMS usada para desencriptar a palavra-passe do utilizador administrador do Ranger, por exemplo, projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (consulte o ID do recurso de chave). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Localização no Cloud Storage da palavra-passe encriptada com o KMS para o utilizador administrador do Ranger. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Localização no Cloud Storage da palavra-passe encriptada com o KMS para o utilizador administrador da base de dados do Ranger. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
O nome de ligação da instância do Cloud SQL, por exemplo, project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Localização no Cloud Storage da palavra-passe encriptada com o KMS para o utilizador root da instância do Cloud SQL. |
dataproc | ranger.cloud-sql.use-private-ip | true ou false |
Se a comunicação entre as instâncias do cluster e a instância do Cloud SQL deve ser através de IP privado (o valor predefinido é false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Caminho do Cloud Storage para atuar como diretório principal do Solr. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
O tempo que o script de arranque do Dataproc aguarda que o hadoop-hdfs-namenode se associe às portas antes de decidir que o arranque foi bem-sucedido. O valor máximo reconhecido é de 1800 segundos (30 minutos). |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
O período de tempo que o script de arranque do Dataproc aguarda que o serviço hive-metastore se associe a portas antes de decidir que o arranque foi bem-sucedido. O valor máximo reconhecido é de 1800 segundos (30 minutos). |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
O tempo que o script de arranque do Dataproc aguarda que o hive-server2 se associe às portas antes de decidir que o arranque foi bem-sucedido. O valor máximo reconhecido é de 1800 segundos (30 minutos). |
dataproc | user-attribution.enabled | true ou false |
Defina esta propriedade como true para atribuir uma tarefa do Dataproc à identidade do utilizador que a enviou (o valor predefinido é false ). |
dataproc | yarn.docker.enable | true ou false |
Defina como true para ativar a funcionalidade Dataproc Docker on YARN (o valor predefinido é false ). |
dataproc | yarn.docker.image | docker image |
Quando ativa a funcionalidade Dataproc Docker on YARN (dataproc:yarn.docker.enable=true ), pode usar esta propriedade opcional para especificar a sua imagem do Docker (por exemplo, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Se for especificada, a imagem é transferida e colocada em cache em todos os nós do cluster durante a criação do cluster. |
dataproc | yarn.log-aggregation.enabled | true ou false |
Permite (true ) ativar a agregação de registos do YARN para o temp bucket do cluster. O nome do contentor tem o seguinte formato: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (predefinição: true para versões de imagens 1.5 ou superiores). Nota: o contentor temporário do cluster não é eliminado quando o cluster é eliminado. Os utilizadores também podem definir a localização dos registos YARN agregados ao substituir a propriedade YARN yarn.nodemanager.remote-app-log-dir . |
knox | gateway.host | ip address |
Para reduzir o risco de execução de código remoto através de APIs de servidor de blocos de notas não seguras, a predefinição para as versões de imagens 1.3 e posteriores é 127.0.0.1 , o que restringe as ligações a localhost quando o Component Gateway está ativado. A definição predefinida pode ser substituída, por exemplo, definindo esta propriedade como 0.0.0.0 para permitir todas as associações. |
zepelim | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Localização no Cloud Storage para guardar blocos de notas do Zeppelin. |
zepelim | zeppelin.server.addr | ip address |
Para reduzir o risco de execução de código remoto através de APIs de servidor de blocos de notas não seguras, a predefinição para as versões de imagem 1.3 e posteriores é 127.0.0.1 , o que restringe as ligações a localhost quando o Component Gateway está ativado. Esta definição predefinida pode ser substituída, por exemplo, definindo esta propriedade como 0.0.0.0 para permitir todas as associações. |
1Ficheiro de keystore: o ficheiro de keystore contém o certificado SSL. Deve estar no formato Java KeyStore (JKS). Quando é copiado para VMs, o nome é alterado para keystore.jks
.
O certificado SSL deve ser um certificado universal que se aplica a cada nó no cluster.
2Ficheiro truststore: o ficheiro truststore deve estar no formato Java KeyStore (JKS). Quando é copiado para VMs, o nome é alterado para
truststore.jks
.