Apache Hadoop YARN, HDFS, Spark e propriedades relacionadas
Os componentes de código aberto instalados em clusters do Dataproc contêm muitos arquivos de configuração. Por exemplo, o Apache Spark e o Apache Hadoop têm vários arquivos de configuração XML e texto simples. Use a sinalização
‑‑properties
do comando
gcloud dataproc clusters create
para modificar muitos arquivos de configuração comuns ao criar um cluster.
Formatação
A sinalização gcloud dataproc clusters create --properties
aceita o seguinte formato de
string:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
O file_prefix é mapeado para um arquivo de configuração predefinido, conforme mostrado na tabela abaixo, e o property é mapeado para uma propriedade dentro do arquivo.
O delimitador padrão usado para separar várias propriedades do cluster é a vírgula (,). No entanto, se uma vírgula for incluída em um valor de propriedade, será necessário alterar o delimitador especificando um "^delimiter^" no início da lista de propriedades. Consulte Escape de tópico do gcloud para mais informações.
- Exemplo com um delimitador "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Exemplo com um delimitador "#":
Exemplos
Comando gcloud
Para alterar a configuração spark.master
no
arquivo spark-defaults.conf
, adicione a seguinte
sinalização gcloud dataproc clusters create --properties
:
--properties 'spark:spark.master=spark://example.com'
Altere várias propriedades ao mesmo tempo, em um ou mais arquivos de configuração, usando vírgula como separador. Cada propriedade precisa ser especificada no formato file_prefix:property=value
completo. Por exemplo, para alterar a
configuração spark.master
no arquivo spark-defaults.conf
e
dfs.hosts
no arquivo hdfs-site.xml
,
use a seguinte sinalização --properties
ao criar um cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API REST
Para definir spark.executor.memory
como 10g
, insira
a seguinte configuração properties
na
seção SoftwareConfig
da solicitação
clusters.create:
"properties": { "spark:spark.executor.memory": "10g" }
Uma forma fácil de ver como construir o corpo JSON de uma
solicitação da API clusters REST do Dataproc é iniciar o
comando gcloud
equivalente usando a sinalização --log-http
.
Veja um exemplo de comando gcloud dataproc clusters create
, que define as propriedades
do cluster com a sinalização --properties spark:spark.executor.memory=10g
.
O registro de stdout mostra o corpo da solicitação REST resultante (o
snippet properties
é mostrado abaixo):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Saída:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Cancele o comando depois que o corpo JSON aparecer na saída se você não quiser que o comando seja efetivado.
Console
Para alterar a configuração spark.master
no
arquivo spark-defaults.conf
:
- No console do Google Cloud, abra a página do Dataproc Criar um cluster. Clique no painel "Personalizar cluster" e role até a seção "Propriedades do cluster".
- Clique em + ADICIONAR PROPRIEDADES. Selecione spark na lista Prefixos e, em seguida, adicione "spark.master" no campo "Chave" e a configuração no campo "Valor".
Cluster versus propriedades do job
O Apache Hadoop YARN, HDFS, Spark e outras propriedades com prefixo de arquivos são aplicadas no nível do cluster quando você cria um cluster. Essas propriedades não podem ser aplicadas a um cluster após a criação dele. No entanto, muitas dessas propriedades também podem ser aplicadas a jobs específicos. Ao aplicar uma propriedade a um job, o prefixo de arquivo não é usado.
O exemplo a seguir define a memória do executor do Spark como 4g para um job do Spark
(prefixo spark:
omitido).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
As propriedades de job podem ser enviadas em um arquivo usando a flag
gcloud dataproc jobs submit job-type --properties-file
.
Consulte, por exemplo, a descrição
--properties-file
para um envio de job do Hadoop.
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
O PROPERTIES_FILE
é um conjunto de
pares key
=value
delimitados por linha. A propriedade a ser definida é key
,
e o valor para definir a propriedade é value
. Consulte a classe
java.util.Properties
para uma descrição detalhada do formato do arquivo de propriedades.
Confira abaixo um exemplo de arquivo de propriedades que pode ser
enviado para a flag --properties-file
ao enviar um job do Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabela de propriedades com prefixo de arquivo
Prefixo do arquivo | File | Finalidade do arquivo |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Configuração YARN Capacity Scheduler do Hadoop |
core | core-site.xml | Configuração geral do Hadoop |
distcp | distcp-default.xml | Configuração de cópia distribuída do Hadoop |
flink | flink-conf.yaml | Configuração do Flink |
flink-log4j | log4j.properties | Arquivo de configurações do Log4j |
hadoop-env | hadoop-env.sh | Variáveis de ambiente específicas do Hadoop |
hadoop-log4j | log4j.properties | Arquivo de configurações do Log4j |
hbase | hbase-site.xml | Configuração do HBase |
hbase-log4j | log4j.properties | Arquivo de configurações do Log4j |
hdfs | hdfs-site.xml | Configuração HDFS do Hadoop |
hive | hive-site.xml | Configuração do Hive |
hive-log4j2 | hive-log4j2.properties | Arquivo de configurações do Log4j |
hudi | hudi-default.conf | Configuração do Hudi |
mapred | mapred-site.xml | Configuração MapReduce do Hadoop |
mapred-env | mapred-env.sh | Variáveis de ambiente específicas do Hadoop MapReduce |
pig | pig.properties | Configuração do Pig |
pig-log4j | log4j.properties | Arquivo de configurações do Log4j |
presto | config.properties | Configuração do Presto |
presto-jvm | jvm.config | Configuração JVM específica do Presto |
spark | spark-defaults.conf | Configuração do Spark |
spark-env | spark-env.sh | Variáveis de ambiente específicas do Spark |
spark-log4j | log4j.properties | Arquivo de configurações do Log4j |
tez | tez-site.xml | Configuração do Tez |
webcat-log4j | webhcat-log4j2.properties | Arquivo de configurações do Log4j |
yarn | yarn-site.xml | Configuração YARN do Hadoop |
yarn-env | yarn-env.sh | Variáveis de ambiente específicas YARN do Hadoop |
zeppelin | zeppelin-site.xml | Configuração do Zeppelin |
zeppelin-env | zeppelin-env.sh | Variáveis de ambiente específicas do Zeppelin (somente componente opcional) |
zeppelin-log4j | log4j.properties | Arquivo de configurações do Log4j |
zookeeper | zoo.cfg | Configuração do Zookeeper |
zookeeper-log4j | log4j.properties | Arquivo de configurações do Log4j |
Observações
- Algumas propriedades são reservadas e não podem ser substituídas porque afetam a funcionalidade do cluster do Dataproc. Se tentar alterar uma propriedade reservada, você receberá uma mensagem de erro ao criar o cluster.
- Especifique várias alterações separando cada uma com uma vírgula.
- A sinalização
--properties
- não modifica arquivos de configuração não mostrados acima. - As alterações nas propriedades serão aplicadas antes da inicialização dos daemons no cluster.
- Se já existir, a propriedade especificada será atualizada. Se não existir, ela será adicionada ao arquivo de configuração.
Propriedades do serviço do Dataproc
As propriedades listadas nesta seção são específicas do Dataproc. Essas propriedades podem ser usadas para configurar ainda mais a funcionalidade do cluster do Dataproc.
Formatação
A sinalização gcloud dataproc clusters create --properties
aceita o seguinte formato de
string:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
O delimitador padrão usado para separar várias propriedades do cluster é a vírgula (,). No entanto, se uma vírgula for incluída em um valor de propriedade, será necessário alterar o delimitador especificando "^delimiter^" no início da lista de propriedades. Consulte Escape de tópico do gcloud para mais informações.
- Exemplo com um delimitador "#":
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Exemplo com um delimitador "#":
Exemplo:
Crie um cluster e defina Modo de flexibilidade aprimorado como o embaralhamento de trabalho principal do Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabela de propriedades do serviço do Dataproc
Prefixo da propriedade | Property | Valores | Descrição |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
O Dataproc executa drivers de job de usuário simultaneamente em um pool de linhas de execução. Esta propriedade controla o número mínimo de linhas de execução no pool para uma inicialização rápida, mesmo quando nenhum job está em execução (padrão: 10). |
dataproc | agent.process.threads.job.max | number |
O Dataproc executa drivers de job de usuário simultaneamente em um pool de linhas de execução. Essa propriedade controla o número máximo de linhas de execução no pool de linhas de execução, limitando, assim, a simultaneidade máxima de jobs de usuário. Aumente esse valor para maior simultaneidade (padrão: 100). |
dataproc | am.primary_only | true ou false |
Defina esta propriedade como true para evitar que o mestre do aplicativo seja executado nos trabalhos preemptivos do cluster do Dataproc. Observação: este recurso só está disponível com o Dataproc 1.2 e posterior. O valor padrão é false . |
dataproc | conda.env.config.uri | gs://<path> |
Local no Cloud Storage do arquivo de configuração do ambiente do Conda. Um novo ambiente do Conda será criado e ativado com base nesse arquivo. Para mais informações, consulte Como usar as propriedades de cluster relacionadas ao Conda. (padrão: empty ). |
dataproc | conda.packages | Pacotes Conda | Esta propriedade usa uma lista de pacotes Conda separados por vírgula com versões específicas a serem instaladas no ambiente Conda base . Para mais informações, consulte Como usar as propriedades de cluster relacionadas ao Conda. (padrão: empty ). |
dataproc | dataproc.allow.zero.workers | true ou false |
Defina esta propriedade SoftwareConfig como true em uma solicitação de API clusters.create do Dataproc para criar um cluster de nó único, que altera o número padrão de trabalhos de dois para zero, e coloca componentes de trabalho no host mestre. Um cluster de nó único também pode ser criado no console do Google Cloud ou com a Google Cloud CLI definindo o número de workers como 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | A definição de um valor cria um mestre do Dataproc com memória permanente Intel Optane DC. Observação: as VMs do Optane só podem ser criadas em zonas us-central1-f , apenas com o tipo de máquina n1-highmem-96-aep e em projetos permitidos. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | A definição de um valor cria um worker do Dataproc com memória permanente do Intel Optane DC. Observação: as VMs do Optane só podem ser criadas em zonas us-central1-f , apenas com o tipo de máquina n1-highmem-96-aep e em projetos permitidos. |
dataproc: | dataproc.await-new-workers-service-registration | true ou false |
Essa propriedade está disponível nas imagens 2.0.49+. O valor padrão é false . Defina essa propriedade como true para esperar que novos workers primários registrem líderes de serviço, como o HDFS NameNode e o YARN ResourceManager, durante a criação ou o escalonamento do cluster. Somente os serviços do HDFS e do YARN são monitorados. Quando definido como true , se um novo worker não conseguir se registrar em um serviço, ele vai receber o status FAILED . Um worker com falha é removido se o cluster estiver sendo dimensionado. Se o cluster estiver sendo criado, um worker com falha será removido se a flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE ou o campo actionOnFailedPrimaryWorkers=DELETE da API tiver sido especificado como parte do comando gcloud ou da solicitação de criação de cluster da API. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Essa propriedade recebe uma lista de mapeamentos de conta de usuário a serviço. Os usuários mapeados podem enviar cargas de trabalho interativas para o cluster com identidades de usuário isoladas. Consulte Multilocação segura com base na conta de serviço do Dataproc. |
dataproc: | dataproc.cluster.caching.enabled | true ou false |
Quando o armazenamento em cache do cluster está ativado, ele armazena em cache os dados do Cloud Storage acessados por jobs do Spark, o que melhora a performance do job sem comprometer a consistência. (padrão: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true ou false |
Quando definido como true , a exclusão programada do cluster considera a atividade da API YARN e da API Dataproc Jobs ao calcular o tempo de inatividade do cluster. Quando definido como false , somente a atividade da API Dataproc Jobs é considerada. (padrão: true ). Para mais informações, consulte Cálculo do tempo ocioso do cluster. |
dataproc | dataproc.conscrypt.provider.enable | true ou false |
Ativa (true ) ou desativa (false ) Conscrypt como o fornecedor de segurança Java. Observação: Conscrypt permanece ativado por padrão no Dataproc 1.2 e superior, mas desativado no 1.0/1.1. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Essa propriedade usa uma lista de mapeamentos de contas de usuário para serviço separados por vírgula. Se um cluster for criado com essa propriedade definida, quando um usuário enviar um job, o cluster tentará personificar a conta de serviço correspondente ao acessar o Cloud Storage por meio do conector do Cloud Storage. Este recurso requer a versão 2.1.4 ou superior do conector do Cloud Storage. Para mais informações, consulte Multilocação cooperativa do Dataproc. (padrão: empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Essa propriedade limita quantas tarefas podem ser executadas simultaneamente em um nó mestre do cluster. Se a contagem de tarefas ativas exceder o limite, novos jobs serão enfileirados até que os jobs em execução sejam concluídos e os recursos sejam liberados para que novas tarefas sejam programadas. Observação:não é recomendável definir um limite de tarefa padrão acima de 100 (padrão), porque isso pode causar uma condição de falta de memória no nó mestre. |
dataproc | dataproc:hudi.version | Versão do Hudi | Define a versão do Hudi usada com o componente Dataproc Hudi opcional. Observação:essa versão é definida pelo Dataproc para ser compatível com a versão da imagem do cluster. Se for definido pelo usuário, a criação do cluster pode falhar se a versão especificada não for compatível com a imagem do cluster. |
dataproc | dataproc.lineage.enabled | true |
Permite a linhagem de dados em um cluster do Dataproc para jobs do Spark. |
dataproc | dataproc.localssd.mount.enable | true ou false |
Define a necessidade de ativar SSDs locais como diretórios temporários do Hadoop/Spark e diretórios de dados do HDFS (padrão: true ). |
dataproc | dataproc.logging.stackdriver.enable | true ou false |
Ativa (true ) ou desativa (false ) o Cloud Logging (padrão: true ). Consulte Preços do Cloud Logging para ver as cobranças associadas. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true ou false |
Ativa (true ) ou desativa (false ) os registros de driver do job do Dataproc no Cloud Logging. Consulte Saída e registros de jobs do Dataproc (padrão: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true ou false |
Ativa (true ) ou desativa (false ) os registros de contêiner YARN no Cloud Logging. Consulte Opções de saída do job do Spark. (padrão: false ). |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES ou RUN_AFTER_SERVICES |
Para clusters de imagem a partir de 2.0, quando definido como RUN_AFTER_SERVICES , as ações de inicialização no mestre serão executadas depois do HDFS e todos os serviços que dependem do HDFS serão inicializados. Exemplos de serviços dependentes de HDFS incluem: HBase, Hive Server2, Ranger, Solr e os servidores de histórico Spark e MapReduce. (padrão: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true ou false |
Ativa (true ) ou desativa (false ) o Agente do Monitoring (padrão: false ). Essa propriedade foi descontinuada. Consulte Ativar a métrica personalizada personalizadas para ativar a coleta de métricas do Dataproc OSS no Monitoramento. |
dataproc | dataproc.scheduler.driver-size-mb | number |
O consumo médio de memória do driver que determina o número máximo de jobs simultâneos que um cluster executará. O valor padrão é 1 GB. Um valor menor, como 256 , pode ser apropriado para jobs do Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
Os jobs são limitados se essa taxa for excedida. A taxa padrão é de 1.0 QPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
O número máximo de jobs simultâneos. Se esse valor não for definido quando o cluster for criado, o limite máximo de jobs simultâneos será calculado como max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb é determinado pelo tipo de máquina da VM mestre. masterMemoryMbPerJob é 1024 por padrão, mas pode ser configurado na criação do cluster com a propriedade de cluster dataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
A quantidade máxima de RAM que pode ser usada. Se o uso atual estiver acima desse limite, não será possível programar novos jobs. O padrão é 0.9 (90%). Se definido como 1.0 , o throttling de jobs de utilização da memória principal é desativado. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
A quantidade mínima de memória livre em megabytes necessária para que o driver de job do Dataproc programe outro job no cluster. O padrão é 256 MB. |
dataproc | dataproc.snap.enabled | true ou false |
Ativa ou desativa o daemon Snap do Ubuntu. O valor padrão é true . Se ela for definida como false , os pacotes Snap pré-instalados na imagem não serão afetados, mas a atualização automática será desativada. Aplica-se a imagens 1.4.71, 1.5.46, 2.0.20 e mais recentes do Ubuntu. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Para clusters de imagem anteriores à versão 2.0, RUN_BEFORE_SERVICES não está definido, mas pode ser definido pelo usuário quando o cluster é criado. Nos clusters de imagem a partir do 2.0, o valor RUN_BEFORE_SERVICES está definido e a propriedade não pode ser transmitida para o cluster (não pode ser alterada pelo usuário). Para informações sobre o efeito dessa configuração, consulte Considerações e diretrizes importantes: processamento de inicialização. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true ou false |
O valor padrão é true . Defina como false para evitar que o Dataproc encerre apps YARN "órfãos". O Dataproc considera um app YARN como órfão se o driver de job que o enviou tiver sido encerrado. Aviso:se você usar o modo de cluster do Spark (spark.submit.deployMode=cluster ) e definir spark.yarn.submit.waitAppCompletion=false , o driver do Spark será encerrado sem esperar que os apps do YARN sejam concluídos. Nesse caso, defina dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Defina essa propriedade como false se você enviar jobs do Hive. |
dataproc | efm.spark.shuffle | primary-worker |
Se definido como primary-worker , os dados de embaralhamento do Spark são gravados nos workers principais. Consulte o Modo de flexibilidade aprimorado do Dataproc para mais informações. |
dataproc | job.history.to-gcs.enabled | true ou false |
Permite arquivos de histórico MapReduce e Spark persistentes no bucket temporário do Dataproc (padrão: true para versões de imagem 1.5+). Os usuários podem substituir os locais de persistência do arquivo do histórico de jobs por meio das seguintes propriedades: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir e spark.history.fs.logDirectory Consulte Servidor de histórico permanente do Dataproc para informações sobre essas e outras propriedades de cluster associadas ao histórico de jobs e aos arquivos de evento do Dataproc. |
dataproc | jobs.file-backed-output.enable | true ou false |
Configura jobs do Dataproc para direcionar a saída para arquivos temporários no diretório /var/log/google-dataproc-job . Precisa ser definido como true para ativar a geração de registros do driver do job em Cloud Logging (padrão: true ). |
dataproc | jupyter.listen.all.interfaces | true ou false |
Para reduzir o risco de execução remota de código em APIs de servidor de notebook não seguras, a configuração padrão das versões de imagem 1.3 ou mais recente éfalse , que restringe as conexões alocalhost (127.0.0.1 ) quandoGateway de componente está ativado (a ativação do Gateway de Componentes não é necessária para imagens 2.0+). Essa configuração padrão pode ser modificada definindo esta propriedade como true para permitir todas as conexões. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Local no Cloud Storage para salvar os notebooks do Jupyter. |
dataproc | kerberos.beta.automatic-config.enable | true ou false |
Quando definido como true , os usuários não precisarão especificar a senha do principal raiz do Kerberos com as sinalizações --kerberos-root-principal-password e --kerberos-kms-key-uri (padrão: false ). Consulte Como ativar o modo seguro do Hadoop por meio do Kerberos para mais informações. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
hostname/endereço do servidor de administração remota (geralmente o mesmo que o servidor KDC). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
nome do host/endereço do KDC remoto. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
Os nomes de domínios podem consistir em qualquer string ASCII MAIÚSCULA. Normalmente, o nome do domínio é igual ao nome de domínio DNS (em MAIÚSCULAS). Exemplo: se as máquinas forem chamadas de "machine-id.example.west-coast.mycompany.com", o domínio associado poderá ser designado como "EXAMPLE.WEST-COAST.MYCOMPANY.COM". |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Local no Cloud Storage da senha compartilhada criptografada pelo KMS. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Local no Cloud Storage do arquivo criptografado pelo KMS que contém a chave mestra do banco de dados KDC. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Local no Cloud Storage do arquivo criptografado pelo KMS que contém a senha da chave no arquivo de armazenamento de chaves. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Local no Cloud Storage do arquivo criptografado pelo KMS que contém a senha do keystore. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Local no Cloud Storage do arquivo do keystore que contém o certificado curinga e a chave privada usada pelos nós do cluster. |
dataproc | kerberos.kms.key.uri | KMS key URI |
O URI da chave KMS usada para descriptografar a senha raiz, por exemplo, projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (consulte ID do recurso da chave). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Local na senha criptografada pelo KMS para a principal raiz do Kerberos. |
dataproc | kerberos.tgt.lifetime.hours | hours |
Tempo de vida útil máximo do tíquete de concessão. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Local no Cloud Storage do arquivo criptografado pelo KMS que contém a senha para o arquivo truststore. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Local no Cloud Storage do arquivo do Truststore criptografado pelo KMS que contém certificados confiáveis. |
dataproc | pip.packages | Pacotes pip | Essa propriedade usa uma lista de pacotes Pip separados por vírgulas e com versões específicas. Eles serão instalados no ambiente base do Conda. Para mais informações, consulte Propriedades de cluster relacionadas ao Conda. (padrão: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
O URI da chave KMS usada para descriptografar a senha do usuário administrador do Ranger, por exemplo, projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (consulte ID do recurso da chave). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Local na senha criptografada pelo KMS para o usuário administrador do Ranger. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Local no Cloud Storage da senha criptografada pelo KMS para o usuário administrador do banco de dados do Ranger. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
O nome da conexão da instância do Cloud SQL, por exemplo, project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Local no Cloud Storage da senha criptografada pelo KMS para o usuário raiz da instância do Cloud SQL. |
dataproc | ranger.cloud-sql.use-private-ip | true ou false |
Se a comunicação entre as instâncias do cluster e a instância do Cloud SQL precisarem estar acima do IP privado (o valor padrão será false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Caminho do Cloud Storage para atuar como diretório inicial do Solr. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
A quantidade de tempo que o script de inicialização do Dataproc aguardará a vinculação do hadoop-hdfs-namenode às portas antes de decidir que a inicialização foi bem-sucedida. O valor máximo reconhecido é de 1800 segundos (30 minutos). |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
A quantidade de tempo que o script de inicialização do Dataproc aguardará a vinculação do serviço do hive-metastore às portas antes de decidir que a inicialização foi bem-sucedida. O valor máximo reconhecido é de 1800 segundos (30 minutos). |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
A quantidade de tempo que o script de inicialização do Dataproc aguardará a vinculação do hive-server2 às portas antes de decidir que a inicialização foi bem-sucedida. O valor máximo reconhecido é de 1800 segundos (30 minutos). |
dataproc | user-attribution.enabled | true ou false |
Defina essa propriedade como true para atribuir um job do Dataproc à identidade do usuário que o enviou. O valor padrão é false . |
dataproc | yarn.docker.enable | true ou false |
Defina como true para ativar o recurso Dataproc Docker no YARN (o valor padrão é false ). |
dataproc | yarn.docker.image | docker image |
Ao ativar o recurso Dataproc Docker no YARN (dataproc:yarn.docker.enable=true ), é possível usar essa propriedade opcional para especificar a imagem do Docker (por exemplo, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Se especificado, a imagem será salva em cache em todos os nós do cluster durante a criação do cluster. |
dataproc | yarn.log-aggregation.enabled | true ou false |
Permite (true ) ativar a agregação de registros do YARN para o temp bucket do cluster. O nome do bucket tem o seguinte formato: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . padrão: true para versões de imagem 1.5+. Observação: o bucket temporário do cluster não é excluído quando ele é excluído. Os usuários também podem definir o local dos registros YARN agregados substituindo a propriedade YARN yarn.nodemanager.remote-app-log-dir . |
knox | gateway.host | ip address |
Para reduzir o risco de execução remota de código em APIs de servidor de notebook não seguras, a configuração padrão para versões de imagem 1.3+ é 127.0.0.1 , que restringe as conexões com localhost quando o Gateway de componentes está ativado. A configuração padrão pode ser modificada definindo, por exemplo, esta propriedade como 0.0.0.0 para permitir todas as conexões. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Local no Cloud Storage para salvar os notebooks do Zeppelin. |
zeppelin | zeppelin.server.addr | ip address |
Para reduzir o risco de execução remota de código em APIs de servidor de notebook não seguras, a configuração padrão para as versões de imagem 1.3+ é 127.0.0.1 , o que restringe as conexões com localhost quando o Gateway de componentes está ativado. Essa configuração padrão pode ser modificada definindo, por exemplo, esta propriedade como 0.0.0.0 para permitir todas as conexões. |
1 Arquivo de keystore: o arquivo de keystore contém o certificado SSL. Ele deve estar no formato Java KeyStore (JKS). Quando copiado para VMs, ele é renomeado para keystore.jks
.
O certificado SSL precisa ser um certificado curinga que se aplica a cada nó no cluster.
2 Arquivo do Truststore: o arquivo do Truststore precisa estar no formato Java KeyStore (JKS). Quando copiado para as VMs, ele é renomeado como truststore.jks
.