Serviços do Dataproc

Esta página lista os serviços que as versões de imagens do Dataproc executam nos nós do cluster do Dataproc.

Todos os nós

Os seguintes serviços são executados em todos os nós de um cluster.

Tipo de nó Serviço Versões de imagens Descrição
Todos os nós google-dataproc-agent todos Recebe tarefas do Dataproc e inicia controladores de tarefas
google-fluentd todos Recolhe e envia registos para o Logging

Clusters padrão

Os seguintes serviços são executados em clusters padrão.

Tipo de nó Serviço Versões de imagens Descrição
Principal hadoop-hdfs-namenode todos Faz a gestão do sistema de ficheiros HDFS
hadoop-hdfs-secondarynamenode todos Faz pontos de restauro do NameNode
hadoop-mapreduce-historyserver todos Publica informações do histórico de aplicações MapReduce
hadoop-yarn-resourcemanager todos Agenda e gere aplicações YARN
hadoop-yarn-timelineserver 1.3+ Publica informações do histórico de aplicações YARN
hive-metastore todos Faz a gestão dos metadados das tabelas do Hive. Por predefinição, usa a base de dados local mariadb (versões de imagens inferiores a 1.5) ou mysql (versões de imagens 1.5 ou superiores) no nó principal como o arquivo de metadados da tabela Hive. Não é recomendável usar a base de dados predefinida porque estas bases de dados estão associadas ao ciclo de vida do cluster. Em alternativa, use uma das seguintes opções como base de dados do metastore do Hive (por ordem de recomendação):
  1. Dataproc Metastore
  2. Instância do Cloud SQL
hive-server2 todos Serve consultas recebidas de clientes (principalmente consultas de shell de beeline) em relação ao Hive
mariadb < 1,5 Uma base de dados relacional usada como base de dados subjacente predefinida para o metastore do Hive em imagens do Dataproc < 1.5
mysql 1,5 ou mais Uma base de dados relacional usada como base de dados subjacente predefinida para o Hive metastore em imagens do Dataproc 1.5 ou superior
nfs-kernel-server < 1,3 NFS é o sistema de ficheiros de rede.
spark-history-server todos Serve informações do histórico de aplicações do Spark
Todos os trabalhadores hadoop-yarn-nodemanager todos Inicia e gere contentores YARN
Apenas trabalhadores primários hadoop-hdfs-datanode todos Armazena blocos HDFS

Clusters de HA

Nos clusters de alta disponibilidade (HA) do Dataproc, os diferentes serviços são executados em diferentes nós principais, como mostrado abaixo. Os serviços de nós de trabalho do cluster de HA são os mesmos que os indicados para clusters padrão.

Tipo de nó Serviço Versões de imagens Descrição
Todos os mestres hadoop-hdfs-journalnode todos Um quórum de nós de registo mantém um registo de edições das modificações do espaço de nomes do HDFS. Se ocorrer uma comutação por falha, o Standby NameNode lê o registo de edições e assume o controlo do Active NameNode.
hadoop-yarn-resourcemanager todos Agenda e gere aplicações YARN
hive-metastore todos Faz a gestão dos metadados das tabelas do Hive. Por predefinição, usa a base de dados local mariadb (versões de imagens inferiores a 1.5) ou mysql (versões de imagens 1.5 ou superiores) no nó principal como o arquivo de metadados da tabela Hive. Não é recomendável usar a base de dados predefinida porque estas bases de dados estão associadas ao ciclo de vida do cluster. Em alternativa, use uma das seguintes opções como base de dados do metastore do Hive (por ordem de recomendação):
  1. Dataproc Metastore
  2. Instância do Cloud SQL
hive-server2 todos Serve consultas recebidas de clientes (principalmente consultas de shell de beeline) em relação ao Hive
zookeeper-server todos É usado um quórum do ZooKeeper para a coordenação distribuída. Nos clusters de alta disponibilidade (HA), é usado para a eleição de líder dos HDFS NameNodes e dos gestores de recursos do YARN.
Apenas mestrados 0 e 1 hadoop-hdfs-namenode todos Faz a gestão do sistema de ficheiros HDFS
hadoop-hdfs-zkfc todos O ZKFC é o processo ZKFailoverController, que é executado com o HDFS NameNode. Monitoriza o estado do NameNode e gere a eleição de líder através do ZooKeeper em caso de failover.
Apenas mestre 0 hadoop-mapreduce-historyserver todos Publica informações do histórico de aplicações MapReduce
hadoop-yarn-timelineserver 1.3+ Publica informações do histórico de aplicações YARN
mariadb < 1,5 Uma base de dados relacional usada como base de dados subjacente predefinida para o metastore do Hive em imagens do Dataproc < 1.5
mysql 1,5 ou mais Uma base de dados relacional usada como base de dados subjacente predefinida para o Hive metastore em imagens do Dataproc 1.5 ou superior
nfs-kernel-server < 1,3 NFS é o sistema de ficheiros de rede.
spark-history-server todos Serve informações do histórico de aplicações do Spark