Serviços do Dataproc

Nesta página, listamos os serviços que as versões de imagens do Dataproc são executadas nos nós do cluster do Dataproc.

Todos os nós

Os serviços a seguir são executados em todos os nós de um cluster.

Tipo de nó Serviço Versões de imagem Descrição
Todos os nós google-dataproc-agent todas Recebe jobs do Dataproc e inicia drivers de jobs
google-fluentd todas Coleta e envia registros ao Logging

Clusters padrão

Os serviços a seguir são executados em clusters padrão.

Tipo de nó Serviço Versões de imagem Descrição
Todos os nós hadoop-hdfs-namenode todas Gerencia o sistema de arquivos do HDFS
hadoop-hdfs-secondarynamenode todas Checkpoints do NameNode
hadoop-mapreduce-historyserver todas Veicula informações do histórico do aplicativo MapReduce
hadoop-yarn-resourcemanager todas Programa e gerencia aplicativos YARN
hadoop-yarn-timelineserver 1.3+ Veicula informações do histórico do aplicativo YARN
hive-metastore todas Gerencia os metadados da tabela Hive. Por padrão, usa o banco de dados local mariadb (versões de imagem < 1.5) ou mysql (versões de imagem 1.5+) no nó mestre como o armazenamento de metadados da tabela Hive. O uso do banco de dados padrão não é recomendado porque esses bancos de dados estão vinculados ao ciclo de vida do cluster. Em vez disso, use uma das seguintes opções como o banco de dados do metastore Hive (na ordem de recomendação):
  1. Metastore do Dataproc
  2. Instância do Cloud SQL
hive-server2 todas Veicula as consultas recebidas dos clientes (principalmente consultas de shell do beeline) no Hive
mariadb < 1.5 Um banco de dados relacional usado como o banco de dados padrão para o metastore Hive em imagens do Dataproc anteriores à 1.5
mysql 1.5+ Um banco de dados relacional usado como o banco de dados subjacente padrão para o metastore Hive em imagens do Dataproc 1.5+
nfs-kernel-server < 1.3 NFS é o sistema de arquivos de rede.
spark-history-server todas Veicula informações do histórico do aplicativo Spark
Todos os workers hadoop-yarn-nodemanager todas Inicia e gerencia contêineres YARN
Somente workers principais hadoop-hdfs-datanode todas Armazena os blocos HDFS

Clusters de alta disponibilidade

Nos clusters de alta disponibilidade (HA, na sigla em inglês) do Dataproc, serviços diferentes são executados em diferentes nós mestres, conforme mostrado abaixo. Os serviços do nó de trabalho do cluster de alta disponibilidade são os mesmos listados para clusters padrão.

Tipo de nó Serviço Versões de imagem Descrição
Todos os mestres hadoop-hdfs-journalnode todas Um quórum de nós de diário mantém um registro de edição de modificações de namespace do HDFS. Se ocorrer um failover, o HoldNameNode lerá o registro de edição e assumirá o controle do Active NameNode.
hadoop-yarn-resourcemanager todas Programa e gerencia aplicativos YARN
hive-metastore todas Gerencia os metadados da tabela Hive. Por padrão, usa o banco de dados local mariadb (versões de imagem < 1.5) ou mysql (versões de imagem 1.5+) no nó mestre como o armazenamento de metadados da tabela Hive. O uso do banco de dados padrão não é recomendado porque esses bancos de dados estão vinculados ao ciclo de vida do cluster. Em vez disso, use uma das seguintes opções como o banco de dados do metastore Hive (na ordem de recomendação):
  1. Metastore do Dataproc
  2. Instância do Cloud SQL
hive-server2 todas Veicula as consultas recebidas dos clientes (principalmente consultas de shell do beeline) no Hive
zookeeper-server todas O quórum de ZooKeeper é usado para coordenação distribuída. Em clusters de alta disponibilidade (HA, na sigla em inglês), ele é usado para a eleição de Gerenciadores de recursos do FHIR e YARN. para os líderes.
Somente mestres 0 e 1 hadoop-hdfs-namenode todas Gerencia o sistema de arquivos do HDFS
hadoop-hdfs-zkfc todas ZKFC é o processo ZKFailoverController, que é executado com o NameNode do HDFS. Ele monitora a integridade do NameNode e gerencia a eleição de líder por meio do ZooKeeper no caso de um failover.
Somente mestre 0 hadoop-mapreduce-historyserver todas Veicula informações do histórico do aplicativo MapReduce
hadoop-yarn-timelineserver 1.3+ Veicula informações do histórico do aplicativo YARN
mariadb < 1.5 Um banco de dados relacional usado como o banco de dados padrão para o metastore Hive em imagens do Dataproc anteriores à 1.5
mysql 1.5+ Um banco de dados relacional usado como o banco de dados subjacente padrão para o metastore Hive em imagens do Dataproc 1.5+
nfs-kernel-server < 1.3 NFS é o sistema de arquivos de rede.
spark-history-server todas Veicula informações do histórico do aplicativo Spark