Esta página foi traduzida pela API Cloud Translation.

Serviços do Dataproc

Nesta página, listamos os serviços que as versões de imagens do Dataproc são executadas nos nós do cluster do Dataproc.

Todos os nós

Os serviços a seguir são executados em todos os nós de um cluster.

Tipo de nó	Serviço	Versões de imagem	Descrição
Todos os nós	google-dataproc-agent	todas	Recebe jobs do Dataproc e inicia drivers de jobs
Todos os nós	google-fluentd	todas	Coleta e envia registros ao Logging

Clusters padrão

Os serviços a seguir são executados em clusters padrão.

Tipo de nó	Serviço	Versões de imagem	Descrição
Todos os nós	hadoop-hdfs-namenode	todas	Gerencia o sistema de arquivos do HDFS
	hadoop-hdfs-secondarynamenode	todas	Checkpoints do NameNode
	hadoop-mapreduce-historyserver	todas	Veicula informações do histórico do aplicativo MapReduce
	hadoop-yarn-resourcemanager	todas	Programa e gerencia aplicativos YARN
	hadoop-yarn-timelineserver	1.3+	Veicula informações do histórico do aplicativo YARN
	hive-metastore	todas	Gerencia os metadados da tabela Hive. Por padrão, usa o banco de dados local `mariadb` (versões de imagem < 1.5) ou `mysql` (versões de imagem 1.5+) no nó mestre como o armazenamento de metadados da tabela Hive. O uso do banco de dados padrão não é recomendado porque esses bancos de dados estão vinculados ao ciclo de vida do cluster. Em vez disso, use uma das seguintes opções como o banco de dados do metastore Hive (na ordem de recomendação): Metastore do Dataproc Instância do Cloud SQL
	hive-server2	todas	Veicula as consultas recebidas dos clientes (principalmente consultas de shell do beeline) no Hive
	mariadb	< 1.5	Um banco de dados relacional usado como o banco de dados padrão para o metastore Hive em imagens do Dataproc anteriores à 1.5
	mysql	1.5+	Um banco de dados relacional usado como o banco de dados subjacente padrão para o metastore Hive em imagens do Dataproc 1.5+
	nfs-kernel-server	< 1.3	NFS é o sistema de arquivos de rede.
	spark-history-server	todas	Veicula informações do histórico do aplicativo Spark
Todos os workers	hadoop-yarn-nodemanager	todas	Inicia e gerencia contêineres YARN
Somente workers principais	hadoop-hdfs-datanode	todas	Armazena os blocos HDFS

Clusters de alta disponibilidade

Nos clusters de alta disponibilidade (HA, na sigla em inglês) do Dataproc, serviços diferentes são executados em diferentes nós mestres, conforme mostrado abaixo. Os serviços do nó de trabalho do cluster de alta disponibilidade são os mesmos listados para clusters padrão.

Tipo de nó	Serviço	Versões de imagem	Descrição
Todos os mestres	hadoop-hdfs-journalnode	todas	Um quórum de nós de diário mantém um registro de edição de modificações de namespace do HDFS. Se ocorrer um failover, o HoldNameNode lerá o registro de edição e assumirá o controle do Active NameNode.
	hadoop-yarn-resourcemanager	todas	Programa e gerencia aplicativos YARN
	hive-metastore	todas	Gerencia os metadados da tabela Hive. Por padrão, usa o banco de dados local `mariadb` (versões de imagem < 1.5) ou `mysql` (versões de imagem 1.5+) no nó mestre como o armazenamento de metadados da tabela Hive. O uso do banco de dados padrão não é recomendado porque esses bancos de dados estão vinculados ao ciclo de vida do cluster. Em vez disso, use uma das seguintes opções como o banco de dados do metastore Hive (na ordem de recomendação): Metastore do Dataproc Instância do Cloud SQL
	hive-server2	todas	Veicula as consultas recebidas dos clientes (principalmente consultas de shell do beeline) no Hive
	zookeeper-server	todas	O quórum de ZooKeeper é usado para coordenação distribuída. Em clusters de alta disponibilidade (HA, na sigla em inglês), ele é usado para a eleição de Gerenciadores de recursos do FHIR e YARN. para os líderes.
Somente mestres 0 e 1	hadoop-hdfs-namenode	todas	Gerencia o sistema de arquivos do HDFS
Somente mestres 0 e 1	hadoop-hdfs-zkfc.	todas	ZKFC é o processo `ZKFailoverController`, que é executado com o NameNode do HDFS. Ele monitora a integridade do NameNode e gerencia a eleição de líder por meio do ZooKeeper no caso de um failover.
Somente mestre 0	hadoop-mapreduce-historyserver	todas	Veicula informações do histórico do aplicativo MapReduce
	hadoop-yarn-timelineserver	1.3+	Veicula informações do histórico do aplicativo YARN
	mariadb	< 1.5	Um banco de dados relacional usado como o banco de dados padrão para o metastore Hive em imagens do Dataproc anteriores à 1.5
	mysql	1.5+	Um banco de dados relacional usado como o banco de dados subjacente padrão para o metastore Hive em imagens do Dataproc 1.5+
	nfs-kernel-server	< 1.3	NFS é o sistema de arquivos de rede.
	spark-history-server	todas	Veicula informações do histórico do aplicativo Spark