É possível instalar outros componentes, como o Druid, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Esta página descreve o componente Druid.
O componente Apache Druid é um armazenamento de dados OLAP distribuído e de código aberto. O componente Druid instala os serviços Druid nos nós mestres (Coordenador, Agente e Overlord) e workers (Histórico, Em tempo real e Intermediário) de cluster do Dataproc. O componente Druid usa o Zookeeper para gerenciar as coordenadas.
Instalar o componente
Instale o componente ao criar um cluster do Dataproc. Os componentes podem ser adicionados aos clusters criados com o Dataproc versão 1.3 ou posterior. O componente Druid requer a instalação do Zookeeper, como mostrado no exemplo da Google Cloud CLI abaixo.
Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.
Comando gcloud
Para criar um cluster do Dataproc que inclua o componente Druid, use o comando gcloud dataproc beta clusters create cluster-name com a sinalização --optional-components
.
gcloud beta dataproc clusters create cluster-name \ --optional-components=DRUID,ZOOKEEPER \ --region=region \ ... other flags
API REST
O componente Druid pode ser especificado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.Console
- Ativar o componente.
- No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
- Na seção Componentes, em Componentes opcionais, selecione Druid, Zookeeper e outros componentes opcionais para instalar no cluster.
Como acessar o Druid
Um cluster do Dataproc criado com o componente Druid instalado tem os serviços de overlord, coordenador e agente do Druid configurados no nó mestre do cluster. Esses serviços são hospedados nas seguintes portas de nó mestre:
Serviço | Porta |
---|---|
Overlord | 8092 |
Coordenador | 8081 |
Broker | 8082 |
Um cluster do Dataproc criado com o componente Druid instalado tem os serviços históricos e Intermediários do Druid configurados nos nós de trabalho. Esses serviços são hospedados nas seguintes portas de nó de trabalho:
Serviço | Porta |
---|---|
Intermediário | 8091 |
Histórico | 8083 |
Atualmente, o Druid não está integrado ao Gateway de componentes do Dataproc. Para acessar as IUs da Web do Druid Coordinator ou Overlord, crie um túnel SSH para a porta do serviço no nó mestre.