Componente Druid do Dataproc

É possível instalar componentes adicionais ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Esta página descreve o componente Druid.

O componente Apache Druid é um armazenamento de dados OLAP distribuído e de código aberto. O componente Druid instala os serviços Druid nos nós mestres (Coordenador, Agente e Overlord) e workers (Histórico, Em tempo real e Intermediário) de cluster do Dataproc. O componente Druid usa o Zookeeper para gerenciar as coordenadas.

Instalar o componente

Instale o componente ao criar um cluster do Dataproc. Os componentes podem ser adicionados aos clusters criados com o Dataproc versão 1.3 ou posterior. Para utilizar o componente Druid, é preciso instalar o Zookeeper (conforme mostrado no exemplo da ferramenta de linha de comando gcloud abaixo).

Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Druid, use o comando gcloud dataproc beta clusters create cluster-name com a sinalização --optional-components.

gcloud beta dataproc clusters create cluster-name \
    --optional-components=DRUID,ZOOKEEPER \
    --region=region \
    ... other flags

API REST

O componente Druid pode ser especificado por meio de API do Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

  1. Ativar o componente.
    • No Console do Cloud, abra a página Criar um cluster do Dataproc. Clique em "Opções avançadas" na parte inferior da página para visualizar a seção "Componentes opcionais".

    • Clique em "Selecionar componente" para abrir o painel de seleção de Componentes opcionais. Selecione "Druid" e outros componentes opcionais para instalar no cluster.

Como acessar o Druid

Um cluster do Dataproc criado com o componente Druid instalado tem os serviços de overlord, coordenador e agente do Druid configurados no nó mestre do cluster. Esses serviços são hospedados nas seguintes portas de nó mestre:

Serviço Port
Overlord 8092
Coordenador 8081
Broker 8082

Um cluster do Dataproc criado com o componente Druid instalado tem os serviços históricos e Intermediários do Druid configurados nos nós de trabalho. Esses serviços são hospedados nas seguintes portas de nó de trabalho:

Serviço Port
Intermediário 8091
Histórico 8083

Atualmente, o Druid não está integrado ao Gateway de componentes do Dataproc. Para acessar as IUs da Web do Druid Coordinator ou Overlord, crie um túnel SSH para a porta do serviço no nó mestre.