Componente de Druid de Cloud Dataproc

Puedes instalar componentes adicionales cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Druid.

El componente de Apache Druid es un almacén de datos OLAP distribuido de código abierto. El componente de Druid instala los servicios de Druid en los nodos principales (Coordinator, Broker y Overlord) y trabajadores (Historical, Realtime y MiddleManager) del clúster de Dataproc. El componente de Druid usa Zookeeper para administrar la coordinación.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc. Los componentes se pueden agregar a los clústeres creados con la versión 1.3 de Dataproc y las posteriores. El componente de Druid requiere la instalación del componente de Zookeeper (como se muestra en el ejemplo de la herramienta de línea de comandos de gcloud, a continuación).

Consulta las versiones compatibles de Cloud Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente Druid, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud beta dataproc clusters create cluster-name \
    --optional-components=DRUID,ZOOKEEPER \
    --region=region \
  ... other flags

API de REST

El componente de Druid se puede especificar con la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

  1. Habilita el componente.
    • En Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc. Haz clic en "Advanced options" (Opciones avanzadas) en la parte inferior de la página para ver la sección Optional Components (Componentes opcionales).

    • Haz clic en Select component (Seleccionar componente) para abrir el panel de selección Optional components (Componentes opcionales). Selecciona "Druid" y otros componentes opcionales para instalar en tu clúster.

Accede a Druid

Un clúster de Dataproc creado con el componente Druid instalado tiene configurados los servicios de Druid Overlord, Coordinator y Broker en el nodo principal del clúster. Estos servicios se alojan en los siguientes puertos del nodo principal:

Servicio Port
Overlord 8092
Coordinador 8081
Broker 8082

Un clúster de Dataproc creado con el componente de Druid instalado tiene configurados los servicios de administrador de Druid y de historial en nodos trabajadores. Estos servicios se alojan en los siguientes puertos de nodo de trabajador:

Servicio Port
Middlemanager 8091
Histórico 8083

Actualmente, Druid no está integrado con la puerta de enlace del componente de Dataproc. Para acceder a las IU web de Druid Overlord o Coordinator, crea un túnel SSH en el puerto del servicio en el nodo principal.