Componente opcional de Dataproc para Presto

Puedes instalar componentes adicionales cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe cómo instalar opcionalmente el componente Presto en un clúster de Dataproc.

Presto es un motor de consultas de SQL distribuido de código abierto. El servidor Presto y la IU web están disponibles de forma predeterminada en el puerto 8060 (o el puerto 7778 si está habilitado Kerberos) en el primer nodo principal del clúster.

De forma predeterminada, Presto en Dataproc está configurado para funcionar con catálogos hive, tpch, tpcds, bigquery y memory.

Después de crear un clúster con el componente Presto, puedes ejecutar consultas:

Instala el componente

Instala el componente cuando crees un clúster de Dataproc. Los componentes se pueden agregar a los clústeres creados con la versión 1.3 de Dataproc y las posteriores.

Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente Presto, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configura propiedades

Agrega la marca --properties al comando gcloud dataproc clusters create para establecer las propiedades de configuración presto, presto-jvm y presto-catalog.

  • Propiedades de la aplicación: Usa las propiedades del clúster con el prefijo presto: para configurar las propiedades de la aplicación Presto; por ejemplo, --properties:presto:join-distribution-type=AUTOMATIC.
  • Propiedades de configuración de JVM: Usa las propiedades del clúster con el prefijo presto-jvm: para configurar las propiedades de JVM del coordinador de Presto y los procesos de Java de los trabajadores. Por ejemplo, --properties:presto-jvm:XX:+HeapDumpOnOutOfMemoryError.
  • Crea nuevos catálogos y agrega propiedades de catálogo: Usa presto-catalog:catalog-name.property-name para configurar los catálogos de Presto.

    Ejemplo: La siguiente marca "propiedades" se puede usar con el comando "gcloud dataproc clusters create" para crear un clúster de Presto con un catálogo de Hive "prodhive". Se creará un archivo prodhive.properties en $PRESTO_HOME/etc/catalog/ para habilitar el catálogo de prodhive.

    --properties="presto-catalog:prodhive.connecter.name=hive,presto-catalog:prodhive.hive.metastore.uri=localhost:9000"

API de REST

El componente de Presto se puede especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

  1. Habilita el componente.
    • En Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc. Haz clic en "Advanced options" (Opciones avanzadas) en la parte inferior de la página para ver la sección Optional Components (Componentes opcionales).

    • Haz clic en Select component (Seleccionar componente) para abrir el panel de selección Optional components (Componentes opcionales). Selecciona "Presto" y otros componentes opcionales para instalar en tu clúster.

  2. Habilita la puerta de enlace del componente (requiere la versión de imagen 1.3.29 o superior) para habilitar el acceso fácil a la IU web de Presto y otras interfaces web de componentes desde Google Cloud Console (consulta Cómo ver y acceder a las URL de la puerta de enlace de componentes).
    • Marca la casilla de verificación Puerta de enlace de componentes en el formulario Crear un clúster.