Puedes instalar componentes adicionales, como Trino, al crear un clúster de Dataproc mediante la función Componentes opcionales. En esta página se describe cómo puedes instalar el componente Trino en un clúster de Dataproc (opcional).
Trino es un motor de consulta de SQL distribuido de código abierto. El servidor y la interfaz de usuario web de Trino están disponibles de forma predeterminada en el puerto 8060
(o en el puerto 7778
si Kerberos está habilitado) del primer nodo maestro del clúster.
De forma predeterminada, Trino en Dataproc está configurado para funcionar con los conectores Hive
, BigQuery
, Memory
, TPCH
y TPCDS
.
Después de crear un clúster con el componente Trino, puedes ejecutar consultas:
- desde un terminal local con el comando
gcloud dataproc jobs submit trino
- desde una ventana de terminal del primer nodo maestro del clúster con la CLI (interfaz de línea de comandos)
trino
. Consulta Usar Trino con Dataproc.
Instalar el componente
Instala el componente al crear un clúster de Dataproc.
Consulta las versiones de Dataproc compatibles para ver la versión del componente incluida en cada lanzamiento de imagen de Dataproc.
Consola
- En la Google Cloud consola, ve a la página de Dataproc
Crear un clúster.
El panel Configurar clúster está seleccionado.
- En la sección Components (Componentes):
- En Componentes opcionales, selecciona Trino y otros componentes opcionales que quieras instalar en tu clúster.
- En Pasarela de componentes, selecciona Habilitar pasarela de componentes (consulta Ver y acceder a URLs de pasarela de componentes).
CLI de gcloud
Para crear un clúster de Dataproc que incluya el componente Trino, usa el comando gcloud dataproc clusters create con la marca --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
- CLUSTER_NAME: el nombre del clúster.
- REGION: una región de Compute Engine en la que se ubicará el clúster.
Configurar propiedades
Añade la marca --properties
al comando gcloud dataproc clusters create
para definir las propiedades de configuración trino
, trino-jvm
y trino-catalog
.
-
Propiedades de la aplicación: usa propiedades de clúster con el prefijo
trino:
para configurar propiedades de la aplicación Trino, como--properties="trino:join-distribution-type=AUTOMATIC"
. - Propiedades de configuración de JVM: usa propiedades de clúster con el prefijo
trino-jvm:
para configurar las propiedades de JVM de los procesos de Java del coordinador y del trabajador de Trino. Por ejemplo,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Crear catálogos y añadir propiedades de catálogo: usa
trino-catalog:catalog-name.property-name
para configurar catálogos de Trino.Ejemplo: La siguiente marca `properties` se puede usar con el comando `gcloud dataproc clusters create` para crear un clúster de Trino con un catálogo de Hive "prodhive". Se creará un archivo
prodhive.properties
en/usr/lib/trino/etc/catalog/
para habilitar el catálogo de prodhive.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
API REST
El componente Trino se puede especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.