Puedes instalar componentes adicionales como Trino cuando creas un Dataproc clúster mediante Componentes opcionales . En esta página, se describe cómo instalar opcionalmente el componente de Trino en un clúster de Dataproc.
Trino es una empresa abierta
motor de consulta en SQL distribuido de origen. El servidor de Trino y
Las IU web están disponibles de forma predeterminada en el puerto 8060
(o en el 7778
si Kerberos
habilitado) en el primer nodo principal del clúster.
De forma predeterminada, Trino en Dataproc está configurado para funcionar con Hive
, BigQuery
,
conectores Memory
, TPCH
y TPCDS
.
Después de crear un clúster con el componente Trino, puedes ejecutar consultas:
- desde una terminal local con el comando
gcloud dataproc jobs submit trino
- desde una ventana de la terminal en el primer nodo principal del clúster con el
CLI (interfaz de línea de comandos) de
trino
: consulta Usa Trino con Dataproc.
Instala el componente
Instala el componente cuando crees un clúster de Dataproc.
Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.
Comando de gcloud
Para crear un clúster de Dataproc que incluya el componente Trino, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
Configura propiedades
Agrega la marca --properties
al
Comando gcloud dataproc clusters create
para configurar
las propiedades de configuración de trino, trino-jvm y trino-catalog.
-
Propiedades de la aplicación: Usa las propiedades del clúster con el
Prefijo
trino:
para configurar Propiedades de la aplicación de Trino: por ejemplo,--properties="trino:join-distribution-type=AUTOMATIC"
- Propiedades de configuración de JVM: Usa las propiedades del clúster con las
Prefijo
trino-jvm:
para configurar las propiedades de JVM para Trino. coordinador y trabajador de Java, por ejemplo,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
- Crear catálogos nuevos y agregar propiedades de catálogo: Usa lo siguiente:
trino-catalog:catalog-name.property-name
para configurar catálogos de Trino.Ejemplo: Se puede usar la siguiente marca "properties" con el comando “gcloud dataproc clusters create” para crear un clúster de Trino con un “produjo” Catálogo de Hive. Se creará un archivo
prodhive.properties
en/usr/lib/trino/etc/catalog/
para habilitar el catálogo de prodhive.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
API de REST
El componente de Trino se puede especificar a través de la API de Dataproc con SoftwareConfig.Component como parte de una clusters.create para cada solicitud.
Console
- Habilita la puerta de enlace del componente y el componente.
- En la consola de Google Cloud, abre la página Create a cluster (Crear un clúster) de Dataproc. Se selecciona el panel Configurar clúster.
- En la sección Componentes, sigue estos pasos:
- En Componentes opcionales, selecciona Trino y otros componentes opcionales para instalar en tu clúster.
- En Puerta de enlace de componentes, selecciona Habilitar puerta de enlace de componentes (consulta Visualiza y accede a las URL de la puerta de enlace de componentes).