Componente Trino opcional do Dataproc

É possível instalar outros componentes, como o Trino, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, descrevemos como instalar o componente Trino em um cluster do Dataproc.

O Trino é um mecanismo de consulta SQL distribuído de código aberto. Por padrão, o servidor e a IU da Web do Trino estão disponíveis na porta 8060 (ou 7778 se o Kerberos estiver ativado) no primeiro nó mestre do cluster.

Por padrão, o Trino no Dataproc é configurado para funcionar com os connectors Hive, BigQuery, Memory, TPCH e TPCDS.

Depois de criar um cluster com o componente Trino, você pode executar consultas:

Instalar o componente

Instale o componente ao criar um cluster do Dataproc.

Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Trino, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Como configurar propriedades

Adicione a sinalização --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração trino, trino-jvm e trino-catalog.

  • Propriedades do aplicativo:use as propriedades do cluster com o prefixo trino: para configurar as propriedades do aplicativo Trino, por exemplo, --properties="trino:join-distribution-type=AUTOMATIC".
  • Propriedades de configuração da JVM:use as propriedades do cluster com o prefixo trino-jvm: para configurar propriedades da JVM para processos Java do coordenador e do worker do Trino, por exemplo, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Criar novos catálogos e adicionar propriedades de catálogo:use trino-catalog:catalog-name.property-name para configurar catálogos do Trino.

    Exemplo: a sinalização "properties" a seguir pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster do Trino com um catálogo "prodhive" do Hive. Um arquivo prodhive.properties será criado em /usr/lib/trino/etc/catalog/ para ativar o catálogo do prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

O componente Trino pode ser especificado por meio da API Dataproc usando o SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

    1. Ative o componente e o gateway do componente.
      • No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
      • Na seção "Componentes", faça o seguinte: