Componente Trino opcional do Dataproc

É possível instalar componentes adicionais, como o Trino, ao criar um Dataproc cluster usando o Componentes opcionais . Nesta página, descrevemos como instalar o componente Trino em um cluster do Dataproc.

O Trino é uma plataforma de origem e de origem distribuída do consulta SQL. O servidor do Trino e Por padrão, a interface da Web está disponível na porta 8060 (ou 7778, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.

Por padrão, o Trino no Dataproc é configurado para funcionar com Hive, BigQuery, Conectores Memory, TPCH e TPCDS .

Depois de criar um cluster com o componente Trino, execute consultas:

Instalar o componente

Instale o componente ao criar um cluster do Dataproc.

Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Trino, use o método gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Como configurar propriedades

Adicione a flag --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração trino, trino-jvm e trino-catalog.

  • Propriedades do aplicativo: use propriedades de cluster com o Prefixo trino: para configurar Propriedades do aplicativo do Trino: por exemplo, --properties="trino:join-distribution-type=AUTOMATIC".
  • Propriedades de configuração da JVM: use as propriedades do cluster com o prefixo trino-jvm: para configurar as propriedades da JVM para os processos Java do coordenador e do worker do Trino, por exemplo, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Criar novos catálogos e adicionar propriedades de catálogo: use trino-catalog:catalog-name.property-name para configurar catálogos do Trino.

    Exemplo: a flag "properties" a seguir pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster Trino com um catálogo do Hive "prodhive". Um arquivo prodhive.properties será criado em /usr/lib/trino/etc/catalog/ para ativar o catálogo do prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

O componente Trino pode ser especificado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

    1. Ative o componente e o gateway de componentes.
      • No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
      • Na seção "Componentes:"