Componente Presto opcional do Dataproc

É possível instalar outros componentes, como o Presto, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você verá como instalar o componente Presto em um cluster do Dataproc.

O Presto (Trino) é um mecanismo de consulta SQL distribuído de código aberto. Por padrão, o servidor e a IU da Web do Presto estão disponíveis na porta 8060 (ou 7778, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.

Por padrão, o Presto no Dataproc é configurado para funcionar com os connectors Hive, BigQuery, Memory, TPCH e TPCDS.

Depois de criar um cluster com o componente Presto, execute consultas:

Instalar o componente

Instale o componente ao criar um cluster do Dataproc. Os componentes podem ser adicionados aos clusters criados com o Dataproc versão 1.3 ou posterior.

Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Presto, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Como configurar propriedades

Adicione a sinalização --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração presto, presto-jvm e presto-Catalog.

  • Propriedades do aplicativo: use as propriedades do cluster com o prefixo presto: para configurar propriedades do aplicativo Presto, por exemplo, --properties="presto:join-distribution-type=AUTOMATIC".
  • Propriedades de configuração da JVM: use as propriedades do cluster com o prefixo presto-jvm: para configurar as propriedades da JVM para os processos Java do coordenador e do worker do Presto, por exemplo, --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Criar novos catálogos e adicionar propriedades de catálogo: use presto-catalog:catalog-name.property-name para configurar catálogos do Presto.

    Exemplo: a seguinte sinalização "properties" pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster Presto com um catálogo do Hive "prodhive". Um arquivo prodhive.properties será criado em /usr/lib/presto/etc/catalog/ para ativar o catálogo do prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API REST

O componente Presto pode ser especificado por meio de API do Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

    1. Ative o componente e o gateway do componente.
      • No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
      • Na seção "Componentes", faça o seguinte: