Componente opcional do Dataproc para Presto

É possível instalar componentes adicionais ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você verá como instalar o componente Presto em um cluster do Dataproc.

O Presto é um mecanismo de consulta SQL distribuído de código aberto. Por padrão, o servidor e a IU da Web do Presto estão disponíveis na porta 8060 (ou 7778, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.

Por padrão, o Presto no Dataproc é configurado para funcionar com os catálogos hive, tpch, tpcds, bigquery e memory.

Depois de criar um cluster com o componente Presto, execute consultas:

Instalar o componente

Instale o componente ao criar um cluster do Dataproc. Os componentes podem ser adicionados aos clusters criados com o Dataproc versão 1.3 ou posterior.

Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Presto, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Como configurar propriedades

Adicione a sinalização --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração presto, presto-jvm e presto-Catalog.

  • Propriedades do aplicativo: use as propriedades do cluster com o prefixo presto: para configurar as propriedades do aplicativo Presto, por exemplo, --properties:presto:join-distribution-type=AUTOMATIC.
  • Propriedades de configuração da JVM: use as propriedades do cluster com o prefixo presto-jvm: para configurar as propriedades da JVM para os processos Java do coordenador e do worker do Presto, por exemplo, --properties:presto-jvm:XX:+HeapDumpOnOutOfMemoryError.
  • Criar novos catálogos e adicionar propriedades de catálogo: use presto-catalog:catalog-name.property-name para configurar catálogos do Presto.

    Exemplo: a seguinte sinalização "properties" pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster Presto com um catálogo do Hive "prodhive". Um arquivo prodhive.properties será criado em $PRESTO_HOME/etc/catalog/ para ativar o catálogo do prodhive.

    --properties="presto-catalog:prodhive.connecter.name=hive,presto-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

O componente Presto pode ser especificado por meio de API do Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

  1. Ativar o componente.
    • No Console do Cloud, abra a página Criar um cluster do Dataproc. Clique em "Opções avançadas" na parte inferior da página para visualizar a seção "Componentes opcionais".

    • Clique em "Selecionar componente" para abrir o painel de seleção de Componentes opcionais. Selecione "Presto" e outros componentes opcionais para instalar no cluster.

  2. Ative o Gateway de componentes (requer a versão 1.3.29 ou superior da imagem) para facilitar o acesso à IU da Web do Presto e a outras interfaces da Web do componente no Google Cloud Console (consulte Como visualizar e acessar URLs do Gateway de componentes).
    • Marque a caixa de seleção "Gateway de Componentes" no formulário "Criar um cluster".