É possível instalar outros componentes, como o Presto, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você verá como instalar o componente Presto em um cluster do Dataproc.
O Presto (Trino) é um mecanismo de consulta SQL distribuído de código aberto. Por padrão, o servidor e a IU da Web do Presto estão disponíveis na porta 8060
(ou 7778
, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.
Por padrão, o Presto no Dataproc é configurado para funcionar com os conectores Hive
, BigQuery
, Memory
, TPCH
e TPCDS
.
Depois de criar um cluster com o componente Presto, execute consultas:
- de um terminal local com o comando
gcloud dataproc jobs submit presto
- em uma janela de terminal no primeiro nó mestre do cluster usando a
CLI (interface de linha de comando)
presto
. Consulte Usar o Trino com o Dataproc.
Instalar o componente
Instale o componente ao criar um cluster do Dataproc. Os componentes podem ser adicionados aos clusters criados com o Dataproc versão 1.3 ou posterior.
Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.
Comando gcloud
Para criar um cluster do Dataproc que inclua o componente Presto, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Como configurar propriedades
Adicione a sinalização --properties
ao comando gcloud dataproc clusters create
para definir as propriedades de configuração presto, presto-jvm e presto-Catalog.
- Propriedades do aplicativo: use as propriedades do cluster com o prefixo
presto:
para configurar as propriedades do aplicativo Presto, por exemplo,--properties="presto:join-distribution-type=AUTOMATIC"
. - Propriedades de configuração da JVM: use as propriedades do cluster com o prefixo
presto-jvm:
para configurar as propriedades da JVM para os processos Java do coordenador e do worker do Presto, por exemplo,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Criar novos catálogos e adicionar propriedades de catálogo: use
presto-catalog:catalog-name.property-name
para configurar catálogos do Presto.Exemplo: a seguinte sinalização "properties" pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster Presto com um catálogo do Hive "prodhive". Um arquivo
prodhive.properties
será criado em/usr/lib/presto/etc/catalog/
para ativar o catálogo do prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
O componente Presto pode ser especificado por meio de API do Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.
Console
- Ative o componente e o gateway de componentes.
- No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
- Na seção "Componentes:"
- Em "Componentes opcionais", selecione Presto e outros componentes opcionais para instalar no cluster.
- Em "Gateway de componentes", selecione "Ativar gateway do componente" (consulte Visualizar e acessar URLs do gateway de componentes).