Componentes do Dataproc

Os clusters do Dataproc incluem os seguintes tipos de componentes:

  • Componentes instalados: componentes instalados na imagem e ativados quando o cluster é criado.

  • Componentes opcionais: componentes que seleciona para instalar e usar no cluster quando cria o cluster. O Dataproc instala e ativa componentes opcionais consoante a versão da imagem do cluster, da seguinte forma:

    • 2.2 e versões de imagem anteriores: os componentes opcionais são instalados automaticamente. Os componentes opcionais selecionados são ativados e os componentes opcionais não selecionados são desinstalados no momento da criação do cluster.

    • 2.3 e versões de imagem posteriores: todos os componentes opcionais são instalados durante a criação do cluster, exceto os componentes opcionais do Jupyter, Iceberg e Delta Lake, que são pré-instalados no 2.3 e em versões de imagem posteriores. Os componentes opcionais pré-instalados são removidos de um cluster de versão de imagem do 2.3 ou posterior se não estiverem ativados quando o cluster é criado. Para mais informações, consulte as versões de lançamento do Dataproc 2.3.x.

  • Componentes de ação de inicialização: componentes instalados num cluster como parte de uma ação de inicialização que especifica quando cria um cluster.

Os componentes opcionais são instalados num cluster antes de as ações de inicialização serem executadas no cluster.

As páginas de versão da imagem do Dataproc indicam os componentes e os tipos de componentes disponíveis nas versões mais recentes da imagem do Dataproc.

Os componentes opcionais têm as seguintes vantagens em relação às ações de inicialização usadas para instalar componentes:

  • Os componentes opcionais são testados como compatíveis com versões específicas do Dataproc.
  • Os componentes opcionais são ativados com um parâmetro de criação de cluster; as ações de inicialização requerem um script.

Componentes opcionais disponíveis

Componente opcional Nome do componente
em comandos da CLI gcloud e pedidos de API
Versão da imagem Fase de lançamento
Delta Lake DELTA 2.2.46 e posterior GA
Docker DOCKER 1.5 e posterior GA
Flink FLINK 1.5 e posterior GA
HBase HBASE 1.5 e posterior
(indisponível no 2.1 e posterior)
Descontinuado
Hive WebHCat HIVE_WEBHCAT 1.3 e posterior GA
Hudi HUDI 1.5 e posterior GA
Iceberg ICEBERG 2.2 e posterior GA
Jupyter Notebook JUPYTER 1.3 e posterior GA
Porco PIG 1.5* e posterior GA
Presto PRESTO 1.3 e posterior
(não disponível na versão 2.1 e posterior)
GA
Ranger RANGER 1.3 e posterior GA
Solr SOLR 1.3 e posterior GA
Trino TRINO 2.1 e posterior GA
Zeppelin Notebook ZEPPELIN 1.3 e posterior GA
Zookeeper ZOOKEEPER 1.0 e posterior GA

Notas:

  • O Apache Pig é um componente opcional nas versões de imagem 2.3 e posteriores. Foi pré-instalado no 2.2 e nas versões de imagem anteriores.

Adicione componentes opcionais

Consola

  1. Na Google Cloud consola, aceda a Dataproc página Criar um cluster.

    Aceda a Criar um cluster

    O painel Configurar cluster está selecionado.

  2. Na secção Componentes, em Componentes opcionais, selecione um ou mais componentes para instalar no cluster.

CLI do Google Cloud

Para criar um cluster do Dataproc e instalar um ou mais componentes opcionais no cluster, use o comando gcloud beta dataproc clusters create cluster-name com a flag --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

Os componentes opcionais podem ser especificados através da API Dataproc usando SoftwareConfig.Component como parte de um pedido clusters.create.