Os clusters do Dataproc incluem os seguintes tipos de componentes:
Componentes instalados: componentes instalados na imagem e ativados quando o cluster é criado.
Componentes opcionais: componentes que seleciona para instalar e usar no cluster quando cria o cluster. O Dataproc instala e ativa componentes opcionais consoante a versão da imagem do cluster, da seguinte forma:
2.2
e versões de imagem anteriores: os componentes opcionais são instalados automaticamente. Os componentes opcionais selecionados são ativados e os componentes opcionais não selecionados são desinstalados no momento da criação do cluster.2.3
e versões de imagem posteriores: todos os componentes opcionais são instalados durante a criação do cluster, exceto os componentes opcionais do Jupyter, Iceberg e Delta Lake, que são pré-instalados no2.3
e em versões de imagem posteriores. Os componentes opcionais pré-instalados são removidos de um cluster de versão de imagem do2.3
ou posterior se não estiverem ativados quando o cluster é criado. Para mais informações, consulte as versões de lançamento do Dataproc 2.3.x.
Componentes de ação de inicialização: componentes instalados num cluster como parte de uma ação de inicialização que especifica quando cria um cluster.
Os componentes opcionais são instalados num cluster antes de as ações de inicialização serem executadas no cluster.
As páginas de versão da imagem do Dataproc indicam os componentes e os tipos de componentes disponíveis nas versões mais recentes da imagem do Dataproc.
Os componentes opcionais têm as seguintes vantagens em relação às ações de inicialização usadas para instalar componentes:
- Os componentes opcionais são testados como compatíveis com versões específicas do Dataproc.
- Os componentes opcionais são ativados com um parâmetro de criação de cluster; as ações de inicialização requerem um script.
Componentes opcionais disponíveis
Componente opcional | Nome do componente em comandos da CLI gcloud e pedidos de API |
Versão da imagem | Fase de lançamento |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 e posterior | GA |
Docker | DOCKER | 1.5 e posterior | GA |
Flink | FLINK | 1.5 e posterior | GA |
HBase | HBASE | 1.5 e posterior (indisponível no 2.1 e posterior) |
Descontinuado |
Hive WebHCat | HIVE_WEBHCAT | 1.3 e posterior | GA |
Hudi | HUDI | 1.5 e posterior | GA |
Iceberg | ICEBERG | 2.2 e posterior | GA |
Jupyter Notebook | JUPYTER | 1.3 e posterior | GA |
Porco | PIG | 1.5* e posterior | GA |
Presto | PRESTO | 1.3 e posterior (não disponível na versão 2.1 e posterior) |
GA |
Ranger | RANGER | 1.3 e posterior | GA |
Solr | SOLR | 1.3 e posterior | GA |
Trino | TRINO | 2.1 e posterior | GA |
Zeppelin Notebook | ZEPPELIN | 1.3 e posterior | GA |
Zookeeper | ZOOKEEPER | 1.0 e posterior | GA |
Notas:
- O Apache Pig é um componente opcional nas versões de imagem 2.3 e posteriores. Foi pré-instalado no
2.2
e nas versões de imagem anteriores.
Adicione componentes opcionais
Consola
- Na Google Cloud consola, aceda a Dataproc
página Criar um cluster.
O painel Configurar cluster está selecionado.
- Na secção Componentes, em Componentes opcionais, selecione um ou mais componentes para instalar no cluster.
CLI do Google Cloud
Para criar um cluster do Dataproc e instalar um ou mais componentes opcionais no cluster, use o comando
gcloud beta dataproc clusters create cluster-name
com a flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
Os componentes opcionais podem ser especificados através da API Dataproc usando SoftwareConfig.Component como parte de um pedido clusters.create.