Componentes do Dataproc

Quando você cria um cluster, os componentes padrão do ecossistema Apache Hadoop são instalados automaticamente. Para saber mais, consulte Lista de versões do Dataproc. É possível instalar outros componentes, chamados de "componentes opcionais", no cluster durante a criação. Adicionar componentes opcionais a um cluster é semelhante a usar ações de inicialização, mas com as seguintes vantagens:

  • Mais velocidade nos tempos de inicialização do cluster
  • Compatibilidade testada com versões específicas do Dataproc
  • Uso de um parâmetro de cluster em vez de um script de ação de inicialização
  • Componentes opcionais são integrados a outros componentes do Dataproc. Por exemplo, ao instalar Anaconda e Zeppelin em um cluster, o Zeppelin vai usar o interpretador e as bibliotecas em Python do Anaconda.

Componentes opcionais disponíveis

Componente opcional COMPONENT_NAME
em comandos gcloud e solicitações de API
Versão de imagem Etapa da versão
Anaconda ANACONDA 1.3 ou posterior
(não disponível na versão 2.0 e posteriores)
GA
Docker DOCKER 1.5 e superior GA
Flink LIGAÇÃO 1.5 e superior GA
HBase HBASE 1.5 e mais recentes
(indisponível na 2.1 e versões mais recentes)
Beta
Hive WebHCat HIVE_WEBHCAT 1.3 ou superior GA
Hudi (em inglês) Hudi 1.5 e superior GA
Jupyter Notebook JUPYTER 1.3 ou superior GA
Presto PRESTO 1.3 e mais recentes
(indisponível na 2.1 e versões mais recentes)
GA
Ranger FAIXA 1.3 ou superior GA
Solr SOLR 1.3 ou superior GA
Trino TRI 2.1 e superior GA
Zeppelin Notebook ZEPPELIN 1.3 ou superior GA
Zookeeper ZOOKEEPER 1.0 ou superior GA

Como adicionar componentes opcionais

Comando gcloud

Para criar um cluster do Dataproc e instalar um ou mais componentes opcionais no cluster, use o comando gcloud beta dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

É possível especificar componentes opcionais com a API Dataproc usando o SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado. Em "Componentes opcionais", na seção "Componentes", selecione um ou mais componentes para instalar no cluster.