Quando você cria um cluster, os componentes padrão do ecossistema Apache Hadoop são instalados automaticamente. Para saber mais, consulte Lista de versões do Dataproc. Ao criar um cluster, é possível instalar componentes adicionais, chamados "componentes opcionais". Adicionar componentes opcionais a um cluster é semelhante a usar ações de inicialização, mas com as seguintes vantagens:
- Mais velocidade nos tempos de inicialização do cluster
- Compatibilidade testada com versões específicas do Dataproc
- Uso de um parâmetro de cluster em vez de um script de ação de inicialização
- Componentes opcionais são integrados a outros componentes do Dataproc. Por exemplo, ao instalar Anaconda e Zeppelin em um cluster, o Zeppelin vai usar o interpretador e as bibliotecas em Python do Anaconda.
É possível adicionar componentes opcionais aos clusters criados com o Dataproc versão 1.3 e posterior.
Componentes opcionais disponíveis
Componente opcional | COMPONENT_NAME em comandos gcloud e solicitações de API |
Versão de imagem | Etapa da versão |
---|---|---|---|
Anaconda | ANACONDA | 1.3 ou posterior (não disponível na versão 2.0 e posteriores) |
GA |
Docker | DOCKER | 1.5 e posterior | GA |
Druid | DRUID | 1.3 ou superior | Alfa |
Flink | FLINK | 1.5 e posterior | GA |
HBase | HBASE | 1.5 e posterior | Beta |
Hive WebHCat | HIVE_WEBHCAT | 1.3 ou superior | GA |
Jupyter Notebook | JUPYTER | 1.3 ou superior | GA |
Presto | PRESTO | 1.3 ou superior | GA |
Ranger | RANGEAL | 1.3 ou superior | GA |
Solr | SOLR | 1.3 ou superior | GA |
Zeppelin Notebook | ZEPPELIN | 1.3 ou superior | GA |
Zookeeper | ZOOKEEPER | 1.0 ou superior | GA |
Como adicionar componentes opcionais
Comando gcloud
Para criar um cluster do Dataproc e instalar um ou mais
componentes opcionais no cluster, use o comando
gcloud beta dataproc clusters create cluster-name
com a sinalização --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
Especifique componentes opcionais por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.Console
No Console do Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado. Em "Componentes opcionais", na seção "Componentes", selecione um ou mais componentes para instalar no cluster.