Cuando creas un clúster, los componentes estándar del ecosistema de Apache Hadoop se instalan automáticamente en el clúster (consulta Lista de versiones de Dataproc). Puedes instalar componentes adicionales, llamados "componentes opcionales", en el clúster cuando creas el clúster. Agregar componentes opcionales a un clúster es similar a agregar componentes por medio de acciones de inicialización, pero tiene las siguientes ventajas:
- Tiempos de inicio más rápidos de los clústeres
- Compatibilidad probada con versiones específicas de Dataproc
- Uso de un parámetro del clúster en lugar de una secuencia de comandos de acción de inicialización
Componentes opcionales disponibles
Componente opcional | COMPONENT_NAME en comandos de gcloud y solicitudes a la API |
Versión de la imagen | Etapa de actualización |
---|---|---|---|
Docker | DOCKER | 1.5 y versiones posteriores | DG |
Flink | FLINK | 1.5 y versiones posteriores | DG |
HBase | HBASE | 1.5 y versiones posteriores (no disponible en la versión 2.1 y posteriores) |
Beta |
Hive WebHCat | HIVE_WEBHCAT | 1.3 y posteriores | DG |
Hudi | Hudi | 1.5 y versiones posteriores | DG |
Notebook de Jupyter | JUPYTER | 1.3 y posteriores | DG |
Presto | PRESTO | 1.3 y versiones posteriores (no disponible en la versión 2.1 y posteriores) |
DG |
Ranger | RANGER | 1.3 y posteriores | DG |
Solr | SOLR | 1.3 y posteriores | DG |
Trino | TRINO | 2.1 y versiones posteriores | DG |
Notebook de Zeppelin | ZEPPELIN | 1.3 y posteriores | DG |
Zookeeper | ZOOKEEPER | 1.0 y posteriores | DG |
Agrega componentes opcionales
Comando de gcloud
Para crear un clúster de Dataproc e instalar uno o más componentes opcionales en el clúster, usa el comando gcloud beta dataproc clusters create cluster-name
con la marca --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API de REST
Los componentes opcionales se pueden especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.Console
En la consola de Google Cloud, abre la página Create a cluster de Dataproc. Se selecciona el panel Configurar clúster. En Componentes opcionales, en la sección Componentes, selecciona uno o más componentes que desees instalar en tu clúster.