Componentes de Cloud Dataproc

Cuando creas un clúster, los componentes estándar del ecosistema de Apache Hadoop se instalan automáticamente en el clúster (consulta Lista de versiones de Cloud Dataproc). Puedes instalar componentes adicionales, llamados "componentes opcionales", en el clúster cuando creas el clúster. Agregar componentes opcionales a un clúster es similar a agregar componentes por medio de acciones de inicialización, pero tiene las siguientes ventajas:

  • Tiempos de inicio más rápidos de los clústeres
  • Compatibilidad probada con versiones específicas de Dataproc
  • Uso de un parámetro del clúster en lugar de una secuencia de comandos de acción de inicialización
  • Los componentes opcionales están integrados en otros componentes de Dataproc. Por ejemplo, cuando Anaconda y Zeppelin están instalados en un clúster, Zeppelin usará las bibliotecas y el intérprete de Python de Anaconda.

Los componentes opcionales se pueden agregar a los clústeres creados con la versión 1.3 de Dataproc y las posteriores.

Componentes opcionales disponibles

Componente opcional COMPONENT_NAME
en comandos de gcloud y solicitudes a la API
Versión de la imagen Etapa de actualización
Anaconda ANACONDA 1.3 y posteriores GA
Druid DRUID 1.3 y posteriores Alfa
HBase HBASE 1.0 y versiones posteriores Beta
Hive WebHCat HIVE_WEBHCAT 1.3 y posteriores GA
Notebook de Jupyter JUPYTER 1.3 y posteriores GA
Presto PRESTO 1.3 y posteriores GA
Ranger RANGER 1.3 y posteriores Beta
Solr SOLR 1.3 y posteriores Beta
Notebook de Zeppelin ZEPPELIN 1.3 y posteriores GA
Zookeeper ZOOKEEPER 1.0 y posteriores GA

Agrega componentes opcionales

Comando de gcloud

Para crear un clúster de Dataproc e instalar uno o más componentes opcionales en el clúster, usa el comando gcloud beta dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API de REST

Los componentes opcionales se pueden especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

En Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc. Haz clic en "Opciones avanzadas" en la parte inferior de la página para ver la sección Componentes opcionales (Optional Components).

Haz clic en Select component (Seleccionar componente) para abrir el panel de selección Optional components (Componentes opcionales). Selecciona uno o más componentes que deseas instalar en tu clúster.