Los clústeres de Dataproc incluyen los siguientes tipos de componentes:
Componentes instalados: componentes que se instalan en la imagen y se activan cuando se crea el clúster.
Componentes opcionales: componentes que seleccionas para instalar y usar en tu clúster al crearlo. Dataproc instala y activa los componentes opcionales en función de la versión de la imagen del clúster de la siguiente manera:
Versiones de
2.2
anteriores: los componentes opcionales se instalan automáticamente. Los componentes opcionales seleccionados se activan y los no seleccionados se desinstalan al crear el clúster.Versiones de imagen
.2.3
y posteriores: todos los componentes opcionales se instalan durante la creación del clúster, excepto los componentes opcionales Jupyter, Iceberg y Delta Lake, que están preinstalados en las versiones de imagen2.3
y posteriores. Los componentes opcionales preinstalados se eliminan de un clúster con la versión de imagen2.3
o posterior si no están habilitados cuando se crea el clúster. Para obtener más información, consulta las versiones de lanzamiento de Dataproc 2.3.x.
Componentes de acciones de inicialización: componentes instalados en un clúster como parte de una acción de inicialización que especifiques al crear un clúster.
Los componentes opcionales se instalan en un clúster antes de que se ejecuten las acciones de inicialización en el clúster.
En las páginas de versiones de imagen de Dataproc se enumeran los componentes y los tipos de componentes disponibles en las últimas versiones de imagen de Dataproc.
Los componentes opcionales tienen las siguientes ventajas con respecto a las acciones de inicialización que se usan para instalar componentes:
- Los componentes opcionales se prueban para comprobar si son compatibles con versiones específicas de Dataproc.
- Los componentes opcionales se habilitan con un parámetro de creación de clústeres, mientras que las acciones de inicialización requieren una secuencia de comandos.
Componentes opcionales disponibles
Componente opcional | Nombre del componente en los comandos de Google Cloud CLI y las solicitudes de API |
Versión de imagen | Fase de lanzamiento |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 y versiones posteriores | GA |
Docker | DOCKER | 1.5 y versiones posteriores | GA |
Flink | FLINK | 1.5 y versiones posteriores | GA |
HBase | HBASE | 1.5 y versiones posteriores (no disponible en 2.1 y versiones posteriores) |
Obsoleto |
Hive WebHCat | HIVE_WEBHCAT | 1.3 y versiones posteriores | GA |
Hudi | HUDI | 1.5 y versiones posteriores | GA |
Iceberg | ICEBERG | 2.2 y versiones posteriores | GA |
Jupyter Notebook | JUPYTER | 1.3 y versiones posteriores | GA |
Cerdo | PIG | 1.5* y versiones posteriores | GA |
Presto | PRESTO | 1.3 y versiones posteriores (no disponible en 2.1 y versiones posteriores) |
GA |
Ranger | RANGER | 1.3 y versiones posteriores | GA |
Solr | SOLR | 1.3 y versiones posteriores | GA |
Trino | TRINO | 2.1 y versiones posteriores | GA |
Notebook de Zeppelin | ZEPPELIN | 1.3 y versiones posteriores | GA |
Zookeeper | ZOOKEEPER | 1.0 y versiones posteriores | GA |
Notas:
- Apache Pig es un componente opcional en las versiones de imagen 2.3 y posteriores. Estaba preinstalado en
2.2
y en versiones de imagen anteriores.
Añadir componentes opcionales
Consola
- En la Google Cloud consola, ve a la página de Dataproc
Crear un clúster.
El panel Configurar clúster está seleccionado.
- En la sección Componentes, en Componentes opcionales, selecciona uno o varios componentes para instalarlos en el clúster.
Google Cloud CLI
Para crear un clúster de Dataproc e instalar uno o varios componentes opcionales en él, usa el comando gcloud beta dataproc clusters create cluster-name
con la marca --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
Los componentes opcionales se pueden especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.