Componentes de Dataproc

Los clústeres de Dataproc incluyen los siguientes tipos de componentes:

  • Componentes instalados: componentes que se instalan en la imagen y se activan cuando se crea el clúster.

  • Componentes opcionales: componentes que seleccionas para instalar y usar en tu clúster al crearlo. Dataproc instala y activa los componentes opcionales en función de la versión de la imagen del clúster de la siguiente manera:

    • Versiones de 2.2anteriores: los componentes opcionales se instalan automáticamente. Los componentes opcionales seleccionados se activan y los no seleccionados se desinstalan al crear el clúster.

    • Versiones de imagen 2.3 y posteriores: todos los componentes opcionales se instalan durante la creación del clúster, excepto los componentes opcionales Jupyter, Iceberg y Delta Lake, que están preinstalados en las versiones de imagen 2.3 y posteriores. Los componentes opcionales preinstalados se eliminan de un clúster con la versión de imagen 2.3 o posterior si no están habilitados cuando se crea el clúster. Para obtener más información, consulta las versiones de lanzamiento de Dataproc 2.3.x.

      .

  • Componentes de acciones de inicialización: componentes instalados en un clúster como parte de una acción de inicialización que especifiques al crear un clúster.

Los componentes opcionales se instalan en un clúster antes de que se ejecuten las acciones de inicialización en el clúster.

En las páginas de versiones de imagen de Dataproc se enumeran los componentes y los tipos de componentes disponibles en las últimas versiones de imagen de Dataproc.

Los componentes opcionales tienen las siguientes ventajas con respecto a las acciones de inicialización que se usan para instalar componentes:

  • Los componentes opcionales se prueban para comprobar si son compatibles con versiones específicas de Dataproc.
  • Los componentes opcionales se habilitan con un parámetro de creación de clústeres, mientras que las acciones de inicialización requieren una secuencia de comandos.

Componentes opcionales disponibles

Componente opcional Nombre del componente
en los comandos de Google Cloud CLI y las solicitudes de API
Versión de imagen Fase de lanzamiento
Delta Lake DELTA 2.2.46 y versiones posteriores GA
Docker DOCKER 1.5 y versiones posteriores GA
Flink FLINK 1.5 y versiones posteriores GA
HBase HBASE 1.5 y versiones posteriores
(no disponible en 2.1 y versiones posteriores)
Obsoleto
Hive WebHCat HIVE_WEBHCAT 1.3 y versiones posteriores GA
Hudi HUDI 1.5 y versiones posteriores GA
Iceberg ICEBERG 2.2 y versiones posteriores GA
Jupyter Notebook JUPYTER 1.3 y versiones posteriores GA
Cerdo PIG 1.5* y versiones posteriores GA
Presto PRESTO 1.3 y versiones posteriores
(no disponible en 2.1 y versiones posteriores)
GA
Ranger RANGER 1.3 y versiones posteriores GA
Solr SOLR 1.3 y versiones posteriores GA
Trino TRINO 2.1 y versiones posteriores GA
Notebook de Zeppelin ZEPPELIN 1.3 y versiones posteriores GA
Zookeeper ZOOKEEPER 1.0 y versiones posteriores GA

Notas:

  • Apache Pig es un componente opcional en las versiones de imagen 2.3 y posteriores. Estaba preinstalado en 2.2 y en versiones de imagen anteriores.

Añadir componentes opcionales

Consola

  1. En la Google Cloud consola, ve a la página de Dataproc Crear un clúster.

    Ir a Crear un clúster

    El panel Configurar clúster está seleccionado.

  2. En la sección Componentes, en Componentes opcionales, selecciona uno o varios componentes para instalarlos en el clúster.

Google Cloud CLI

Para crear un clúster de Dataproc e instalar uno o varios componentes opcionales en él, usa el comando gcloud beta dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

Los componentes opcionales se pueden especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.