Esta página se ha traducido con Cloud Translation API.

Ejecutar una canalización en un clúster de Dataproc ya creado

En esta página se describe cómo ejecutar un flujo de procesamiento en Cloud Data Fusion en un clúster de Dataproc ya creado.

De forma predeterminada, Cloud Data Fusion crea clústeres efímeros para cada flujo de procesamiento: crea un clúster al principio de la ejecución del flujo de procesamiento y, a continuación, lo elimina cuando finaliza la ejecución. Aunque este comportamiento permite ahorrar costes, ya que los recursos solo se crean cuando es necesario, puede que no sea adecuado en los siguientes casos:

Si el tiempo que se tarda en crear un clúster nuevo para cada canalización es excesivo para tu caso práctico.
Si tu organización requiere que la creación de clústeres se gestione de forma centralizada, por ejemplo, si quieres aplicar determinadas políticas a todos los clústeres de Dataproc.

En estos casos, puedes ejecutar flujos de procesamiento en un clúster ya creado siguiendo estos pasos.

Antes de empezar

Necesitarás lo siguiente:

Una instancia de Cloud Data Fusion.

Crear una instancia de Cloud Data Fusion
Un clúster de Dataproc.

Crear un clúster de Dataproc
Si ejecutas tus flujos de procesamiento en Cloud Data Fusion 6.2, usa una imagen de Dataproc anterior que se ejecute con Hadoop 2.x (por ejemplo, 1.5-debian10) o actualiza a la versión más reciente de Cloud Data Fusion.

Conectarse al clúster

En las versiones 6.2.1 y posteriores de Cloud Data Fusion, puedes conectarte a un clúster de Dataproc que ya tengas al crear un perfil de Compute Engine.

Ve a tu instancia:
1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.
2. Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia.
  
  Ir a Instancias
Haz clic en Administrador del sistema.
Haz clic en la pestaña Configuration (Configuración).
Haz clic en Perfiles de cálculo del sistema.
Haz clic en Crear perfil. Se abrirá una página de proveedores.
Haz clic en Dataproc existente.
Introduce la información del perfil, el clúster y la monitorización.
Haz clic en Crear.

Configurar el flujo de procesamiento para usar el perfil personalizado

Ve a tu instancia:
1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.
2. Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia.
  
  Ir a Instancias
Ve a tu canal en la página Studio.
Haz clic en Configurar.
Haz clic en Configuración de Compute.
Haz clic en el perfil que has creado.

Figura 1: Haz clic en el perfil personalizado
Ejecuta el flujo de procesamiento. Se ejecuta en el clúster de Dataproc que ya existe.

Siguientes pasos

Consulta más información sobre cómo configurar clústeres.
Consulta cómo eliminar clústeres.

Ejecutar una canalización en un clúster de Dataproc ya creado Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Antes de empezar

Conectarse al clúster

Configurar el flujo de procesamiento para usar el perfil personalizado

Siguientes pasos

Ejecutar una canalización en un clúster de Dataproc ya creado