Introducción a Cloud Data Fusion: Studio

En esta página, se presenta Cloud Data Fusion: Studio, que es una interfaz visual de arrastrar y soltar para crear canalizaciones de datos a partir de una biblioteca de complementos precompilados y una interfaz en la que configuras, ejecutas y administras tus canalizaciones. Por lo general, la compilación de una canalización en Studio sigue este proceso:

  1. Conéctate a una fuente de datos local o en la nube.
  2. Prepara y transforma tus datos.
  3. Conéctate al destino.
  4. Prueba tu canalización.
  5. Ejecuta tu canalización.
  6. Programa y activa tus canalizaciones.

Después de diseñar y ejecutar la canalización, puedes administrarlas en la Página de Pipeline Studio de Cloud Data Fusion:

  • Reutilizar canalizaciones mediante la parametrización con preferencias y de tiempo de ejecución.
  • Administre la ejecución de canalizaciones mediante la personalización de los perfiles de procesamiento, la administración recursos y el ajuste del rendimiento de la canalización.
  • Edita las canalizaciones para administrar su ciclo de vida.
  • Administra el control de código fuente de la canalización con la integración de Git.

Recorrido del usuario en Cloud Data Fusion Studio

Antes de comenzar

Cloud Data Fusion: Descripción general de Studio

Studio incluye los siguientes componentes.

Administración

Cloud Data Fusion permite tener múltiples namespaces en cada instancia. En Studio, los administradores pueden administrar todos los espacios de nombres de forma centralizada o cada uno de forma individual.

Studio proporciona los siguientes controles de administrador:

Administración de sistemas
El módulo Administrador del sistema de Studio te permite crear espacios de nombres nuevos y definir las configuraciones centrales del perfil de procesamiento a nivel del sistema, que se pueden aplicar a cada espacio de nombres en esa instancia. Para obtener más información, consulta Cómo administrar la administración de Studio.
Administración de espacios de nombres
El módulo Administrador de espacios de nombres de Studio te permite administrar los del espacio de nombres específico. Para cada espacio de nombres, puedes definir perfiles de procesamiento, preferencias de entorno de ejecución, controladores, cuentas de servicio y configuraciones de git. Para obtener más información, consulta Cómo administrar la administración de Studio.

Pipeline Design Studio

Diseñas y ejecutas canalizaciones en Pipeline Design Studio, en Interfaz web de Cloud Data Fusion. El diseño y la ejecución de canalizaciones de datos incluyen los siguientes pasos:

  • Conectarse a una fuente: Cloud Data Fusion permite conexiones a fuentes de datos locales y en la nube. La interfaz de Studio tiene complementos del sistema predeterminados, que vienen preinstalados en Studio. Puedes descargar complementos adicionales de un repositorio de complementos, conocido como Hub. Para obtener más información, consulta la descripción general de los complementos.
  • Preparación de datos: Cloud Data Fusion te permite preparar tus datos con su potente complemento de preparación de datos: Wrangler. Wrangler te ayuda a ver, explorar y transformar una pequeña muestra de tus datos en un solo lugar antes de ejecutar la lógica en todo el conjunto de datos en Studio. Esto te permite aplicar transformaciones rápidamente para comprender cómo afectan a todo el conjunto de datos. Puedes crear múltiples transformaciones y agregar a una receta. Para obtener más información, consulta la Descripción general de Wrangler.
  • Transform: transforma los datos de cambio de los complementos después de que se cargan desde un fuente; por ejemplo, puedes clonar un registro, cambiar el formato del archivo a JSON o usar el complemento de JavaScript para crear una transformación personalizada. Para obtener más información, consulta la descripción general de los complementos.
  • Conéctate a un destino: Después de preparar los datos y aplicar te puedes conectar al destino en el que planeas cargar los datos. Cloud Data Fusion admite conexiones a múltiples destinos. Para obtener más información, consulta Descripción general de los complementos.
  • Vista previa: Después de diseñar la canalización, para depurar los problemas antes de implementar y ejecutar una canalización, debes ejecutar un trabajo de vista previa. Si encuentras puedes corregirlos en el modo Borrador. Studio usa el primer 100 filas de tu conjunto de datos de origen para generar la vista previa El estudio muestra el estado y la duración del trabajo de vista previa. Puedes detener el trabajo en cualquier momento. También puedes supervisar los eventos de registro a medida que se ejecuta el trabajo de vista previa. Para ver más consulta Obtén una vista previa de los datos.
  • Administrar configuraciones de canalización: Después de obtener una vista previa de los datos, puedes implementar la canalización y administrar las siguientes configuraciones:

    • Configuración de procesamiento: Puedes cambiar el perfil de procesamiento que ejecuta la canalización. Por ejemplo, quieres ejecutar la canalización en un clúster de Dataproc personalizado en lugar del clúster de Dataproc predeterminado.
    • Configuración de la canalización: Para cada canalización, puedes habilitar o inhabilitar. la instrumentación, como las métricas de tiempo. De forma predeterminada, la instrumentación es habilitado.
    • Configuración del motor: Spark es el motor de ejecución predeterminado. Puedes pasar parámetros personalizados para Spark.
    • Recursos: Puedes especificar la memoria y la cantidad de CPUs para el controlador y el ejecutor de Spark. El controlador organiza el trabajo de Spark. El el ejecutor controla el procesamiento de datos en Spark.
    • Alerta de canalización: Puedes configurar la canalización para enviar alertas y iniciar las tareas de procesamiento posterior una vez que finalice la ejecución de la canalización. Tú crear alertas de canalización cuando la diseñas. Después de implementar la canalización, podrás ver las alertas. Para cambiar la configuración de alertas, puedes editar la canalización.
    • Envío de transformaciones: Puedes habilitar el envío de transformaciones si deseas que una canalización ejecute ciertas transformaciones en BigQuery.

    Para obtener más información, consulta Administra la configuración de la canalización.

  • Reutiliza canalizaciones con macros, preferencias y argumentos del entorno de ejecución: Cloud Data Fusion te permite reutilizar canalizaciones de datos. Con canalizaciones de datos reutilizables, puedes tener una sola canalización que pueda aplicar un patrón de integración de datos a una variedad de casos de uso y conjuntos de datos. Reutilizable las canalizaciones te brindan una mejor administración. Te permiten configurar la mayoría de los de una canalización al momento de la ejecución, en lugar de codificarla tiempo de diseño. En Pipeline Design Studio, puedes usar macros para agregar variables a las configuraciones de complementos, de modo que puedas especificar las sustituciones de variables en el tiempo de ejecución. Para obtener más información, consulta Administra macros, preferencias y argumentos del entorno de ejecución.

  • Ejecutar: Una vez que hayas revisado las configuraciones de la canalización, puedes iniciar su ejecución. Puedes ver el cambio de estado durante las fases de la ejecución de la canalización, por ejemplo, aprovisionar, iniciar, correr y el éxito.

  • Programación y organización: Se pueden configurar las canalizaciones de datos por lotes para que se ejecuten en con una programación y con una frecuencia específicas. Después de crear e implementar una canalización, puedes crear un programa. En Pipeline Design Studio, puedes organizar canalizaciones mediante la creación de un activador en una canalización de datos por lotes para y hacer que se ejecute cuando se completen una o más ejecuciones de canalización. Estos se denominan canalización descendente y ascendente. Creas un activador en sentido descendente para que se ejecute en función de la finalización de una o más canalizaciones.

    Recomendación: También puedes usar Composer para organizar las canalizaciones en Cloud Data Fusion. Para obtener más información, consulta Programa canalizaciones y Orquesta canalizaciones.

  • Editar canalizaciones: Cloud Data Fusion permite editar un proyecto en una canalización de integración continua. Cuando editas una canalización implementada, se crea una versión nueva del la canalización con el mismo nombre y la marca como la versión más reciente. Esto te permite desarrollar canalizaciones de forma iterativa en lugar de duplicarlas, lo que crea una canalización nueva con un nombre diferente. Para obtener más información, consulta Edita canalizaciones.

  • Administración del control de fuente: Cloud Data Fusion permite mejorar administrar canalizaciones entre el desarrollo y la producción con Administración del control de código fuente de las canalizaciones con GitHub.

  • Registro y supervisión: Para supervisar las métricas y los registros de la canalización, es que habilites el servicio de Stackdriver Logging para usar Cloud Logging con tu canalización de Cloud Data Fusion.

¿Qué sigue?