Descripción general de Cloud Data Fusion

Cloud Data Fusion es un servicio de datos empresariales completamente administrado y nativo de la nube para crear y administrar canalizaciones de datos con rapidez. El La interfaz web de Cloud Data Fusion te permite compilar una integración de datos escalable de Google Cloud. Te permite conectarte a varias fuentes de datos, transformarlos y y, luego, transferirlos a varios sistemas de destino, sin tener que administrar de Google Cloud.

Cloud Data Fusion se basa en el proyecto de código abierto CDAP.

Comienza a usar Cloud Data Fusion

Puedes comenzar a explorar Cloud Data Fusion en minutos.

Explorar Cloud Data Fusion

Los componentes principales de Cloud Data Fusion se explican a continuación. secciones.

Proyecto de inquilino

El conjunto de servicios necesarios para compilar y organizar Cloud Data Fusion las canalizaciones y los metadatos de las canalizaciones de almacenamiento se aprovisionan en un usuario. proyecto, dentro de un usuario unidad. Se crea un proyecto de usuario separado para cada proyecto de cliente, en el que Se aprovisionan instancias de Cloud Data Fusion. El proyecto de usuario hereda todos los parámetros de configuración de redes y firewall del proyecto del cliente.

Cloud Data Fusion: Console

La consola de Cloud Data Fusion, también conocida como plano de control, es una Conjunto de operaciones de API y una interfaz web que funciona con la instancia de Cloud Data Fusion como crearlo, borrarlo, reiniciarlo y actualizarlo.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, también conocido como el plano de datos, es un conjunto de API de REST y la interfaz web operaciones que se ocupan de la creación, ejecución y administración de canalizaciones y artefactos relacionados.

Conceptos

En esta sección, se presentan algunos de los conceptos básicos de Cloud Data Fusion.

Concepto Descripción
Instancia de Cloud Data Fusion
  • Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion. Para comenzar a usar Cloud Data Fusion, crear una instancia de Cloud Data Fusion mediante Consola de Google Cloud
  • Puedes crear varias instancias en una sola consola de Google Cloud proyecto y puede especificar la región de Google Cloud para crear tu instancias de Cloud Data Fusion.
  • Según tus requisitos y restricciones de costos, puedes crear una Desarrolladores, básicos o empresariales instancia.
  • Cada instancia de Cloud Data Fusion contiene un conjunto de implementación de Cloud Data Fusion que contiene un conjunto de servicios, que controlan la administración del ciclo de vida de la canalización, la organización, y la administración de metadatos. Estos servicios se ejecutan con de larga duración proyecto de usuario.
Espacio de nombres Un espacio de nombres es una agrupación lógica de aplicaciones, datos y la metadatos asociados en una instancia de Cloud Data Fusion. Puedes pensar de espacios de nombres como una partición de la instancia. En una sola instancia, un espacio de nombres almacena los datos y metadatos de una entidad de forma independiente de otro espacio de nombres.
Canalización
  • Una canalización es una forma de diseñar visualmente los datos y controlarlos. de Terraform para extraer, transformar, combinar, agregar y cargar datos varias fuentes de datos locales y en la nube.
  • Compilar canalizaciones te permite crear modelos de procesamiento de datos complejos que te ayudan a resolver problemas de transferencia, integración y problemas de migración. Puedes usar Cloud Data Fusion para crear por lotes y en tiempo real, según tus necesidades.
  • Las canalizaciones te permiten expresar tus flujos de trabajo de procesamiento de datos mediante el flujo lógico de datos, mientras que Cloud Data Fusion se encarga funcionalidad necesaria para ejecutarse físicamente en una ejecución en un entorno de nube.
Nodo de canalización
  • En la página de Studio de la interfaz web de Cloud Data Fusion, se representan como una serie de nodos organizados en un entorno grafo acíclico (DAG), que forma un flujo unidireccional.
  • Los nodos representan las diversas acciones que puedes realizar con tu canalizaciones de datos, como la lectura de fuentes, el rendimiento transformaciones y la escritura de resultados en receptores. Puedes desarrollar datos canalizaciones en la interfaz web de Cloud Data Fusion entre fuentes, transformaciones, receptores y otros nodos.
Complemento
  • Un complemento es un módulo personalizable que se puede usar para extender la y capacidades de Cloud Data Fusion.
  • Cloud Data Fusion proporciona complementos para fuentes, transformaciones, agregados, receptores, recopiladores de errores, publicadores de alertas, acciones y acciones posteriores a la ejecución.
  • Un complemento a veces se denomina nodo, generalmente en el contextual de la interfaz web de Cloud Data Fusion.
  • Para descubrir los complementos populares de Cloud Data Fusion y acceder a ellos, sigue estos pasos: consulta Complementos de Cloud Data Fusion.
Concentrador En la interfaz web de Cloud Data Fusion, para explorar complementos, muestra las canalizaciones y otras integraciones, haz clic en Hub. Cuando se crea un nuevo de un complemento, se puede ver en el concentrador, en cualquier instancia que es compatible. Esto se aplica incluso si la instancia se creó antes se lanzó el complemento.
Vista previa de la canalización
  • Cloud Data Fusion Studio te permite probar la exactitud de diseño de canalización con Vista previa en el subconjunto de datos.
  • Una canalización en vista previa se ejecuta en el proyecto de usuario.
Ejecución de canalización
  • Cloud Data Fusion crea entornos de ejecución efímeros para para ejecutar canalizaciones.
  • Cloud Data Fusion admite Dataproc como entorno de ejecución
  • Cloud Data Fusion aprovisiona una red clúster de Dataproc en tu proyecto de cliente en la inicio de la ejecución de una canalización, ejecuta la canalización con Spark en clúster y lo borra después de que se ejecuta la canalización que se completó.
  • De manera alternativa, si administras tus clústeres de Dataproc en entornos controlados, a través de tecnologías como Terraform, y configurar Cloud Data Fusion para no aprovisionar clústeres. En en esos entornos, puedes ejecutar canalizaciones en clústeres de Dataproc.
Perfil de procesamiento
  • Un perfil de procesamiento especifica cómo y dónde se crea una canalización. ejecutado. Un perfil encapsula la información necesaria para configurar y borrar el entorno de ejecución físico de una canalización.
  • Por ejemplo, un perfil de procesamiento incluye lo siguiente:
    • Aprovisionador de ejecución
    • Recursos (memoria y CPU)
    • Cantidad mínima y máxima de nodos
    • Otros valores
  • Un perfil se identifica por nombre y se le debe asignar un aprovisionador y su configuración relacionada. Un perfil puede existir en el A nivel de la instancia de Cloud Data Fusion o del espacio de nombres.
  • El perfil de procesamiento predeterminado de Cloud Data Fusion es Ajuste de escala automático
Canalización reutilizable
  • Las canalizaciones de datos reutilizables en Cloud Data Fusion permiten crear de una única canalización que puede aplicar un patrón de integración de datos a un diversos casos de uso y conjuntos de datos.
  • Las canalizaciones reutilizables ofrecen una mejor administración la configuración de una canalización al momento de la ejecución, en lugar de codificarlos de forma rígida en el momento del diseño.
Activar
  • Cloud Data Fusion admite la creación de un activador en un llamada canalización descendente, para que se ejecute en la finalización de una o más canalizaciones diferentes (llamada upstream canalizaciones de rendimiento). Tú eliges cuándo se ejecuta la canalización descendente, por ejemplo, si se logra, falla, se detiene o cualquier combinación de estos, de la ejecución de la canalización ascendente.
  • Los activadores son útiles en los siguientes casos:
    • Limpiar los datos una vez y ponerlos a disposición de varias canalizaciones downstream para el consumo.
    • Compartir información, como argumentos de tiempo de ejecución y complementos parámetros de configuración entre las canalizaciones. Esto se llama carga útil actual.
    • Tener un conjunto de canalizaciones dinámicas que pueden ejecutarse con los datos de la hora, el día, la semana o el mes, en lugar de usar una canalización que debe actualizarse en cada ejecución.

Recursos de Cloud Data Fusion

Explorar los recursos de Cloud Data Fusion:

¿Qué sigue?