Arquitectura y componentes

Una instancia de Cloud Data Fusion se ejecuta dentro de una zona de Compute Engine en Google Cloud. Una instancia se compone de varias tecnologías de Google Cloud, incluidas Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk y Cloud Key Management Service.

Una instancia de Cloud Data Fusion se aprovisiona en una unidad de usuario. Proporciona la capacidad de crear y organizar canalizaciones de datos, y para la administración centralizada de metadatos. Una instancia de Cloud Data Fusion se ejecuta en un clúster de GKE dentro de un proyecto de usuario y usa Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch y Cloud KMS para almacenar metadatos empresariales, técnicos y operativos.

Los componentes principales de la arquitectura de Cloud Data Fusion se explican en las siguientes secciones.

Proyecto de usuario

El conjunto de servicios necesarios para compilar y organizar canalizaciones de Cloud Data Fusion y almacenar metadatos de canalización se aprovisiona en un proyecto de usuario, dentro de una unidad de inquilino. Se crea un proyecto de usuario independiente para cada proyecto de cliente en el que se aprovisionan instancias de Cloud Data Fusion. El proyecto de usuario hereda todas las configuraciones de red y firewall del proyecto del cliente.

Plano de control

El plano de control es un conjunto de operaciones de API que se ocupan de la instancia de Cloud Data Fusion en sí, como crearla, borrarla, reiniciarla y actualizarla.

Plano de datos

El plano de datos hace referencia a un conjunto de operaciones de la API de REST que se ocupan de la funcionalidad principal de Cloud Data Fusion, como la creación, ejecución y supervisión de canalizaciones y artefactos relacionados. Por ejemplo, puedes crear o detener una canalización con operaciones de plano de datos. Para obtener más información, consulta la referencia de CDAP.

Servicios del sistema

Conjunto de servicios que Cloud Data Fusion usa para administrar el ciclo de vida, la organización y los metadatos de la canalización. Cloud Data Fusion organiza estos servicios mediante GKE.

Interfaz web

La interfaz web de Cloud Data Fusion es una interfaz gráfica que se usa para desarrollar, administrar y ejecutar canalizaciones de datos, además de buscar, ver y administrar metadatos de integración. La interfaz web también se ejecuta en el clúster de GKE.

El centro

En la interfaz web de Cloud Data Fusion, haz clic en Hub para explorar los complementos, las canalizaciones de muestra y otras integraciones. Cuando se lanza una versión nueva de un complemento, esta se puede ver en el Hub, en cualquier instancia compatible. Esto se aplica incluso si la instancia se creó antes de que se lanzara el complemento.

Almacenamiento de metadatos

Cloud Data Fusion usa Cloud Storage, Cloud SQL, Persistent Disk y Elasticsearch para almacenar metadatos técnicos, empresariales y operativos.

Espacios de nombres

Puedes usar espacios de nombres para particionar una instancia de Cloud Data Fusion y lograr el aislamiento de aplicaciones y datos en tus entornos de diseño y ejecución. Para obtener más información, consulta Espacios de nombres.

Dominio

Cuando se usa una IP pública, la interfaz web y los servicios de backend de Cloud Data Fusion se ejecutan en el dominio datafusion.cdap.app. Se exponen mediante HTTPS y usan un certificado SSL para encriptar la conexión.

Ejecución de la canalización

Cloud Data Fusion ejecuta canalizaciones con clústeres de Dataproc. Cloud Data Fusion aprovisiona automáticamente clústeres de Dataproc efímeros, ejecuta canalizaciones en ellos y, luego, elimina los clústeres una vez que se completa la ejecución de la canalización. De forma opcional, también puedes optar por ejecutar canalizaciones con clústeres de Dataproc existentes.

Los clústeres de Dataproc y los buckets de Cloud Storage existen en la misma región que la instancia de Cloud Data Fusion. Para obtener más información, consulta Ubicación de los datos en las condiciones generales del servicio y las Preguntas frecuentes de Cloud Data Fusion.

Google Cloud's operations suite

De forma opcional, también puedes enviar registros a Google Cloud's operations suite. En el caso de las instancias configuradas para integrarse a Google Cloud's operations suite, se envían dos tipos de registros a Google Cloud's operations suite:

  1. Registros de auditoría: para todas las operaciones de administración de instancias, Cloud Data Fusion emite registros de auditoría en Google Cloud's operations suite.

  2. Registros de canalización: Puedes encontrar registros de las siguientes maneras:

    • Canalizaciones de Cloud Data Fusion en los registros de clústeres de Dataproc en Google Cloud's operations suite
    • Página de Pipeline Studio de Cloud Data Fusion en la que ejecutas tu canalización

Obtén más información para trabajar con registros en Cloud Data Fusion.

Vista previa

Cuando crees una canalización de datos en la página Studio de Cloud Data Fusion, haz clic en Vista previa para ver una parte de los datos de las fuentes de la canalización.

Una canalización en vista previa se ejecuta en el proyecto de usuario y, cuando implementas la canalización, se ejecuta en el proyecto del cliente en el perfil de procesamiento relevante. Después de implementar la canalización, debes duplicarla para usar la función Vista previa.

¿Qué sigue?