Arquitectura y componentes

Una instancia de Cloud Data Fusion se ejecuta dentro de una zona de Compute Engine en Google Cloud. Una instancia se compone de varias tecnologías de Google Cloud, incluidas Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk y Cloud Key Management Service.

Una instancia de Cloud Data Fusion se aprovisiona en una unidad de usuario. Proporciona la capacidad de compilar y organizar las canalizaciones de datos y la administración centralizada de metadatos. Se ejecuta en un clúster de GKE dentro de un proyecto de usuario y usa Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch y Cloud KMS para almacenar metadatos empresariales, técnicos y operativos.

Los componentes principales de la arquitectura de Cloud Data Fusion se explican en las siguientes secciones.

Proyecto de usuario

El conjunto de servicios necesarios para compilar y organizar canalizaciones de Cloud Data Fusion y almacenar metadatos de canalización se aprovisiona en un proyecto de usuario, dentro de una unidad de inquilino. Se crea un proyecto de usuario independiente para cada proyecto de cliente en el que se aprovisionan instancias de Cloud Data Fusion. El proyecto de usuario hereda todas las configuraciones de red y firewall del proyecto del cliente.

Servicios del sistema

Este es el conjunto de servicios que Cloud Data Fusion usa para administrar el ciclo de vida, la organización y los metadatos de las canalizaciones. Cloud Data Fusion organiza estos servicios mediante GKE.

Interfaz de usuario

La IU de Cloud Data Fusion es una interfaz gráfica para desarrollar, administrar y ejecutar canalizaciones de datos, además de buscar, visualizar y administrar metadatos de integración. La IU también se ejecuta en el clúster de GKE.

Almacenamiento de metadatos

Cloud Data Fusion usa Cloud Storage, Cloud SQL, Persistent Disk y Elasticsearch para almacenar metadatos técnicos, empresariales y operativos.

Espacios de nombres

Puedes usar espacios de nombres para particionar una instancia de Cloud Data Fusion a fin de lograr aislamiento de aplicaciones y datos en tus entornos de diseño y ejecución. Para obtener más información, consulta Espacios de nombres.

Dominio

Cuando se usa una IP pública, la IU y los servicios de backend de Cloud Data Fusion se ejecutan en el dominio datafusion.cdap.app. Se exponen mediante HTTPS y usan un certificado SSL para encriptar la conexión.

Ejecución de la canalización

Cloud Data Fusion ejecuta canalizaciones con clústeres de Dataproc. Cloud Data Fusion aprovisiona automáticamente clústeres de Dataproc efímeros, ejecuta canalizaciones en ellos y, luego, elimina los clústeres una vez que se completa la ejecución de la canalización. De forma opcional, también puedes optar por ejecutar canalizaciones con clústeres de Dataproc existentes.

Los clústeres de Dataproc y los depósitos de Cloud Storage existen en la misma región que la instancia de Cloud Data Fusion. Para obtener más información, consulta Ubicación de los datos en las Condiciones del Servicio generales y en las Preguntas frecuentes de Cloud Data Fusion.

Google Cloud's operations suite

De forma opcional, también puedes enviar registros a Google Cloud's operations suite. En el caso de las instancias configuradas para integrarse a Google Cloud's operations suite, se envían dos tipos de registros a Google Cloud's operations suite:

  1. Registros de auditoría: para todas las operaciones de administración de instancias, Cloud Data Fusion emite registros de auditoría en Google Cloud's operations suite.

  2. Registros de canalización: Puedes encontrar registros de canalizaciones de Cloud Data Fusion en los registros del clúster de Dataproc en Google Cloud's operations suite o en la página de Cloud Data Fusion Pipeline Studio en la que ejecutar tu canalización

Obtén más información sobre cómo trabajar con registros en Cloud Data Fusion.

¿Qué sigue?