Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Cloud Data Fusion es un servicio de integración de datos empresariales nativo de la nube y completamente administrado para compilar y administrar canalizaciones de datos con rapidez. La interfaz web de Cloud Data Fusion te permite compilar soluciones de integración de datos escalables. Te permite conectarte a varias fuentes de datos, transformarlos y
y, luego, transferirlos a varios sistemas de destino, sin tener que administrar
de Google Cloud.
Cloud Data Fusion se basa en el proyecto de código abierto CDAP.
Comienza a usar Cloud Data Fusion
Puedes comenzar a explorar Cloud Data Fusion en minutos.
Los componentes principales de Cloud Data Fusion se explican en las siguientes
secciones.
Proyecto de inquilino
El conjunto de servicios necesarios para compilar y organizar Cloud Data Fusion
las canalizaciones y los metadatos de las canalizaciones de almacenamiento se aprovisionan en un usuario.
proyecto, dentro de un usuario
unidad. Se crea un proyecto de usuario independiente para cada proyecto de cliente en el que se aprovisionan instancias de Cloud Data Fusion. El proyecto de usuario hereda
todos los parámetros de configuración
de redes y firewall del proyecto del cliente.
Cloud Data Fusion: Console
La consola de Cloud Data Fusion, también conocida como panel de control, es un conjunto de operaciones de API y una interfaz web que se ocupa de la instancia de Cloud Data Fusion, como crearla, borrarla, reiniciarla y actualizarla.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, también conocido como el plano de datos, es un conjunto de
API de REST y la interfaz web
operaciones que se ocupan de la creación, ejecución y administración de canalizaciones y
artefactos relacionados.
Conceptos
En esta sección, se presentan algunos de los conceptos principales de Cloud Data Fusion.
Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion. Para comenzar a usar Cloud Data Fusion,
crear una instancia de Cloud Data Fusion mediante
Consola de Google Cloud
Puedes crear varias instancias en un solo proyecto de Google Cloud Console
y especificar la región de Google Cloud en la que deseas crear tus
instancias de Cloud Data Fusion.
Cada instancia de Cloud Data Fusion contiene una implementación independiente y única de Cloud Data Fusion que contiene un conjunto de servicios que controlan la administración del ciclo de vida de las canalizaciones, la organización, la coordinación y la administración de metadatos. Estos servicios se ejecutan mediante recursos de larga duración en un proyecto de usuario.
Un espacio de nombres es una agrupación lógica de aplicaciones, datos y la
metadatos asociados en una instancia de Cloud Data Fusion. Puedes pensar
de espacios de nombres como una partición de la instancia. En una sola instancia, un espacio de nombres almacena los datos y metadatos de una entidad de forma independiente de otro espacio de nombres.
Una canalización es una forma de diseñar visualmente los datos y controlarlos.
de Terraform para extraer, transformar, combinar, agregar y cargar datos
varias fuentes de datos locales y en la nube.
Compilar canalizaciones te permite crear modelos de procesamiento de datos complejos
que te ayudan a resolver problemas de transferencia, integración y
problemas de migración. Puedes usar Cloud Data Fusion para crear
por lotes y en tiempo real, según tus necesidades.
Las canalizaciones te permiten expresar tus flujos de trabajo de procesamiento de datos mediante el flujo lógico de datos, mientras que Cloud Data Fusion controla toda la funcionalidad necesaria para ejecutarse de forma física en un entorno de ejecución.
En la página de Studio de la interfaz web de Cloud Data Fusion,
se representan como una serie de nodos organizados en un entorno
grafo acíclico (DAG), que forma un flujo unidireccional.
Los nodos representan las diversas acciones que puedes realizar con tus canalizaciones, como leer de fuentes, realizar transformaciones de datos y escribir resultados en receptores. Puedes desarrollar canalizaciones de datos en la interfaz web de Cloud Data Fusion mediante la conexión de fuentes, transformaciones, receptores y otros nodos.
Un complemento es un módulo personalizable que se puede usar para extender las capacidades de Cloud Data Fusion.
Cloud Data Fusion proporciona complementos para fuentes, transformaciones, agregados, receptores, recopiladores de errores, publicadores de alertas, acciones y acciones posteriores a la ejecución.
Un complemento a veces se denomina nodo, generalmente en el
contextual de la interfaz web de Cloud Data Fusion.
Para descubrir los complementos populares de Cloud Data Fusion y acceder a ellos, sigue estos pasos:
consulta
Complementos de Cloud Data Fusion.
En la interfaz web de Cloud Data Fusion, haz clic en Centro de noticias para explorar complementos, canalizaciones de muestra y otras integraciones. Cuando se lanza una versión nueva de un complemento, se puede ver en el Hub en cualquier instancia compatible. Esto se aplica incluso si la instancia se creó antes
se lanzó el complemento.
Cloud Data Fusion crea entornos de ejecución efímeros para
para ejecutar canalizaciones.
Cloud Data Fusion admite Dataproc como
entorno de ejecución
Cloud Data Fusion aprovisiona un clúster efímero de Dataproc en tu proyecto de cliente al comienzo de la ejecución de una canalización, ejecuta la canalización con Spark en el clúster y, luego, borra el clúster después de que se completó la ejecución de la canalización.
De manera alternativa, si administras tus clústeres de Dataproc en entornos controlados, a través de tecnologías como Terraform, también puedes configurar Cloud Data Fusion para no aprovisionar clústeres. En
en esos entornos, puedes ejecutar canalizaciones en
clústeres de Dataproc.
Un perfil de procesamiento especifica cómo y dónde se ejecuta una canalización. Un perfil encapsula la información necesaria para configurar y
borrar el entorno de ejecución físico de una canalización.
Por ejemplo, un perfil de procesamiento incluye lo siguiente:
Aprovisionador de ejecución
Recursos (memoria y CPU)
Cantidad mínima y máxima de nodos
Otros valores
Un perfil se identifica por nombre y se le debe asignar un aprovisionador
y su configuración relacionada. Un perfil puede existir a nivel de la instancia de Cloud Data Fusion o a nivel del espacio de nombres.
El perfil de procesamiento predeterminado de Cloud Data Fusion es el escalamiento automático.
Las canalizaciones de datos reutilizables en Cloud Data Fusion permiten crear
una sola canalización que puede aplicar un patrón de integración de datos a una
variedad de casos de uso y conjuntos de datos.
Las canalizaciones reutilizables proporcionan una mejor capacidad de administración, ya que configuran la mayor parte
de la configuración de una canalización en el momento de la ejecución, en lugar de
codificarla de forma fija en el momento del diseño.
Cloud Data Fusion admite la creación de un activador en un
llamada canalización descendente, para que se ejecute en
la finalización de una o más canalizaciones diferentes (llamada upstream
canalizaciones de rendimiento). Tú eliges cuándo se ejecuta la canalización descendente, por
ejemplo, en caso de éxito, fracaso, detención o cualquier combinación de ellos,
de la ejecución de la canalización ascendente.
Los activadores son útiles en los siguientes casos:
Limpiar tus datos una vez y, luego, hacer que estén disponibles para varias canalizaciones descendentes a fin de consumirlos.
Compartir información, como argumentos de entorno de ejecución y configuraciones de complementos, entre canalizaciones. Esto se denomina configuración de carga útil.
Tener un conjunto de canalizaciones dinámicas que pueden ejecutarse con los datos de
la hora, el día, la semana o el mes, en lugar de usar una canalización
que debe actualizarse en cada ejecución.
Recursos de Cloud Data Fusion
Explorar los recursos de Cloud Data Fusion:
Las notas de la versión proporcionan registros de cambios de funciones, cambios y bajas.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2024-10-14 (UTC)"],[],[]]