Esta página se ha traducido con Cloud Translation API.

Información general sobre Cloud Data Fusion

Cloud Data Fusion es un servicio de integración de datos empresariales totalmente gestionado y nativo de la nube para crear y gestionar flujos de procesamiento de datos rápidamente. La interfaz web de Cloud Data Fusion te permite crear soluciones de integración de datos escalables. Te permite conectarte a varias fuentes de datos, transformar los datos y, a continuación, transferirlos a varios sistemas de destino sin tener que gestionar la infraestructura.

Cloud Data Fusion se basa en el proyecto de software libre CDAP.

Empezar a usar Cloud Data Fusion

Puedes empezar a explorar Cloud Data Fusion en cuestión de minutos.

Crea una instancia de Cloud Data Fusion: empieza creando una instancia de Cloud Data Fusion.
Coste: antes de empezar, consulta los costes de Cloud Data Fusion.
Conceptos: conoce la terminología clave que se usa en Cloud Data Fusion.
Guía de inicio rápido: prueba Cloud Data Fusion creando tu primera canalización.

Explorar Cloud Data Fusion

Los componentes principales de Cloud Data Fusion se explican en las siguientes secciones.

Proyecto de cliente

El conjunto de servicios necesarios para crear y orquestar flujos de procesamiento de Cloud Data Fusion y almacenar metadatos de flujos de procesamiento se aprovisionan en un proyecto de inquilino, dentro de una unidad de arrendamiento. Se crea un proyecto de arrendatario independiente para cada proyecto de cliente, en el que se aprovisionan instancias de Cloud Data Fusion. El proyecto de cliente hereda todas las configuraciones de red y de cortafuegos del proyecto de cliente.

Cloud Data Fusion: consola

La consola de Cloud Data Fusion, también denominada panel de control, es un conjunto de operaciones de API y una interfaz web que gestionan la propia instancia de Cloud Data Fusion, como crearla, eliminarla, reiniciarla y actualizarla.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, también denominado plano de datos, es un conjunto de operaciones de API REST y de interfaz web que se encargan de la creación, la ejecución y la gestión de las canalizaciones y los artefactos relacionados.

Conceptos

En esta sección se presentan algunos de los conceptos básicos de Cloud Data Fusion.

Concepto	Descripción
Instancia de Cloud Data Fusion	Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion. Para empezar a usar Cloud Data Fusion, crea una instancia de Cloud Data Fusion a través de la Google Cloud consola. Puedes crear varias instancias en un solo proyecto de la Google Cloud consola y especificar la Google Cloud región en la que quieres crear tus instancias de Cloud Data Fusion. En función de tus requisitos y limitaciones de costes, puedes crear una instancia Developer, Basic o Enterprise. Cada instancia de Cloud Data Fusion contiene una implementación de Cloud Data Fusion única e independiente que incluye un conjunto de servicios que gestionan el ciclo de vida, la orquestación, la coordinación y la gestión de metadatos de las canalizaciones. Estos servicios se ejecutan mediante recursos de larga duración en un proyecto de cliente.
Espacio de nombres	Un espacio de nombres es una agrupación lógica de aplicaciones, datos y los metadatos asociados en una instancia de Cloud Data Fusion. Puedes considerar los espacios de nombres como una partición de la instancia. En una sola instancia, un espacio de nombres almacena los datos y los metadatos de una entidad de forma independiente de otro espacio de nombres.
Flujo	Una pipeline es una forma de diseñar visualmente los datos y controlar los flujos para extraer, transformar, combinar, agregar y cargar datos de varias fuentes de datos locales y en la nube. La creación de flujos de procesamiento te permite crear flujos de trabajo complejos de procesamiento de datos que pueden ayudarte a resolver problemas de ingesta, integración y migración de datos. Puedes usar Cloud Data Fusion para crear flujos de procesamiento por lotes y en tiempo real, en función de tus necesidades. Los flujos de procesamiento te permiten expresar tus flujos de trabajo de procesamiento de datos mediante el flujo lógico de datos, mientras que Cloud Data Fusion gestiona todas las funciones necesarias para ejecutarse físicamente en un entorno de ejecución.
Nodo de flujo de procesamiento	En la página Studio de la interfaz web de Cloud Data Fusion, los flujos de procesamiento se representan como una serie de nodos organizados en un grafo acíclico dirigido (DAG) que forma un flujo unidireccional. Los nodos representan las distintas acciones que puedes llevar a cabo con tus pipelines, como leer de fuentes, realizar transformaciones de datos y escribir la salida en sumideros. Puedes desarrollar flujos de procesamiento de datos en la interfaz web de Cloud Data Fusion conectando fuentes, transformaciones, receptores y otros nodos.
Complemento	Un complemento es un módulo personalizable que se puede usar para ampliar las capacidades de Cloud Data Fusion. Cloud Data Fusion proporciona complementos para fuentes, transformaciones, agregaciones, sumideros, colectores de errores, editores de alertas, acciones y acciones posteriores a la ejecución. A veces, un complemento se denomina nodo, normalmente en el contexto de la interfaz web de Cloud Data Fusion. Para descubrir y acceder a los complementos populares de Cloud Data Fusion, consulta Complementos de Cloud Data Fusion.
Hub	En la interfaz web de Cloud Data Fusion, para consultar complementos, flujos de procesamiento de ejemplo y otras integraciones, haga clic en Hub. Cuando se lanza una nueva versión de un complemento, se muestra en el centro en cualquier instancia que sea compatible. Esto se aplica incluso si la instancia se creó antes de que se lanzara el complemento.
Vista previa del flujo de trabajo	Cloud Data Fusion Studio te permite probar la precisión del diseño de los flujos de procesamiento mediante la función Vista previa en el subconjunto de datos. Una canalización en versión preliminar se ejecuta en el proyecto de inquilino.
Ejecución de flujos de procesamiento	Cloud Data Fusion crea entornos de ejecución efímeros para ejecutar flujos de procesamiento. Cloud Data Fusion admite Dataproc como entorno de ejecución. Cloud Data Fusion aprovisiona un clúster de Dataproc efímero en tu proyecto de cliente al principio de la ejecución de un flujo de procesamiento, ejecuta el flujo de procesamiento con Spark en el clúster y, a continuación, elimina el clúster una vez que se ha completado la ejecución del flujo de procesamiento. Si gestionas tus clústeres de Dataproc en entornos controlados mediante tecnologías como Terraform, también puedes configurar Cloud Data Fusion para que no aprovisione clústeres. En esos entornos, puedes ejecutar flujos de procesamiento en clústeres de Dataproc ya creados.
Perfil de cálculo	Un perfil de cálculo especifica cómo y dónde se ejecuta una canalización. Un perfil encapsula cualquier información necesaria para configurar y eliminar el entorno de ejecución físico de una canalización. Por ejemplo, un perfil de cálculo incluye lo siguiente: Proveedor de ejecución Recursos (memoria y CPU) Número mínimo y máximo de nodos Otros valores Los perfiles se identifican por su nombre y se les debe asignar un aprovisionador y su configuración relacionada. Un perfil puede existir a nivel de instancia de Cloud Data Fusion o a nivel de espacio de nombres. El perfil de computación predeterminado de Cloud Data Fusion es Autoscaling.
Flujo de procesamiento reutilizable	Los flujos de procesamiento de datos reutilizables de Cloud Data Fusion permiten crear un único flujo de procesamiento que puede aplicar un patrón de integración de datos a una gran variedad de casos prácticos y conjuntos de datos. Los flujos de trabajo reutilizables ofrecen una mejor gestión, ya que la mayor parte de la configuración de un flujo de trabajo se define en el tiempo de ejecución, en lugar de codificarse de forma rígida en el tiempo de diseño.
Activar	Cloud Data Fusion permite crear un activador en un flujo de procesamiento de datos (denominado flujo de procesamiento posterior) para que se ejecute cuando se completen uno o varios flujos de procesamiento diferentes (denominados flujos de procesamiento anteriores). Tú eliges cuándo se ejecuta la canalización de nivel inferior. Por ejemplo, cuando se complete, falle o se detenga la canalización de nivel superior, o cualquier combinación de estas opciones. Los activadores son útiles en los siguientes casos: Limpiar los datos una vez y, después, ponerlos a disposición de varias canalizaciones posteriores para su consumo. Compartir información entre las canalizaciones, como argumentos de tiempo de ejecución y configuraciones de complementos. Esta opción se denomina configuración de carga útil. Tener un conjunto de canalizaciones dinámicas que se puedan ejecutar con los datos de la hora, el día, la semana o el mes, en lugar de usar una canalización estática que se deba actualizar en cada ejecución.

Recursos de Cloud Data Fusion

Consulta los recursos de Cloud Data Fusion:

Las notas de la versión proporcionan registros de cambios de funciones, modificaciones y obsolescencias.
Precios de Cloud Data Fusion
Regiones admitidas de Cloud Data Fusion
API y referencia

Siguientes pasos

Consulta los casos prácticos de Cloud Data Fusion.
Crea una instancia de Cloud Data Fusion.
Sigue un tutorial.