Máquinas virtuales escalables de alto rendimiento
Procesamiento de datos rápido y unificado tanto de streaming como por lotes

Dataflow es un servicio totalmente gestionado de analíticas de streaming que aprovecha el autoescalado y el procesamiento por lotes para minimizar la latencia, el tiempo de procesamiento y los costes. Además, al no necesitar servidor para el aprovisionamiento ni para la gestión de recursos, ofrece una capacidad casi ilimitada para solucionar los mayores desafíos que plantea el procesamiento de datos. Y por si esto fuera poco, solo pagarás por lo que utilices.

  • Aprovisionamiento y gestión automáticos de los recursos de procesamiento
  • Autoescalado horizontal de los recursos de trabajadores para sacarles el máximo partido
  • Modelo unificado de programación de streaming y por lotes
  • Innovación en software libre motivada por la comunidad mediante el SDK de Apache Beam
  • Procesamiento exacto, fiable y uniforme

Analíticas rápidas de datos de streaming

Dataflow agiliza el desarrollo de los flujos de procesamiento de datos de streaming de manera simplificada y con una latencia de datos reducida.

Simplifica las operaciones y la gestión

Como Dataflow opera sin servidor, desaparece la sobrecarga operativa que generaban las cargas de trabajo de ingeniería de datos, por lo que los equipos pueden dedicarse a programar en lugar de a gestionar los clústeres de los servidores.

Reduce el coste total de propiedad

Al combinar el autoescalado de recursos con su capacidad para realizar procesamientos por lotes con optimización de costes, Dataflow ofrece una capacidad casi ilimitada para gestionar las cargas de trabajo temporales y con picos sin gastar más de la cuenta.

Características principales

Gestión automática de recursos y restablecimiento dinámico del equilibrio de trabajo

Dataflow automatiza el aprovisionamiento y la gestión de los recursos de procesamiento para utilizarlos al máximo y reducir al mínimo la latencia. De esta forma, no tendrás que poner en marcha o reservar manualmente las instancias. La partición del trabajo también es automática, y el proceso se optimiza para equilibrar dinámicamente las tareas pendientes. No es necesario buscar las teclas de acceso rápido ni procesar de antemano los datos de entrada.

Autoescalado horizontal

El autoescalado horizontal de los recursos de los trabajadores cumple los requisitos óptimos de rendimiento y produce una mejor relación precio-rendimiento.

Flexibilidad en los precios de la programación de recursos del procesamiento por lotes

En los casos en los que se necesita flexibilidad en cuanto al momento para el que se programan las tareas (como es el caso de aquellas que se ejecutan durante la noche), el precio del procesamiento por lotes es inferior con la programación flexible de recursos (FlexRS). Las tareas flexibles se colocan en una cola con la garantía de que se ejecutarán en un plazo de seis horas.

Ver todas las funciones

Testimonios de clientes

Aspectos destacados

  • Han sintetizado más de 30 años de datos de noticias sin estructurar para valorar el impacto cualitativo en el negocio de determinados eventos clave.

  • Han realizado esfuerzos de redes complejos para descubrir relaciones y datos ocultos.

  • Han elaborado fácilmente un prototipo de gráfico de conocimiento en 10 semanas.

Partner

Ver más clientes

Novedades

Documentación

Tutorial
Guía de inicio rápido de Dataflow con Python

Configura tu proyecto de Google Cloud y el entorno de desarrollo de Python, hazte con el SDK de Apache Beam y ejecuta y modifica el ejemplo de WordCount en el servicio Dataflow.

Tutorial
Usar Dataflow SQL

Crea una consulta de SQL y ejecútala desplegando una tarea de Dataflow en la interfaz de usuario de Dataflow SQL.

Tutorial
Instalar el SDK de Apache Beam

Instala el SDK de Apache Beam para ejecutar flujos de procesamiento en el servicio Dataflow.

Tutorial
Aprendizaje automático con Apache Beam y TensorFlow

Procesa de antemano y prepara un modelo de aprendizaje automático de energía molecular con Apache Beam, Dataflow y TensorFlow, y haz predicciones sobre él.

Casos prácticos habituales

Analíticas de streaming

Las analíticas de streaming de Google Cloud hacen que los datos estén más organizados, sean útiles y puedas acceder a ellos desde el instante en que se generan. Nuestra solución de streaming se ha desarrollado en la infraestructura de autoescalado de Dataflow junto con Pub/Sub y BigQuery. Proporciona los recursos que hacen falta para ingerir, procesar y analizar volúmenes de datos variables en tiempo real para obtener información empresarial útil al instante. El aprovisionamiento abstracto reduce la complejidad y ayuda a que tanto analistas como ingenieros de datos puedan realizar analíticas de streaming.

Arquitectura: se muestran analíticas de streamingTriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
Procesamiento de datos de sensores y de registros

Consigue información valiosa para tu negocio a partir de tu red mundial de dispositivos con una plataforma inteligente de Internet de las cosas.

IA en tiempo real

Dataflow envía eventos de streaming a las soluciones AI Platform y TensorFlow Extended (TFX) de Google Cloud, con el objetivo de ofrecer funciones de analíticas predictivas, detección de fraudes, personalización en tiempo real y otros casos prácticos de analíticas avanzados. TFX usa Dataflow y Apache Beam como motor de procesamiento de datos distribuidos en diversos aspectos del ciclo de vida de aprendizaje automático, y todos ellos son compatibles con la integración y la entrega continuas (CI/CD) para aprendizaje automático mediante flujos de procesamiento de Kubeflow.

Todas las características

Autoescalado El autoescalado permite que Dataflow seleccione de forma automática la cantidad adecuada de instancias de trabajador necesarias para ejecutar tus tareas. También es posible reasignar de manera dinámica más o menos trabajadores durante la ejecución de las tareas para adaptarse a sus requisitos específicos.
Streaming Engine Streaming Engine separa la computación del almacenamiento de estados y traslada partes de la ejecución de flujos de procesamiento fuera de las máquinas virtuales de trabajadores y las ubica en el backend del servicio Dataflow, lo que mejora considerablemente el autoescalado y la latencia de los datos.
Dataflow Shuffle La función basada en servicios Dataflow Shuffle hace que la operación Shuffle, que se utiliza para agrupar y unir datos de flujos de procesamiento por lotes, se realice en el backend del servicio Dataflow en lugar de en las máquinas virtuales de trabajadores. De este modo, los flujos de procesamiento por lotes se pueden escalar fácilmente y sin necesidad de ajustes para manejar cientos de terabytes.
Dataflow SQL Dataflow SQL te permite aplicar tus conocimientos de SQL para desarrollar flujos de procesamiento de streaming de Dataflow directamente desde la interfaz web de BigQuery. Puedes combinar los datos de streaming de Pub/Sub con archivos de Cloud Storage o tablas de BigQuery, escribir resultados en BigQuery y crear paneles en tiempo real mediante Hojas de cálculo de Google u otras herramientas de inteligencia empresarial.
FlexRS Dataflow FlexRS reduce los costes del procesamiento por lotes mediante técnicas de programación avanzadas, el servicio Dataflow Shuffle y una combinación de instancias de máquina virtual estándar e interrumpibles.
Plantillas de Dataflow Las plantillas de Dataflow te permiten compartir fácilmente tus flujos de procesamiento con los miembros de tu equipo y con toda tu organización. Si lo prefieres, también puedes utilizar alguna de las muchas plantillas creadas por Google para implementar tareas de procesamiento de datos sencillas pero útiles.
Monitorización integrada La monitorización integrada de Dataflow te permite interactuar con tus tareas y acceder directamente a métricas sobre ellas. También puedes configurar alertas según condiciones concretas, como que haya datos inactivos o que la latencia del sistema sea elevada.
Claves de encriptado gestionadas por el cliente Puedes crear flujos de procesamiento de streaming o por lotes que cuenten con la protección de una clave de encriptado gestionada por el cliente (CMEK), así como acceder a datos protegidos con CMEKs que se encuentren en fuentes y sumideros.
Controles de Servicio de VPC de Dataflow La integración de Dataflow con los Controles de Servicio de VPC te permite mitigar el riesgo de filtración externa de datos. De este modo, contarás con medidas de seguridad adicionales en tu entorno de procesamiento de datos.
IP privadas Desactivar las IP públicas te permitirá proteger mejor tu infraestructura de procesamiento de datos. Al no utilizar direcciones IP públicas para tus trabajadores de Dataflow, también reducirás el número de direcciones públicas que consumes de cara a la cuota de tus proyectos de Google Cloud.

Precio

Las tareas de Dataflow se facturan por incrementos de segundos, según el uso real de los trabajadores de procesamiento de streaming o por lotes de Dataflow. Las tareas que consumen otros recursos de Google Cloud, como Cloud Storage o Pub/Sub, se facturan por el precio de esos servicios.

Ver detalles de precios

Partners

Varios partners de Google Cloud y desarrolladores externos han creado integraciones con Dataflow para posibilitar tareas de procesamiento de datos de cualquier tamaño de manera rápida, sencilla y eficaz.