Dataflow

Procesamiento de datos de streaming y por lotes unificado, rápido, rentable y sin servidor

Probar Dataflow gratis
  • action/check_circle_24px Creado con Sketch

    Servicio totalmente gestionado de procesamiento de datos

  • action/check_circle_24px Creado con Sketch

    Aprovisionamiento y gestión automáticos de recursos de procesamiento

  • action/check_circle_24px Creado con Sketch

    Autoescalado horizontal de recursos de trabajadores para sacarles el máximo partido

  • action/check_circle_24px Creado con Sketch

    Innovación en software libre motivada por la comunidad mediante el SDK de Apache Beam

  • action/check_circle_24px Creado con Sketch

    Procesamiento exacto, fiable y uniforme

Haz analíticas de datos de streaming con rapidez

Dataflow permite desarrollar flujos de procesamiento de datos de streaming con menos latencia de datos de manera rápida y más sencilla.

Simplifica las operaciones y la gestión

Como Dataflow funciona sin servidor, desaparece la sobrecarga operativa que generan las cargas de trabajo de ingeniería de datos. Así, los equipos se pueden dedicar a programar en lugar de a gestionar clústeres de servidores.

Reduce el coste total de propiedad

Dataflow combina el autoescalado de recursos con las funciones de procesamiento por lotes con optimización de costes. Por eso, ofrece una capacidad casi ilimitada para gestionar cargas de trabajo temporales y con picos, y sin gastar más de la cuenta.

Características principales

Gestión automática de recursos y restablecimiento dinámico del equilibrio del trabajo

Dataflow automatiza el aprovisionamiento y la gestión de los recursos de procesamiento para utilizarlos al máximo y reducir al mínimo la latencia. De esta forma, no tienes que poner en marcha ni reservar manualmente las instancias. La partición del trabajo también es automática y el proceso se optimiza para volver a equilibrar dinámicamente el trabajo pendiente. Así te ahorras buscar las teclas de acceso rápido y procesar de antemano los datos de entrada.

Autoescalado horizontal

Con el autoescalado horizontal de recursos de trabajadores, logras un rendimiento óptimo y una mejor relación precio‑rendimiento.

Precios de la programación flexible de recursos para el procesamiento por lotes

Algunas tareas se pueden programar de forma más flexible, por ejemplo, para ejecutarlas por la noche. En estos casos, el procesamiento por lotes cuesta menos si usas FlexRS, que es la programación flexible de recursos. Las tareas flexibles se ponen en cola, con la garantía de que se ejecutarán en un plazo máximo de seis horas.

Ver todas las características

Clientes

Dow Jones
Dow Jones saca a la luz conjuntos de datos sobre eventos históricos clave con Dataflow.
Leer el testimonio

Lo más destacado

  • Han sintetizado más de 30 años de datos de noticias para valorar el impacto en el negocio.

  • Han descubierto información valiosa y relaciones de datos que permanecían ocultas.

  • Han elaborado fácilmente un prototipo de gráfico de conocimiento en 10 semanas.

Partner

Documentación

Guía de inicio rápido
Guía de inicio rápido de Dataflow con Python

Configura tu proyecto de Google Cloud y el entorno de desarrollo de Python, hazte con el SDK de Apache Beam y ejecuta y modifica el ejemplo de WordCount en el servicio Dataflow.

Tutorial
Usar Dataflow SQL

Usa la interfaz de usuario de Dataflow SQL para crear consultas SQL y para desplegar las tareas de Dataflow que las ejecutan.

Tutorial
Instalar el SDK de Apache Beam

Instala el SDK de Apache Beam para ejecutar los flujos de procesamiento en el servicio Dataflow.

Tutorial
Aprendizaje automático con Apache Beam y TensorFlow

Procesa de antemano y prepara modelos de aprendizaje automático de energía molecular con Apache Beam, Dataflow y TensorFlow. Después, úsalos para hacer predicciones.

Tutorial
Qwiklab sobre fundamentos de aprendizaje automático y Big Data de Google Cloud

Este curso introductorio bajo demanda dura una semana. Trata sobre las funciones de analíticas de datos y de aprendizaje automático de Google Cloud, como las que sirven para crear flujos de procesamiento con Dataflow.

Aspectos básicos de Google Cloud
Recursos de Dataflow

Consulta información sobre precios, cuotas de recursos y preguntas frecuentes, entre otros.

Tutorial
Descubre qué puedes desarrollar en Google Cloud

Descubre las guías de recursos técnicos de Google Cloud relacionadas con Dataflow.

Usos

Uso
Analíticas de streaming

Gracias a las analíticas de streaming de Google, los datos están más organizados y son más útiles. Además, puedes acceder a ellos desde el instante en que se generan. Nuestra solución de streaming se basa en Dataflow, en Pub/Sub y en BigQuery. Aprovisiona los recursos que hacen falta para ingerir, procesar y analizar volúmenes variables de datos en tiempo real para obtener información empresarial útil al instante. Además de reducir la complejidad, este aprovisionamiento abstracto facilita que tanto analistas como ingenieros de datos realicen analíticas de streaming.

Diagrama de analíticas de streaming de Dataflow
Uso
Inteligencia artificial en tiempo real

Dataflow envía eventos de streaming a las soluciones AI Platform y TensorFlow Extended (TFX) de Google Cloud para habilitar las analíticas predictivas, la detección de fraudes, la personalización en tiempo real y otros usos de analíticas avanzadas. TFX usa Dataflow y Apache Beam como motor de procesamiento distribuido de datos en diversos aspectos del ciclo de vida del aprendizaje automático, y todos ellos son compatibles con la integración y la entrega continuas (CI/CD) para aprendizaje automático mediante flujos de procesamiento de Kubeflow.

Uso
Procesamiento de datos de sensores y de registros

Obtén información valiosa para tu empresa a partir de tu red mundial de dispositivos con una plataforma inteligente de Internet de las cosas.

Todas las características

Streaming Engine Streaming Engine separa la computación del espacio de almacenamiento de estados y traslada partes de la ejecución de flujos de procesamiento fuera de las máquinas virtuales de trabajadores para ubicarlas en el backend del servicio Dataflow. Eso mejora considerablemente el autoescalado y la latencia de los datos.
Autoescalado Con el autoescalado, el servicio Dataflow puede seleccionar de forma automática la cantidad adecuada de instancias de trabajador necesarias para ejecutar las tareas. También es posible reasignar de manera dinámica más o menos trabajadores durante la ejecución de las tareas para adaptarse a sus requisitos específicos.
Dataflow Shuffle La función basada en servicios Dataflow Shuffle hace que la operación Shuffle, que se utiliza para agrupar y unir datos de flujos de procesamiento por lotes, se realice en el backend del servicio Dataflow en lugar de en las máquinas virtuales de trabajadores. De este modo, los flujos de procesamiento por lotes se pueden escalar de manera óptima y sin necesidad de ajustes para manejar cientos de terabytes.
Dataflow SQL Dataflow SQL te permite aplicar tus conocimientos de SQL para desarrollar flujos de procesamiento de streaming de Dataflow directamente desde la interfaz web de BigQuery. Puedes combinar los datos de streaming de Pub/Sub con archivos de Cloud Storage o tablas de BigQuery, escribir resultados en BigQuery y crear paneles en tiempo real mediante Hojas de cálculo de Google u otras herramientas de inteligencia empresarial.
FlexRS Dataflow FlexRS reduce los costes del procesamiento por lotes mediante técnicas avanzadas de programación, el servicio Dataflow Shuffle y una combinación de instancias de máquina virtual interrumpible y máquinas virtuales convencionales.
Plantillas de Dataflow Con las plantillas de Dataflow, podrás compartir fácilmente tus flujos de procesamiento con los miembros del equipo y con toda la organización. Si lo prefieres, también puedes utilizar alguna de las muchas plantillas creadas por Google para implementar tareas de procesamiento de datos sencillas pero útiles. Con las plantillas flexibles, podrás crear plantillas a partir de cualquier flujo de procesamiento de Dataflow.
Integración con Notebooks Crea flujos de procesamiento desde cero de forma iterativa con AI Platform Notebooks y despliégalos con el ejecutor de Dataflow. Para crear flujos de procesamiento de Apache Beam paso a paso, inspecciona los gráficos de los flujos en un flujo de trabajo de lectura, evaluación, impresión y bucle (REPL). Con Notebooks, que está disponible en Google AI Platform, podrás escribir flujos de procesamiento en un entorno intuitivo gracias a los frameworks de ciencia de datos y de aprendizaje automático de última generación.
Monitorización integrada Con la monitorización integrada de Dataflow, podrás acceder directamente a las métricas de las tareas para solucionar problemas en los flujos de procesamiento por lotes y de streaming. Podrás acceder a los gráficos de monitorización desde los niveles de visibilidad de paso y de trabajador, así como configurar alertas según condiciones concretas, como que haya datos inactivos o que la latencia del sistema sea elevada.
Claves de encriptado gestionadas por el cliente Puedes crear flujos de procesamiento por lotes o de streaming y protegerlos con claves de encriptado gestionadas por el cliente (CMEK), así como acceder a datos de fuentes y de sumideros que estén protegidos con ese tipo de claves.
Controles de Servicio de VPC de Dataflow Gracias a la integración de Dataflow con los Controles de Servicio de VPC, te resultará más fácil evitar las filtraciones externas de datos. Esta capa de seguridad adicional reforzará tu entorno de procesamiento de datos.
IP privadas Si desactivas las IP públicas, proteges mejor la infraestructura de procesamiento de datos. Al no utilizar direcciones IP públicas para tus trabajadores de Dataflow, también reduces el número de direcciones que consumes de cara a la cuota de tus proyectos de Google Cloud.

Precios

Las tareas de Dataflow se facturan por segundos, según el uso real de trabajadores de procesamiento por lotes o de streaming de Dataflow. Si utilizas otros recursos, como Cloud Storage o Pub/Sub, se te cobrarán las tarifas correspondientes a cada servicio.

Partners

Algunos Google Cloud Partners han desarrollado integraciones con Dataflow para ejecutar tareas potentes de procesamiento de datos de forma rápida y sencilla, independientemente de su tamaño.