Google Cloud es líder en Forrester Wave: plataformas de datos de transmisión de 2023. Obtén más información.

Ir a
Dataflow

Dataflow

Procesamiento unificado de datos por lotes y de transmisión rápido, sin servidores y rentable.

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Dataflow.

  • Activación y estadísticas en tiempo real con transmisión de datos y aprendizaje automático

  • Servicio de procesamiento de datos completamente administrado

  • Aprovisionamiento y administración automáticos de los recursos de procesamiento

  • Ajuste de escala automático horizontal y vertical de los recursos de trabajador para maximizar la utilización de los recursos

  • Innovación en OSS impulsada por la comunidad con el SDK de Apache Beam

Beneficios

Transmite estadísticas de datos con velocidad

Dataflow permite desarrollar canalizaciones de transmisión de datos de forma simplificada y rápida con una latencia de datos más baja.

Simplifica las operaciones y la administración

Permite que los equipos se centren en programar en lugar de administrar clústeres de servidores, ya que el enfoque sin servidores de Dataflow quita la sobrecarga operativa de las cargas de trabajo de ingeniería de datos.

Reduce el costo total de propiedad

Dataflow combina el ajuste de escala automático de los recursos con las capacidades de procesamiento por lotes con optimización del costo, por lo que puede ofrecer una capacidad prácticamente ilimitada para que administres las cargas de trabajo estacionales y con incrementos bruscos sin gastar de más.

Características clave

Características clave

IA en tiempo real lista para usar

Las capacidades de IA en tiempo real de Dataflow, que están habilitadas a través de funciones de AA listas para usar, como la GPU NVIDIA y los patrones listos para usar, permiten generar reacciones en tiempo real con inteligencia casi humana ante enormes cantidades de eventos.

Los clientes pueden compilar soluciones inteligentes que van desde estadísticas predictivas y detección de anomalías hasta personalización en tiempo real y otros casos de uso de analítica avanzada.

Entrena, implementa y administra canalizaciones completas de aprendizaje automático (AA), incluida la inferencia local y remota con canalizaciones por lotes y de transmisión. 

Ajuste de escala automático de recursos y rebalanceo dinámico de trabajos

Minimiza la latencia de las canalizaciones, maximiza el uso de recursos y reduce el costo de procesamiento por registro de datos con un ajuste de escala automático de recursos adaptado a los datos. Las entradas de datos se particionan de forma automática y se balancean constantemente para equilibrar el uso de trabajadores y de recursos, y reducir el efecto de las “teclas de acceso rápido” en el rendimiento de las canalizaciones.

Supervisión y observabilidad

Observa los datos en cada paso de una canalización de Dataflow. Diagnostica problemas y soluciónalos de forma eficaz con muestras de datos reales. Compara diferentes ejecuciones del trabajo para identificar problemas con facilidad.

Ver todas las características

Documentación

Documentación

Tutorial

Serverless Data Processing with Dataflow: Foundations

Capacitación básica sobre todo lo que necesitas saber sobre Dataflow.
Tutorial

Guía de inicio rápido de Dataflow con Python

Configura el proyecto de Google Cloud y el entorno de desarrollo de Python, obtén el SDK de Python de Apache Beam, y ejecuta y modifica el ejemplo de WordCount en el servicio de Dataflow.
Tutorial

Usa Dataflow SQL

Crea una consulta de SQL y, después, implementa un trabajo de Dataflow para ejecutar la consulta desde la IU de Dataflow SQL.
Tutorial

Instala el SDK de Apache Beam

Instala el SDK de Apache Beam para que puedas ejecutar las canalizaciones en el servicio de Dataflow.
Tutorial

Aprendizaje automático con Apache Beam y TensorFlow

Preprocesa, entrena y haz predicciones en un modelo de aprendizaje automático de energía molecular mediante Apache Beam, Dataflow y TensorFlow.
Tutorial

Instructivo de recuento de palabras para Dataflow con Java

En este instructivo, aprenderás los conceptos básicos del servicio de Cloud Dataflow. Para ello, ejecutarás una canalización de ejemplo simple con el SDK de Java de Apache Beam.
Tutorial

Labs prácticos: Cómo procesar datos con Google Cloud Dataflow

Obtén información sobre cómo procesar un conjunto de datos en tiempo real y basado en texto con Python y Dataflow y, luego, almacenarlos en BigQuery.
Tutorial

Labs prácticos: Procesamiento de transmisión con Pub/Sub y Dataflow

Aprende a usar Dataflow para leer los mensajes publicados en un tema de Pub/Sub, agrupar los mensajes por marca de tiempo y escribir mensajes en Cloud Storage.
Google Cloud Basics

Recursos de Dataflow

Obtén información sobre los precios, las cuotas de recursos, las Preguntas frecuentes y mucho más.

¿No encuentras lo que buscas?

Casos de uso

Casos de uso

Caso de uso
Estadísticas de transmisiones

Mediante las estadísticas de transmisiones de Google, los datos estarán mejor organizados y serán más útiles y accesibles desde el instante en el que se generan. Nuestra solución de transmisión, incorporada en Dataflow junto con Pub/Sub y BigQuery, aprovisiona los recursos que necesitas para transferir, procesar y analizar volúmenes fluctuantes de datos en tiempo real a fin de generar estadísticas empresariales en tiempo real. Este aprovisionamiento abstraído reduce la complejidad y permite que las estadísticas de transmisiones sean accesibles para los ingenieros y analistas de datos.

Flujo de 5 columnas, desde Activador, hasta Transferencia, Enriquecimiento, Análisis y Activación. Cada columna tiene una sección inferior y superior. Además de la columna Activador, hay dispositivos perimetrales (dispositivo móvil, web, almacén de datos e IoT) que fluyen a Pub/Sub en la columna Transferencia y, luego, a la columna Enriquecimiento y Apache Beam/Dataflow Streaming y, luego, a Análisis y, luego, a los cuadros de Activación en los que fluye hacia los dispositivos perimetrales en Col 1. Desde Apache Beam en la col 3, fluyen hacia delante y hacia abajo hasta la columna Analizar, en BigQuery, AI Platform y Bigtable: los 3 flujos se envían al lote de Reabastecimiento/ Reprocesamiento de Dataflow. El flujo pasa de BigQuery a la columna Activación, en Data Studio, IE de terceros y Cloud Functions, que fluye hacia los dispositivos perimetrales de la columna 1. En la sección inferior de las columnas, se lee Flujo de creación: en Activador se indica el texto “Configurar fuente para enviar mensaje de evento al tema de Pub/Sub”. Fluye hacia Transferencia con el texto “Crear tema y suscripción de Pub/Sub”. Hacia Enriquecimiento con “Implementar trabajos de transmisión o por lotes de Dataflow con plantillas, CLI o notebooks”. Hacia Análisis con “Crear conjunto de datos, tablas y modelos para recibir transmisiones”. Y hacia Activación con “Crear paneles en tiempo real y llamar a API externas”.
Caso de uso
IA en tiempo real

Dataflow trae los eventos de transmisión a Vertex AI y TensorFlow Extended (TFX) de Google Cloud para habilitar las estadísticas predictivas, la detección de fraudes, la personalización en tiempo real y otros casos de uso de estadísticas avanzadas. TFX usa Dataflow y Apache Beam como motor de procesamiento de datos distribuido para habilitar varios aspectos del ciclo de vida del AA, con el respaldo de la CI/CD para AA mediante canalizaciones de Kubeflow.

Caso de uso
Procesamiento de datos de sensores y registros

Obtén estadísticas empresariales de tu red de dispositivos global con una plataforma IoT inteligente.

Todas las características

Todas las funciones

Dataflow ML
Implementa y administra canalizaciones de aprendizaje automático (AA) con facilidad. Usa modelos de AA para realizar inferencias locales y remotas con canalizaciones por lotes y de transmisión. Usa herramientas de procesamiento de datos a fin de preparar tus datos para el entrenamiento de modelos y para procesar los resultados de los modelos.
GPU de Dataflow
Sistema de procesamiento de datos optimizado para el rendimiento y el costo del uso de GPU. Compatibilidad con una amplia variedad de GPU de NVIDIA.
Ajuste de escala automático vertical
Ajusta la capacidad de procesamiento asignada de manera dinámica a cada trabajador según el uso. El ajuste de escala automático vertical funciona junto con el ajuste de escala automático horizontal para escalar sin problemas a los trabajadores a fin de que se adapten mejor a las necesidades de la canalización.
Ajuste de escala automático horizontal
El ajuste de escala automático horizontal permite que el servicio de Dataflow elija por sí mismo la cantidad de instancias de trabajador necesarias para ejecutar un trabajo. El servicio de Dataflow también puede reasignar de forma dinámica más o menos trabajadores durante el tiempo de ejecución para adaptarse a las características del trabajo.
Ajuste adecuado
El ajuste adecuado crea grupos de recursos específicos de la etapa que están optimizados para cada etapa a fin de reducir el desperdicio de recursos.
Diagnóstico inteligente
Un conjunto de funciones que incluyen 1) la administración de canalizaciones de datos basadas en SLO, 2) funciones de visualización de trabajos que brindan a los usuarios una manera visual de inspeccionar su grafo de trabajo para identificar cuellos de botella, 3) recomendaciones automáticas para identificar y ajustar los problemas de rendimiento y disponibilidad.
Streaming Engine
Streaming Engine separa el procesamiento del almacenamiento de estado y traslada partes de la ejecución de la canalización fuera de las VM de trabajador para enviarlas al backend del servicio de Dataflow, lo que mejora bastante el ajuste de escala automático y la latencia de los datos.
Dataflow Shuffle
Dataflow Shuffle, con base en los servicios, retira de las VM de trabajador la operación shuffle (que se usa a fin de agrupar y unir datos) y la envía al backend del servicio de Dataflow para las canalizaciones por lotes. Las canalizaciones de este tipo escalan a cientos de terabytes sin interrupciones y no requieren ajustes.
Dataflow SQL
Dataflow SQL te permite aprovechar tus habilidades de SQL para desarrollar canalizaciones de transmisión de Dataflow directamente desde la IU web de BigQuery. Puedes unir datos de transmisión de Pub/Sub con archivos almacenados en Cloud Storage o tablas de BigQuery, escribir resultados en BigQuery y crear paneles en tiempo real mediante Hojas de cálculo de Google o con otras herramientas de IE.
Programación flexible de recursos (FlexRS)
Dataflow FlexRS reduce los costos de procesamiento por lotes mediante técnicas de programación avanzadas, el servicio Dataflow Shuffle y una combinación de instancias de máquinas virtuales (VM) interrumpibles y VM comunes.
plantillas de Dataflow
Las plantillas de Dataflow te permiten compartir con facilidad las canalizaciones con miembros del equipo y en tu organización. Además, puedes aprovechar una gran cantidad de plantillas proporcionadas por Google para implementar tareas de procesamiento de datos sencillas y útiles. Esto incluye las plantillas de captura de datos modificados para los casos prácticos de estadísticas de transmisión. Mediante las plantillas Flex, puedes crear una plantilla a partir de cualquier canalización de Dataflow.
Integración en Notebooks
Compila canalizaciones de forma inmediata desde cero con los notebooks de Vertex AI y, luego, impleméntalas con el ejecutor de Dataflow. Inspecciona grafos de canalizaciones en un flujo de trabajo de bucle de lectura-evaluación-impresión (REPL) a fin de crear canalizaciones de Apache Beam paso a paso. El servicio de Notebooks (disponible a través de Vertex AI de Google) te permite escribir canalizaciones en un entorno intuitivo mediante los frameworks más recientes de ciencia de datos y aprendizaje automático.
Captura de datos en tiempo real
Sincroniza o replica datos de manera confiable y con una latencia mínima en fuentes de datos heterogéneas para impulsar los análisis de transmisiones. Las plantillas de Dataflow extensibles se integran a Datastream para replicar datos de Cloud Storage en BigQuery, PostgreSQL o Spanner. El conector de Debezium de Apache Beam proporciona una opción de código abierto para transferir cambios de datos desde MySQL, PostgreSQL, SQL Server y Db2.
Supervisión intercalada
La supervisión intercalada de Dataflow te permite acceder directamente a las métricas de trabajos a fin de solucionar problemas de canalizaciones por lotes y de transmisión. Puedes acceder a gráficos de supervisión que brindan visibilidad de cada paso y de los trabajadores, y fijar alertas cuando se cumplan ciertas condiciones, como la inactividad de los datos y el aumento de la latencia del sistema.
Claves de encriptación administradas por el cliente
Puedes crear una canalización por lotes o de transmisión que esté protegida con una clave de encriptación administrada por el cliente (CMEK), o bien acceder a datos protegidos con una CMEK que estén almacenados en fuentes y receptores.
Controles del servicio de VPC de Dataflow
La integración de Dataflow a los Controles del servicio de VPC proporciona seguridad adicional para el entorno de procesamiento de datos, ya que mejora la capacidad de mitigar el riesgo de robo de datos.
IP privadas
Desactivar las IP públicas te permite proteger mejor la infraestructura de procesamiento de datos. Si no usas direcciones IP públicas para los trabajadores de Dataflow, también puedes reducir la cantidad de direcciones IP públicas que consumes de la cuota del proyecto de Google Cloud.

Precios

Precios

Los trabajos de Dataflow se facturan por segundo, en función del uso real de trabajadores de transmisión o por lotes de Dataflow. Los recursos adicionales, como Cloud Storage o Pub/Sub, se facturan de forma individual según los precios de ese servicio.

Socios

Explora las soluciones para socios

Los socios de Google Cloud desarrollaron integraciones a Dataflow para permitir la realización rápida y sencilla de tareas potentes de procesamiento de datos de cualquier tamaño.


Los productos de IA de Cloud satisfacen las políticas de nuestros ANS. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Consola
  • Ahorra dinero con nuestro enfoque transparente de precios
  • Los precios de prepago de Google Cloud ofrecen ahorros automáticos en función del uso mensual y las tarifas con descuento para recursos prepagados. Comunícate con nosotros hoy para obtener una cotización.
Google Cloud