VM escalables de alto rendimiento
Procesamiento rápido y unificado de datos por lotes y de transmisión

Dataflow es un servicio de estadísticas de transmisión completamente administrado que reduce la latencia, así como el tiempo y costo de procesamiento mediante el ajuste de escala automático y el procesamiento por lotes. Gracias a su enfoque de aprovisionamiento y administración de recursos sin servidores, accedes a una capacidad prácticamente ilimitada para abordar tus mayores desafíos de procesamiento de datos, a la vez que pagas solo por lo que utilizas.

  • Aprovisionamiento y administración automáticos de los recursos de procesamiento
  • Ajuste de escala horizontal automático de los recursos de los trabajadores para maximizar la utilización de los recursos
  • Modelo de transmisión unificada y programación por lotes
  • Innovación en OSS impulsada por la comunidad con el SDK de Apache Beam
  • Procesamiento confiable y coherente del tipo “exactamente una vez”

Estadísticas rápidas de datos de transmisión

Dataflow permite desarrollar canalizaciones de transmisión de datos de forma rápida y simplificada con una latencia de datos más baja.

Simplifica las operaciones y la administración

Permite que los equipos se centren en programar en lugar de administrar clústeres de servidores con el enfoque sin servidores de Dataflow que quita la sobrecarga operativa de las cargas de trabajo de ingeniería de datos.

Reduce el costo total de propiedad

Dataflow combina el ajuste de escala automático de los recursos con capacidades de procesamiento por lotes con optimización del costo, por lo que puede ofrecer una capacidad prácticamente ilimitada para que administres tus cargas de trabajo (tanto estacionales como con incrementos bruscos) sin gastar de más.

Características clave

Administración de recursos automatizada y rebalanceo dinámico de trabajos

Dataflow automatiza el aprovisionamiento y la administración de los recursos de procesamiento a fin de minimizar la latencia y maximizar el uso para que no tengas que iniciar instancias manualmente ni reservarlas. La partición de trabajo también está automatizada y optimizada para volver a balancear dinámicamente las tareas atrasadas. No es necesario buscar “teclas de acceso rápido” ni procesar previamente los datos de entrada.

Ajuste de escala horizontal automático

El ajuste de escala horizontal automático de los recursos de los trabajadores para alcanzar una capacidad de procesamiento óptima tiene como resultado una mejor relación general entre precio y rendimiento.

Programación flexible de recursos a un bajo precio para el procesamiento por lotes

A fin de procesar de forma flexible la hora de la programación de los trabajos, como los nocturnos, la programación flexible de recursos (FlexRS) ofrece un precio más bajo para el procesamiento por lotes. Estos trabajos flexibles se posicionan en una fila que garantiza su recuperación para ejecutarlos en un período de seis horas.

Ver todas las funciones

Historias de clientes

Aspectos destacados

  • Recopilaron datos no estructurados de noticias que abarcaban más de 30 años para evaluar el impacto comercial cualitativo que generaron los eventos clave.

  • Definieron tareas de redes complejas para descubrir relaciones y estadísticas ocultas.

  • Generaron un prototipo de Gráfico de conocimiento fácilmente en un plazo de 10 semanas.

Socio

Ver más clientes

Novedades

Documentación

Instructivo
Guía de inicio rápido para Python en Dataflow

Configura tu proyecto de Google Cloud y el entorno de desarrollo de Python, obtén el SDK de Apache Beam, y ejecuta y modifica el ejemplo de WordCount en el servicio de Dataflow.

Instructivo
Usa Dataflow SQL

Crea una consulta de SQL y, después, implementa un trabajo de Dataflow para ejecutar tu consulta de SQL desde la IU de Dataflow SQL.

Instructivo
Instala el SDK de Apache Beam

Instala el SDK de Apache Beam para que puedas ejecutar tus canalizaciones en el servicio de Dataflow.

Instructivo
Aprendizaje automático con Apache Beam y TensorFlow

Preprocesa, entrena y haz predicciones en un modelo de aprendizaje automático de energía molecular con Apache Beam, Dataflow y TensorFlow.

Casos prácticos habituales

Estadísticas de transmisiones

Las estadísticas de transmisiones de Google Cloud hacen que los datos sean más ordenados, útiles y accesibles desde el momento en que se generan. Nuestra solución de transmisión se basa en la infraestructura de ajuste de escala automático de Dataflow junto con Pub/Sub y BigQuery, y aprovisiona los recursos que necesitas para transferir, procesar y analizar volúmenes fluctuantes de datos en tiempo real a fin de generar estadísticas empresariales en tiempo real. Este aprovisionamiento abstraído reduce la complejidad y hace que las estadísticas de transmisiones sean accesibles para los ingenieros y analistas de datos.

Arquitectura con estadísticas de transmisionesTriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
Procesamiento de datos de sensores y registros

Obtén estadísticas empresariales de tu red de dispositivos global con una plataforma de IoT inteligente.

IA en tiempo real

Dataflow trae los eventos de transmisión a AI Platform y TensorFlow Extended (TFX) de Google Cloud para habilitar el análisis predictivo, la detección de fraudes, la personalización en tiempo real y otros casos prácticos de análisis de datos avanzado. TFX utiliza Dataflow y Apache Beam como el motor de procesamiento de datos distribuido para habilitar varios aspectos del ciclo de vida del AA, los que son compatibles con IC/EC para AA mediante canalizaciones de Kubeflow.

Todas las funciones

Ajuste de escala automático El ajuste de escala automático permite al servicio de Dataflow elegir instantáneamente la cantidad de instancias de trabajador necesarias para ejecutar tu trabajo. El servicio de Dataflow también puede reasignar de forma dinámica más o menos trabajadores durante el tiempo de ejecución para tener en cuenta las características de tu trabajo.
Streaming Engine Streaming Engine separa el procesamiento del almacenamiento de estado y traslada partes de la ejecución de la canalización fuera de las VM de trabajador para enviarlas al backend del servicio de Dataflow, lo que mejora significativamente el ajuste de escala automático y la latencia de los datos.
Dataflow Shuffle Dataflow Shuffle, con base en los servicios, retira de las VM de trabajador la operación shuffle (que se usa para agrupar y unir datos) y la envía al backend de servicio de Dataflow para las canalizaciones por lotes. Las canalizaciones por lotes escalan a cientos de terabytes sin interrupciones y no requieren ajustes.
Dataflow SQL Dataflow SQL te permite usar tus habilidades de SQL para desarrollar canalizaciones de transmisión de Dataflow directamente desde la IU web de BigQuery. Puedes unir datos de transmisión de Pub/Sub con archivos en Cloud Storage o tablas en BigQuery, escribir resultados en BigQuery y compilar paneles en tiempo real con Hojas de cálculo de Google o con otras herramientas de BI.
Programación flexible de recursos (FlexRS) Dataflow FlexRS reduce los costos de procesamiento por lotes mediante el uso de técnicas de programación avanzadas, el servicio Dataflow Shuffle y una combinación de instancias de máquinas virtuales interrumpibles (VM) y VM normales.
Plantillas de Dataflow Las plantillas de Dataflow te permiten compartir fácilmente tus canalizaciones con miembros del equipo y en tu organización o aprovechar muchas plantillas proporcionadas por Google para implementar tareas de procesamiento de datos sencillas, pero útiles.
Supervisión intercalada La supervisión intercalada de Dataflow te permite interactuar con tus trabajos y acceder directamente a sus métricas. También puedes configurar alertas con condiciones para datos inactivos y latencia alta del sistema.
Claves de encriptación administradas por el cliente Puedes crear una canalización por lotes o de transmisión que esté protegida con una clave de encriptación administrada por el cliente (CMEK) o acceder a datos protegidos por una CMEK de fuentes y receptores.
Controles del servicio de VPC de Dataflow La integración de Dataflow y los Controles del servicio de VPC proporcionan seguridad adicional para tu entorno de procesamiento de datos, ya que mejoran la capacidad de mitigar el riesgo de robo de datos.
IP privadas Desactivar las IP públicas te permite proteger mejor tu infraestructura de procesamiento de datos. Si no usas direcciones IP públicas para tus trabajadores de Dataflow, también puedes reducir la cantidad de direcciones IP públicas que utilizas en la cuota de tu proyecto de Google Cloud.

Precios

Los trabajos de Dataflow se facturan en incrementos por segundo, en función del uso real de trabajadores de transmisión o por lotes de Dataflow. Los trabajos que utilizan otros recursos de Google Cloud, como Cloud Storage o Pub/Sub, se facturan individualmente según los precios de ese servicio.

Ver detalles de precios

Socios

Los socios y desarrolladores externos de Google Cloud han creado integraciones con Dataflow para permitir la realización rápida y sencilla de tareas potentes de procesamiento de datos de cualquier tamaño.