Dataflow

Procesamiento unificado de datos por lotes y de transmisión rápido, sin servidores y rentable.

Probar Dataflow gratis
  • action/check_circle_24pxCreado con Sketch.

    Servicio de procesamiento de datos completamente administrado

  • action/check_circle_24pxCreado con Sketch.

    Aprovisionamiento y administración automáticos de los recursos de procesamiento

  • action/check_circle_24pxCreado con Sketch.

    Ajuste de escala automático horizontal de los recursos de los trabajadores para maximizar el uso de los recursos

  • action/check_circle_24pxCreado con Sketch.

    Innovación en OSS impulsada por la comunidad con el SDK de Apache Beam

  • action/check_circle_24pxCreado con Sketch.

    Procesamiento confiable y coherente del tipo “exactamente una vez”

Transmite estadísticas de datos con velocidad

Dataflow permite desarrollar canalizaciones de transmisión de datos de forma simplificada y rápida con una latencia de datos más baja.

Simplifica las operaciones y la administración

Permite que los equipos se centren en programar en lugar de administrar clústeres de servidores con el enfoque sin servidores de Dataflow que quita la sobrecarga operativa de las cargas de trabajo de ingeniería de datos.

Reduce el costo total de propiedad

Dataflow combina el ajuste de escala automático de los recursos con capacidades de procesamiento por lotes con optimización del costo, por lo que puede ofrecer una capacidad prácticamente ilimitada para que administres las cargas de trabajo (estacionales y con incrementos bruscos) sin gastar de más.

Características clave

Administración de recursos automatizada y rebalanceo dinámico de trabajos

Dataflow automatiza el aprovisionamiento y la administración de los recursos de procesamiento a fin de minimizar la latencia y maximizar el uso para que no tengas que iniciar instancias de forma manual ni reservarlas. La partición de trabajo también está automatizada y optimizada para volver a balancear de forma dinámica las tareas atrasadas. No es necesario buscar “teclas de acceso rápido” ni procesar los datos de entrada de forma previa.

Ajuste de escala automático horizontal

El ajuste de escala automático horizontal de los recursos de trabajadores que se realiza a fin de alcanzar una capacidad de procesamiento óptima tiene como resultado una mejor relación general entre precio y rendimiento.

Programación flexible de recursos a un bajo precio para el procesamiento por lotes

A fin de procesar los trabajos, como los nocturnos, de forma flexible y según su programación, la programación flexible de recursos (FlexRS) ofrece un precio más bajo para el procesamiento por lotes. Estos trabajos flexibles se posicionan en una fila que garantiza su recuperación para ejecutarlos en un período de seis horas.

Ver todas las características

Clientes

Dow Jones
Dow Jones trae a la vida conjuntos de datos de eventos históricos con Dataflow.
Leer la historia

Aspectos destacados de la historia

  • Recopilaron datos de noticias que abarcaban más de 30 años para evaluar el impacto comercial.

  • Descubrieron estadísticas y relaciones ocultas entre datos.

  • Generaron un prototipo de Gráfico de conocimiento con facilidad en un plazo de 10 semanas.

Socio

Documentación

Guía de inicio rápido
Guía de inicio rápido de Dataflow con Python

Configura el proyecto de Google Cloud y el entorno de desarrollo de Python, obtén el SDK de Apache Beam, y ejecuta y modifica el ejemplo de WordCount en el servicio de Dataflow.

Instructivo
Usa Dataflow SQL

Crea una consulta de SQL e implementa un trabajo de Dataflow para ejecutar la consulta desde la IU de Dataflow SQL.

Instructivo
Instala el SDK de Apache Beam

Instala el SDK de Apache Beam para que puedas ejecutar las canalizaciones en el servicio de Dataflow.

Instructivo
Aprendizaje automático con Apache Beam y TensorFlow

Preprocesa, entrena y haz predicciones en un modelo de aprendizaje automático de energía molecular mediante Apache Beam, Dataflow y TensorFlow.

Instructivo
Qwiklab: Aspectos básicos de los macrodatos de Google Cloud y el AA

En este curso a pedido de una semana, se presentan las capacidades de estadísticas de datos y de AA de Google Cloud, incluida la creación de canalizaciones mediante Dataflow.

Conceptos básicos de Google Cloud
Recursos de Dataflow

Obtén información sobre los precios, los recursos, las cuotas, las Preguntas frecuentes y mucho más.

Instructivo
Descubre todo lo que puedes compilar con Google Cloud

Obtén las guías de recursos técnicos de Google Cloud de Dataflow.

Casos prácticos

Caso práctico
Estadísticas de transmisiones

Mediante las estadísticas de transmisiones de Google, puedes hacer que los datos estén organizados y sean útiles y accesibles desde el instante en el que se generan. Nuestra solución de transmisión, incorporada en Dataflow junto con Pub/Sub y BigQuery, aprovisiona los recursos que necesitas para transferir, procesar y analizar volúmenes fluctuantes de datos en tiempo real a fin de generar estadísticas empresariales en tiempo real. Este aprovisionamiento abstraído reduce la complejidad y permite que las estadísticas de transmisiones sean accesibles para los ingenieros y analistas de datos.

Diagrama de estadísticas de transmisiones de Dataflow
Caso práctico
IA en tiempo real

Dataflow trae los eventos de transmisión a AI Platform y TensorFlow Extended (TFX) de Google Cloud para habilitar las estadísticas predictivas, la detección de fraudes, la personalización en tiempo real y otros casos prácticos de estadísticas de datos avanzadas. TFX usa Dataflow y Apache Beam como motor de procesamiento de datos distribuido para habilitar varios aspectos del ciclo de vida del AA, con el respaldo de la CI/CD para AA mediante canalizaciones de Kubeflow.

Caso práctico
Procesamiento de datos de sensores y registros

Obtén estadísticas empresariales de tu red de dispositivos global con una plataforma IoT inteligente.

Todas las características

Streaming Engine Streaming Engine separa el procesamiento del almacenamiento de estado y traslada partes de la ejecución de la canalización fuera de las VM de trabajador para enviarlas al backend del servicio de Dataflow, lo que mejora bastante el ajuste de escala automático y la latencia de los datos.
Ajuste de escala automático El ajuste de escala automático permite que el servicio de Dataflow elija por sí mismo la cantidad de instancias de trabajador necesarias para ejecutar un trabajo. El servicio de Dataflow también puede reasignar de forma dinámica más o menos trabajadores durante el tiempo de ejecución para adaptarse a las características del trabajo.
Dataflow Shuffle Dataflow Shuffle, con base en los servicios, retira de las VM de trabajador la operación shuffle (que se usa a fin de agrupar y unir datos) y la envía al backend del servicio de Dataflow para las canalizaciones por lotes. Las canalizaciones de este tipo escalan a cientos de terabytes sin interrupciones y no requieren ajustes.
Dataflow SQL Dataflow SQL te permite aprovechar tus habilidades de SQL para desarrollar canalizaciones de transmisión de Dataflow directamente desde la IU web de BigQuery. Puedes unir datos de transmisión de Pub/Sub con archivos almacenados en Cloud Storage o tablas de BigQuery, escribir resultados en BigQuery y crear paneles en tiempo real mediante Hojas de cálculo de Google o con otras herramientas de IE.
Programación flexible de recursos (FlexRS) Dataflow FlexRS reduce los costos de procesamiento por lotes gracias a técnicas de programación avanzadas, el servicio Dataflow Shuffle y una combinación de instancias de máquinas virtuales (VM) interrumpibles y VM comunes.
Plantillas de Dataflow Las plantillas de Dataflow te permiten compartir con facilidad las canalizaciones con miembros del equipo y en tu organización. Además, puedes aprovechar una gran cantidad de plantillas proporcionadas por Google para implementar tareas de procesamiento de datos sencillas y útiles. Gracias a las plantillas de Flex, puedes crear plantillas a partir de cualquier canalización de Dataflow.
Integración en Notebooks Compila canalizaciones de forma iterativa y desde cero con AI Platform Notebooks y realiza implementaciones con el ejecutor de Dataflow. Inspecciona grafos de canalizaciones en un flujo de trabajo de bucle de lectura-evaluación-impresión (REPL) a fin de crear canalizaciones de Apache Beam paso a paso. El servicio de Notebooks (disponible a través de AI Platform de Google) te permite escribir canalizaciones en un entorno intuitivo mediante los frameworks más recientes de ciencia de datos y aprendizaje automático.
Supervisión intercalada La supervisión intercalada de Dataflow te permite acceder directamente a las métricas de trabajos a fin de solucionar problemas de canalizaciones por lotes y de transmisión. Puedes acceder a gráficos de supervisión que brindan visibilidad a nivel de los pasos y los trabajadores, y fijar alertas cuando se cumplan ciertas condiciones, como la inactividad de los datos y el aumento de la latencia del sistema.
Claves de encriptación administradas por el cliente Puedes crear una canalización por lotes o de transmisión que esté protegida con una clave de encriptación administrada por el cliente (CMEK), o bien acceder a datos protegidos con una CMEK que estén almacenados en fuentes y receptores.
Controles del servicio de VPC de Dataflow La integración de Dataflow a los Controles del servicio de VPC proporciona seguridad adicional para el entorno de procesamiento de datos, ya que mejora la capacidad de mitigar el riesgo de robo de datos.
IP privadas Desactivar las IP públicas te permite proteger mejor la infraestructura de procesamiento de datos. Si no usas direcciones IP públicas para los trabajadores de Dataflow, también puedes reducir la cantidad de direcciones IP públicas que consumes de la cuota del proyecto de Google Cloud.

Precios

Los trabajos de Dataflow se facturan por segundo, en función del uso real de trabajadores de transmisión o por lotes de Dataflow. Los otros recursos, como Cloud Storage o Pub/Sub, se facturan de forma individual según los precios de ese servicio.

Socios

Los socios de Google Cloud desarrollaron integraciones a Dataflow para permitir la realización rápida y sencilla de tareas potentes de procesamiento de datos de cualquier tamaño.