Cloud Dataflow

Procesamiento de datos por lotes y en streaming simplificado, con fiabilidad y expresividad por igual

Probar gratis

Desarrollo más rápido y gestión más sencilla

Cloud Dataflow es un servicio totalmente gestionado para transformar y enriquecer datos tanto en modo de streaming (tiempo real) como por lotes (histórico) con la misma fiabilidad y expresividad, y sin soluciones provisionales complejas ni riesgos. Además, al no necesitar servidor para el aprovisionamiento de recursos y administración, tienes una capacidad casi ilimitada para solucionar los mayores desafíos que el procesamiento de datos plantee, al tiempo que solo pagarás por lo que utilices.

Cloud Dataflow posibilita casos prácticos de transformación en distintos sectores, entre los que se incluyen los siguientes:

  • Análisis del flujo de clics, puntos de venta y segmentación en comercios
  • Detección de fraudes en servicios financieros
  • Experiencia del usuario personalizada en juegos
  • Análisis del Internet de las cosas en fabricación, atención sanitaria y logística
faster-development-easier-management

Agiliza el procesamiento por lotes y en streaming

Cloud Dataflow permite desarrollar de forma rápida y simplificada flujos de procesamiento mediante API expresivas de SQL, Java y Python del SDK de Apache Beam. Esto se traduce en un completo conjunto de primitivas de análisis de sesiones y ventanas, así como en un ecosistema de conectores de orígenes y sumideros. Además, el modelo de desarrollo único y unificado de Beam permite reutilizar más código en los flujos de procesamiento de streaming y lotes.

Para solicitar que se te envíe una notificación cuando la versión alfa de Dataflow SQL esté disponible, rellena este formulario. Nos pondremos en contacto contigo para informarte de que puedes utilizarla.

accelerate-development-with-no-compromises

Simplifica las operaciones y la gestión

Al no necesitar servidor en GCP, puedes olvidarte de la sobrecarga operativa y centrarte en la programación. La gestión del rendimiento, el escalado, la disponibilidad, la seguridad y el cumplimiento normativo de los clústeres de servidores se hace de forma automática. La integración con Stackdriver, la solución de registro y supervisión unificada de GCP, permite supervisar los flujos de procesamiento y solucionar sus problemas mientras están en ejecución. La visualización completa, los registros y las alertas avanzadas permiten identificar posibles problemas y actuar ante ellos.

simplify-operations-and-management

Creación sobre una base para el aprendizaje automático

Utiliza Cloud Dataflow como un punto de integración cómodo para trasladar el análisis predictivo a la detección de fraudes, la personalización en tiempo real y mucho más a través de AI Platform y TensorFlow Extended (TFX) de Google Cloud. TFX usa Cloud Dataflow y Apache Beam como motor de procesamiento de datos distribuidos para gestionar diversos aspectos del ciclo de vida de ML:

build-on-a-foundation-for-machine-learning

Utiliza tus herramientas favoritas y conocidas

Cloud Dataflow se integra a la perfección con los servicios de GCP de ingestión de eventos de streaming (Cloud Pub/Sub), de almacenamiento de datos (BigQuery) y de aprendizaje automático (Cloud AI Platform), entre otros. Su SDK basado en Beam también permite que los desarrolladores generen extensiones personalizadas e incluso elijan sistemas de ejecución alternativos, como Apache Spark. Para los usuarios de Apache Kafka, los conectores de Cloud Dataflow facilitan la integración con GCP.

use-your-favorite-and-familiar-tools

Transformación de datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Gestión automática de recursos
Cloud Dataflow automatiza el aprovisionamiento y la gestión de los recursos de procesamiento para reducir al mínimo la latencia y utilizarlos al máximo. Se acabó tener que poner en marcha las instancias manualmente o reservarlas.
Restablecimiento del equilibrio de las tareas dinámicas
La partición automática y optimizada de tareas vuelve a equilibrar dinámicamente el trabajo pendiente.ork. No es necesario buscar las teclas de acceso rápido ni procesar de antemano los datos de entrada.
Procesamiento exacto, uniforme y fiable
Es compatible con una ejecución tolerante a fallos que siempre es uniforme y correcta, sea cual sea el tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad del flujo de procesamiento.
Autoescalado horizontal
El autoescalado horizontal de los recursos de los trabajadores cumple los requisitos óptimos de rendimiento y produce una mejor relación precio-rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones igual de completas que MapReduce, un potente sistema de ventanas de datos y un control del grado de corrección detallado para datos de streaming y lotes.
Innovación motivada por la comunidad
Los desarrolladores que quieran ampliar el modelo de programación de Cloud Dataflow pueden bifurcar o enviar aportaciones a Apache Beam.
Flexibilidad en los precios de la programación de recursos del procesamiento por lotes
En los casos en los que se necesita flexibilidad en cuanto al momento para el que se programan las tareas (como es el caso de aquellas que se ejecutan durante la noche), el precio del procesamiento por lotes es inferior con la programación flexible de recursos. Las tareas flexibles se colocan en una cola con la garantía de que se retirarán y ejecutarán en un plazo de seis horas.

Cloud Dataflow o Cloud Dataproc: ¿cuál debería utilizar?

Cloud Dataproc y Cloud Dataflow se pueden utilizar para el procesamiento de datos, pero sus funciones de lotes y streaming se solapan. Por ello, ¿cómo puedes saber qué producto es el más adecuado para tu entorno?
Comparación entre Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es adecuado para entornos que dependen de componentes específicos del ecosistema de Big Data de Apache:

  • Herramientas y paquetes
  • Flujos de procesamiento
  • Perfiles de recursos existentes

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos de proyectos nuevos:

  • Menos sobrecarga operativa
  • Enfoque unificado del desarrollo de flujos de procesamiento por lotes o en streaming
  • Uso de Apache Beam
  • Portabilidad de flujos de procesamiento en Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de streaming (ETL)
Procesamiento por lotes (ETL)
Procesamiento iterativo y cuadernos
Aprendizaje automático con Spark ML
Aprendizaje automático con Cloud AI Platform y TensorFlow Extended (TFX)

Partners e integraciones

Varios de nuestros partners de Google Cloud Platform y desarrolladores externos han desarrollado integraciones con Dataflow para posibilitar tareas de procesamiento muy potentes y de cualquier tamaño de manera rápida y sencilla.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

"La ejecución de nuestros flujos de procesamiento en Cloud Dataflow nos permite dedicar nuestro tiempo a la programación y olvidarnos de las tareas de despliegue y mantenimiento de las instancias donde funciona nuestro código (sello distintivo general de GCP)".

- Jibran Saithi Director de Arquitectura de Qubit

Precios transparentes

Las tareas de Cloud Dataflow se facturan por incrementos de segundos, según el uso real de los trabajadores de procesamiento por lotes o de streaming de Cloud Dataflow. Las tareas que consumen otros recursos de GCP, como Cloud Storage o Cloud Pub/Sub, se facturan por el precio de ese servicio.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria y disco persistente de 420 GB.

4 Dataflow Shuffle is currently available for batch pipelines in the following regions:

  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-west1 (Oregón)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)

Estará disponible en otras regiones más adelante.

5 Para Streaming Engine de Cloud Dataflow, se aplica la unidad de precio de los datos procesados en streaming. Streaming Engine está disponible en las siguientes regiones:

  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-west1 (Oregón)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)
Estará disponible en otras regiones más adelante.

6 Consulta los precios de Cloud Dataflow para obtener más información sobre los datos procesados.

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.