Cloud Dataflow

Procesamiento de datos por lotes y en streaming simplificado, con fiabilidad y expresividad iguales

Pruébalo gratis

Desarrollo más rápido y administración más sencilla

Cloud Dataflow es un servicio totalmente administrado para transformar y enriquecer datos tanto en modo de streaming (tiempo real) como por lotes (histórico) con la misma fiabilidad y expresividad, y sin soluciones provisionales complejas ni riesgos. Además, al no necesitar servidor para el aprovisionamiento de recursos y administración, tienes una capacidad casi ilimitada para solucionar los mayores desafíos que el procesamiento de datos plantee al tiempo que solo pagarás por lo que utilices.

Cloud Dataflow desbloquea casos prácticos de transformación en distintos sectores, entre los que se incluyen los siguientes:

  • Análisis del flujo de clics, puntos de venta y segmentación en comercios
  • Detección de fraudes en servicios financieros
  • Experiencia de usuario personalizada en juegos
  • Análisis del Internet de las cosas en fabricación, atención sanitaria y logística
faster-development-easier-management

Desarrollo rápido para lotes y streaming

Cloud Dataflow simplifica el desarrollo rápido de flujos de procesamiento por medio de las API expresivas de Java y Python del SDK de Apache Beam. Esto se traduce en un conjunto completo de primitivas de análisis de sesiones y ventanas, así como en un ecosistema de conectores de orígenes y sumideros. Además, el modelo de desarrollo único y unificado de Beam permite reutilizar más código en los flujos de procesamiento de streaming y lotes.

accelerate-development-with-no-compromises

Simplificación de operaciones y administración

Al no necesitar servidor en GCP puedes olvidarte de la sobrecarga operativa y centrarte en la programación. La administración del rendimiento, el escalado, la disponibilidad, la seguridad y el cumplimiento normativo de los clústeres de servidores se hace de forma automática. La integración con Stackdriver, la solución de registro y supervisión unificada de GCP, permite supervisar los flujos de procesamiento y solucionar sus problemas mientras están en ejecución. La visualización completa, los registros y las alertas avanzadas permiten identificar y actuar ante posibles problemas.

simplify-operations-and-management

Creación sobre una base para el aprendizaje automático

Utiliza Cloud Dataflow como un punto de integración cómodo para trasladar el análisis predictivo a la detección de fraudes, la personalización en tiempo real y otros usos prácticos similares. Para ello, se incorporan modelos de aprendizaje automático en la nube y varias API a los flujos de procesamiento de datos.

build-on-a-foundation-for-machine-learning

Utiliza tus herramientas favoritas y conocidas

Cloud Dataflow se integra a la perfección con los servicios de GCP para la ingestión de eventos de streaming (Cloud Pub/Sub), el almacenamiento de datos (BigQuery) o el aprendizaje automático (Cloud Machine Learning), entre otros. Su SDK basado en Beam también permite que los desarrolladores generen extensiones personalizadas e incluso elijan sistemas de ejecución alternativos, como Apache Spark a través de Cloud Dataproc o en las instalaciones. Para los usuarios de Apache Kafka, los conectores de Cloud Dataflow facilitan la integración con GCP.

use-your-favorite-and-familiar-tools

Transformación de datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Gestión automática de recursos
Cloud Dataflow automatiza el aprovisionamiento y la gestión de los recursos de procesamiento para reducir al mínimo la latencia y utilizarlos al máximo. Se acabó tener que poner en marcha las instancias manualmente o reservarlas.
Restablecimiento del equilibrio de las tareas dinámicas
La partición automática y optimizada de tareas vuelve a equilibrar dinámicamente el trabajo pendiente. No es necesario buscar las “teclas de acceso rápido” ni procesar de antemano los datos de entrada.
Procesamiento exacto, uniforme y fiable
Cloud Dataflow es compatible con una ejecución tolerante a fallos que siempre es uniforme y correcta, sea cual sea el tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad del flujo de procesamiento.
Autoescalado horizontal
El autoescalado horizontal de los recursos de los trabajadores cumple los requisitos óptimos de rendimiento y resulta en una mejor relación precio-rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones igual de completas que MapReduce, un potente sistema de ventanas de datos y un control del grado de corrección detallado para datos de streaming y lotes.
Innovación motivada por la comunidad
Los desarrolladores que quieran ampliar el modelo de programación de Cloud Dataflow pueden bifurcar o enviar aportaciones a Apache Beam.

Cloud Dataflow o Cloud Dataproc: ¿cuál debería utilizar?

Cloud Dataproc y Cloud Dataflow se pueden utilizar para el procesamiento de datos, pero sus funciones de lotes y streaming se solapan. Por ello, ¿cómo puedes saber qué producto es el más adecuado para tu entorno?
Comparación entre Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es adecuado para entornos que dependen de componentes específicos del ecosistema de Big Data de Apache:

  •  Herramientas y paquetes
  •  Flujos de procesamiento
  •  Conjuntos de habilidades de recursos disponibles

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos de proyectos nuevos:

  •  Menos sobrecarga operativa
  •  Enfoque unificado del desarrollo de flujos de procesamiento por lotes o en streaming
  •  Uso de Apache Beam
  •  Portabilidad de flujos de procesamiento en Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de streaming (ETL)
Procesamiento por lotes (ETL)
Procesamiento iterativo y blocs de notas
Aprendizaje automático con Spark ML
Preprocesamiento para aprendizaje automático (con Cloud ML Engine)

Partners e integraciones

Varios de nuestros partners de Google Cloud Platform y desarrolladores externos han desarrollado integraciones con Dataflow para posibilitar tareas de procesamiento muy potentes y de cualquier tamaño de manera rápida y sencilla.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

“La ejecución de nuestros flujos de procesamiento en Cloud Dataflow nos permite dedicar nuestro tiempo a la programación y olvidarnos de las tareas de despliegue y mantenimiento de las instancias donde funciona nuestro código (sello distintivo general de GCP)”.

— Jibran Saithi Director de Arquitectura de Qubit

Precios asequibles

Las tareas de Cloud Dataflow se facturan por incrementos de segundos, según el uso real de los trabajadores de procesamiento por lotes o de streaming de Cloud Dataflow. Las tareas que consumen otros recursos de GCP, como Cloud Storage o Cloud Pub/Sub, se facturan por el precio de ese servicio.

Iowa (us‑central1) Los Ángeles (us‑west2) Oregón (us‑west1) Norte de Virginia (us‑east4) Carolina del Sur (us‑east1) Montreal (northamerica‑northeast1) São Paulo (southamerica‑east1) Bélgica (europe‑west1) Finlandia (europe‑north1) Fráncfort (europe‑west3) Londres (europe‑west2) Países Bajos (europe‑west4) Bombay (asia‑south1) Singapur (asia‑southeast1) Sídney (australia‑southeast1) Hong Kong (asia‑east2) Taiwán (asia‑east1) Tokio (asia‑northeast1)
Tipo de trabajador de Cloud Dataflow vCPU
$ por hora
Memoria
$ por GB y hora
Almacenamiento: Persistent Disk estándar
$ por GB y hora
Almacenamiento: Persistent Disk SSD
$ por GB y hora
Datos procesados3,4
$ por GB5
Por lotes1
En streaming2
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y unidad de Persistent Disk de 250 GB.

2 Valores predeterminados de los trabajadores en streaming: 4 vCPU, 15 GB de memoria y unidad de Persistent Disk de 420 GB.

3 En la actualidad, Cloud Dataflow Shuffle solo está disponible para los flujos de procesamiento por lotes de las regiones us‑central1 (Iowa) y europe‑west1 (Bélgica). Estará disponible en otras regiones más adelante.

4 Para Cloud Dataflow Streaming Engine se aplica la unidad de precio indicada en la columna Datos procesados para streaming. En la actualidad, Streaming Engine solo está disponible en versión beta para los flujos de procesamiento en streaming de las regiones us‑central1 (Iowa) y europe‑west1 (Bélgica). Estará disponible en otras regiones más adelante.

5 Consulta los precios de Cloud Dataflow para obtener más información sobre Datos procesados.

Enviar comentarios sobre...