Cloud Dataflow

Procesamiento de datos por lotes y en streaming simplificado, con fiabilidad y expresividad iguales

Pruébalo gratis

Desarrollo más rápido y administración más sencilla

Cloud Dataflow es un servicio totalmente administrado para transformar y enriquecer datos tanto en modo de transmisión (tiempo real) como por lotes (histórico) con la misma fiabilidad y expresividad, y sin soluciones provisionales complejas ni riesgos. Además, al no necesitar servidor para el aprovisionamiento de recursos y administración, tienes una capacidad casi ilimitada para solucionar los mayores desafíos que el procesamiento de datos plantee al tiempo que solo pagarás por lo que utilices.

Cloud Dataflow desbloquea casos prácticos de transformación en distintos sectores, entre los que se incluyen los siguientes:

  • check Análisis del flujo de clics, punto de venta y segmentación en comercios
  • check Detección de fraudes en servicios financieros
  • check Experiencia de usuario personalizada en juegos
  • check Análisis del Internet de las cosas en fabricación, atención sanitaria y logística
faster-development-easier-management

Desarrollo rápido para lotes y streaming

Cloud Dataflow simplifica el desarrollo rápido de flujos de procesamiento por medio de las API expresivas de Java y Python del SDK de Apache Beam. Esto se traduce en un conjunto completo de primitivas de análisis de sesiones y ventanas, así como en un ecosistema de conectores de orígenes y sumideros. Además, el modelo de desarrollo único y unificado de Beam permite reutilizar más código en los flujos de procesamiento de streaming y lotes.

accelerate-development-with-no-compromises

Simplificación de operaciones y administración

Al no necesitar servidor en GCP puedes olvidarte de la sobrecarga operativa y centrarte en la programación. La administración del rendimiento, el escalado, la disponibilidad, la seguridad y el cumplimiento normativo de los clústeres de servidores se hace de forma automática. La integración con Stackdriver, la solución de registro y supervisión unificada de GCP, permite supervisar los flujos de procesamiento y solucionar sus problemas mientras están en ejecución. La visualización completa, los registros y las alertas avanzadas permiten identificar y actuar ante posibles problemas.

simplify-operations-and-management

Creación sobre una base para el aprendizaje automático

Utiliza Cloud Dataflow como un punto de integración cómodo para integrar el análisis predictivo a la detección de fraudes, la personalización en tiempo real y otros usos prácticos similares. Para ello, se incorporan modelos de aprendizaje automático en la nube y varias API a los flujos de procesamiento de datos.

build-on-a-foundation-for-machine-learning

Utiliza tus herramientas favoritas y conocidas

Cloud Dataflow se integra a la perfección con los servicios de GCP para la ingestión de eventos de streaming (Cloud Pub/Sub), el almacenamiento de datos (BigQuery) o el aprendizaje automático (Cloud Machine Learning), entre otros. Su SDK basado en Beam también permite que los desarrolladores generen extensiones personalizadas e incluso elegir sistemas de ejecución alternativos, como Apache Spark a través de Cloud Dataproc o en las instalaciones. Para los usuarios de Apache Kafka, los conectores de Cloud Dataflow facilitan la integración con GCP.

use-your-favorite-and-familiar-tools

Transformación de datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Gestión automática de recursos
Cloud Dataflow automatiza el aprovisionamiento y la gestión de los recursos de procesamiento para reducir al mínimo la latencia y utilizarlos al máximo. Se acabó tener que acelerar las instancias manualmente o reservarlas.
Restablecimiento del equilibrio de las tareas dinámicas
La partición automática y optimizada de tareas vuelve a equilibrar dinámicamente el trabajo pendiente. No es necesario buscar las “teclas de acceso rápido” ni procesar de antemano los datos de entrada.
Procesamiento exacto, uniforme y fiable
Cloud Dataflow es compatible con una ejecución tolerante a fallos que siempre es uniforme y correcta, sea cual sea el tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad del flujo de procesamiento.
Autoescalado horizontal
El autoescalado horizontal de los recursos de los trabajadores cumple los requisitos óptimos de rendimiento y resulta en una mejor relación precio-rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones igual de completas que MapReduce, un potente sistema de ventanas de datos y un control del grado de corrección detallado para datos de streaming y lotes.
Innovación motivada por la comunidad
Los desarrolladores que quieran ampliar el modelo de programación de Cloud Dataflow pueden bifurcar o enviar aportaciones a Apache Beam.

Cloud Dataflow o Cloud Dataproc: ¿cuál debería utilizar?

Cloud Dataproc y Cloud Dataflow se pueden utilizar para el procesamiento de datos, pero sus funciones de lotes y streaming se solapan. Por ello, ¿cómo puedes saber qué producto es el más adecuado para tu entorno?
Comparación entre Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es adecuado para entornos que dependen de componentes específicos del ecosistema de Big Data de Apache:

  • check Herramientas y paquetes
  • check Flujos de procesamiento
  • check Conjuntos de habilidades de recursos disponibles

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos de proyectos nuevos:

  • check Menos sobrecarga operativa
  • check Enfoque unificado del desarrollo de flujos de procesamiento por lotes o en streaming
  • check Uso de Apache Beam
  • check Portabilidad de flujos de procesamiento en Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de streaming (ETL) check
Procesamiento por lotes (ETL) check check
Procesamiento iterativo y blocs de notas check
Aprendizaje automático con Spark ML check
Preprocesamiento para aprendizaje automático check (con Cloud ML Engine)

Partners e integraciones

Varios de nuestros partners de Google Cloud Platform y desarrolladores externos han desarrollado integraciones con Dataflow para posibilitar tareas de procesamiento muy potentes y de cualquier tamaño de manera rápida y sencilla.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

“La ejecución de nuestros flujos de procesamiento en Cloud Dataflow nos permite dedicar nuestro tiempo a la programación y olvidarnos de las tareas de despliegue y mantenimiento de las instancias donde funciona nuestro código (sello distintivo general de GCP)”.

— Jibran Saithi Director de Arquitectura de Qubit

Precios asequibles

Las tareas de Cloud Dataflow se facturan por incrementos de segundos, según el uso real de los trabajadores de procesamiento por lotes o de streaming de Cloud Dataflow. Las tareas que consumen otros recursos de GCP, como Cloud Storage o Cloud Pub/Sub, se facturan por el precio de ese servicio.

Iowa (us‑central1) Los Ángeles (us‑west2) Oregón (us‑west1) Norte de Virginia (us‑east4) Carolina del Sur (us‑east1) Montreal (northamerica‑northeast1) São Paulo (southamerica‑east1) Bélgica (europe‑west1) Finlandia (europe‑north1) Fráncfort (europe‑west3) Londres (europe‑west2) Países Bajos (europe‑west4) Bombay (asia‑south1) Singapur (asia‑southeast1) Sídney (australia‑southeast1) Taiwán (asia‑east1) Tokio (asia‑northeast1)
Tipo de trabajador de Cloud Dataflow vCPU
$ por hora
Memoria
$ por GB y hora
Almacenamiento: disco persistente estándar
$ por GB y hora
Almacenamiento: disco persistente SSD
$ por GB y hora
Datos procesados34
$ por GB5
Por lotes1
En streaming2
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores en streaming: 4 vCPU, 15 GB de memoria y disco persistente de 420 GB.

3 En la actualidad, Cloud Dataflow Shuffle solo está disponible para los flujos de procesamiento por lotes de las regiones us‑central1 (Iowa) y europe‑west1 (Bélgica). Estará disponible en otras regiones más adelante.

4 Para Cloud Dataflow Streaming Engine se aplica el precio de los datos procesados en streaming. En la actualidad, Streaming Engine solo está disponible en versión beta para los flujos de procesamiento en streaming de las regiones us‑central1 (Iowa) y europe‑west1 (Bélgica). Estará disponible en otras regiones más adelante.

5 Consulta los precios de Cloud Dataflow para obtener más información sobre los datos procesados.

Enviar comentarios sobre...