Cloud Dataflow

Procesamiento simplificado de datos en modos de transmisión y por lotes, con la misma confiabilidad y expresividad

Pruébalo gratis

Desarrollo más rápido y administración simplificada

Cloud Dataflow es un servicio completamente administrado para transformar y enriquecer datos en los modos de transmisión (en tiempo real) y por lotes (histórico) con la misma confiabilidad y expresividad: ya no se requieren soluciones alternativas complejas ni compromisos. Gracias a su enfoque de aprovisionamiento y administración de recursos sin servidores, accedes a una capacidad prácticamente ilimitada para abordar tus mayores desafíos de procesamiento de datos, a la vez que pagas solo por lo que utilizas.

Cloud Dataflow ofrece casos prácticos transformadores para todos los sectores, entre los que se incluyen los siguientes:

  • Análisis de flujo de clics, puntos de venta y segmentación en el comercio minorista
  • Detección de fraudes en servicios financieros
  • Experiencia del usuario personalizada en los videojuegos
  • Análisis de IoT en manufactura, salud y logística
faster-development-easier-management

Acelera el desarrollo para los modos de transmisión y por lotes

Cloud Dataflow permite un desarrollo rápido y simplificado de canalizaciones mediante API expresivas de Java y Python en el SDK de Apache Beam, que ofrece un conjunto amplio de funciones básicas de análisis de sesiones y sistemas de ventanas, así como un ecosistema de conectores fuente y receptores. Además, el modelo de desarrollo original y unificado de Beam te permite reutilizar más código en canalizaciones de transmisión y por lotes.

accelerate-development-with-no-compromises

Simplifica las operaciones y la administración

El enfoque sin servidores de GCP elimina la sobrecarga operativa gracias a que el rendimiento, el escalamiento, la disponibilidad, la seguridad y el cumplimiento se controlan automáticamente, de manera que los usuarios pueden concentrarse en la programación en lugar de la administración de clústeres de servidores. La integración con Stackdriver, la solución de supervisión y registro unificado de GCP, te permite supervisar y solucionar problemas en tus canalizaciones mientras están activas. La visualización, el registro y las alertas avanzadas te ayudan a identificar posibles problemas y a solucionarlos.

simplify-operations-and-management

Crea una base para aprendizaje automático

Usa Cloud Dataflow como un punto de integración conveniente para sumar análisis predictivos a la detección de fraudes, la personalización en tiempo real y otros casos prácticos similares mediante la incorporación de modelos y API de Cloud Machine Learning basados en TensorFlow en tus canalizaciones de procesamiento de datos.

build-on-a-foundation-for-machine-learning

Usa tus herramientas favoritas y conocidas

Cloud Dataflow se integra de forma continua con los servicios de GCP para transferencia de eventos de transmisión (Cloud Pub/Sub), almacenamiento de datos (BigQuery), aprendizaje automático (Cloud Machine Learning) y mucho más. Su SDK basado en Beam también permite a los desarrolladores crear extensiones personalizadas, además de elegir motores de ejecución alternativos, como Apache Spark, a través de Cloud Dataproc o en entornos locales. Para los usuarios de Apache Kafka, la integración con GCP se smplifica mediante un conector de Cloud Dataflow.

use-your-favorite-and-familiar-tools

Transformación de datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Administración de recursos automatizada
Cloud Dataflow automatiza el aprovisionamiento y la administración de los recursos de procesamiento para minimizar la latencia y maximizar el uso. Ya no tienes que iniciar instancias manualmente ni reservarlas.
Rebalanceo dinámico del trabajo
La partición automatizada y optimizada de trabajos vuelve a balancear dinámicamente las tareas atrasadas. No es necesario buscar “teclas de acceso rápido” ni procesar previamente los datos de entrada.
Procesamiento confiable y coherente del tipo "exactamente una vez"
Proporciona compatibilidad de manera predeterminada con la ejecución con tolerancia a errores, que es coherente y correcta independientemente del tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad de la canalización.
Ajuste de escala automático y horizontal
El ajuste de escala automático y horizontal de los recursos del trabajador para alcanzar un rendimiento óptimo tiene como resultado una mejor relación general entre precio y rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones avanzadas del tipo MapReduce, ventanas de datos potentes y un control de exactitud específico tanto para los datos de transmisión como para los de procesamiento por lotes.
Innovación impulsada por la comunidad
Los desarrolladores que deseen ampliar el modelo de programación de Cloud Dataflow pueden sumar su aporte en Apache Beam.

Cloud Dataflow y Cloud Dataproc: ¿Cuál deberías usar?

Tanto Cloud Dataproc como Cloud Dataflow pueden usarse para el procesamiento de datos, y existe cierta superposición entre las capacidades de procesamiento de transmisión y por lotes. ¿Cómo decidir qué producto se ajusta mejor a tu entorno?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc es ideal para entornos que dependen de componentes específicos del ecosistema de macrodatos de Apache:

  •  Herramientas/paquetes
  •  Canalizaciones
  •  Conjuntos de habilidades asociados a recursos existentes

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos nuevos:

  •  Menor sobrecarga operativa
  •  Enfoque unificado para el desarrollo de canalizaciones por lotes o de transmisión
  •  Usa Apache Beam
  •  Compatibilidad con portabilidad de canalizaciones entre Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de transmisión (ETL)
Procesamiento por lotes (ETL)
Procesamiento iterativo y notebooks
Aprendizaje automático con Spark ML
Procesamiento previo para aprendizaje automático (con Cloud ML Engine)

Integraciones y asociaciones

Los socios y programadores externos de Google Cloud Platform desarrollaron integraciones con Dataflow para permitir la realización rápida y fácil de potentes tareas de procesamiento de datos de cualquier tamaño.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Ejecutar nuestras canalizaciones en Cloud Dataflow nos permite enfocarnos en la programación sin tener que preocuparnos por implementar y mantener instancias que ejecuten nuestro código (sello distintivo de GCP en general)”.

Jibran Saithi Arquitecto principal de Qubit

Precios accesibles

Los trabajos de Cloud Dataflow se facturan por segundo, en función del uso real de trabajadores de transmisión o por lotes de Cloud Dataflow. Los trabajos que consumen recursos adicionales de GCP (como Cloud Storage o Cloud Pub/Sub) se facturan, en cada caso, según los precios del servicio correspondiente.

Iowa (us-central1) Los Ángeles (us-west2) Oregón (us-west1) Virginia del Norte (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Finlandia (europe-north1) Fráncfort (europe-west3) Londres (europe-west2) Países Bajos (europe-west4) Zúrich (europe-west6) Bombay (asia-south1) Singapur (asia-southeast1) Sídney (australia-southeast1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1)
Tipo de trabajador de Cloud Dataflow CPU virtual
$/h
Memoria
$ GB/h
Almacenamiento - Disco persistente estándar
$ GB/h
Almacenamiento - Disco SSD persistente
$ GB/h
Datos procesados3,4
$ GB5
Por lotes1
Transmisión2
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

1 Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente

2 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria, 420 GB de disco persistente

3 Actualmente, Cloud Dataflow Shuffle está disponible para las canalizaciones por lotes solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones próximamente.

4 Cloud Dataflow Streaming Engine usa la unidad de precios de datos de transmisión procesados. Actualmente, Streaming Engine está disponible en versión Beta para las canalizaciones de transmisión solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones próximamente.

5 Consulta los precios de Cloud Dataflow para obtener más información sobre los datos procesados.

Enviar comentarios sobre…