Cloud Dataflow

Procesamiento simplificado de datos de transmisión y por lotes, con la misma confiabilidad y expresividad

Pruébalo gratis

Desarrollo más rápido y administración simplificada

Cloud Dataflow es un servicio totalmente administrado para transformar y enriquecer datos en los modos de transmisión (en tiempo real) y por lotes (histórico) con la misma confiabilidad y expresividad: ya no se requieren soluciones alternativas complejas ni compromisos. Gracias a su enfoque de aprovisionamiento y administración de recursos sin servidores, tienes acceso a una capacidad prácticamente ilimitada para solucionar tus mayores desafíos de procesamiento de datos, a la vez que pagas solo por lo que utilizas.

Cloud Dataflow ofrece casos prácticos transformadores para todos los sectores, incluidos:

  • check Análisis de flujo de clics, punto de venta y segmentación en el comercio minorista
  • check Detección de fraudes en servicios financieros
  • check Experiencia del usuario personalizada en los videojuegos
  • check Análisis de IoT en manufactura, salud y logística
faster-development-easier-management

Acelera el desarrollo para los modos de transmisión y por lotes

Cloud Dataflow permite un desarrollo rápido y simplificado de las canalizaciones a través de API expresivas de Java y Python en el SDK de Apache Beam, que ofrece un amplio conjunto de primitivas de análisis de sesiones y ventanas, así como un ecosistema de conectores fuente y receptores. Además, el modelo de desarrollo original y unificado de Beam te permite reutilizar más código en canalizaciones de transmisión y por lotes.

accelerate-development-with-no-compromises

Simplifica las operaciones y la administración

El enfoque sin servidores de GCP quita las sobrecargas operativas gracias a que el rendimiento, el escalamiento, la disponibilidad, la seguridad y el cumplimiento se controlan automáticamente, de manera que los usuarios pueden concentrarse en la programación en lugar de la administración de clústeres de servidores. La integración con Stackdriver, la solución de supervisión y registro unificado de GCP, te permite supervisar y solucionar problemas en tus canalizaciones mientras están activas. La alta visualización, el registro y las alertas avanzadas te ayudan a identificar posibles problemas y a solucionarlos.

simplify-operations-and-management

Crea una base para aprendizaje automático

Usa Cloud Dataflow como un punto de integración conveniente para realizar análisis predictivos destinados a la detección de fraudes, la personalización en tiempo real y los casos prácticos similares mediante la incorporación de los modelos y API de Cloud Machine Learning basados en TensorFlow en tus canalizaciones de procesamiento de datos.

build-on-a-foundation-for-machine-learning

Usa tus herramientas favoritas y conocidas

Cloud Dataflow se integra de forma continua a los servicios de GCP para transferencia de eventos de transmisión (Cloud Pub/Sub), almacenamiento de datos (BigQuery), aprendizaje automático (Cloud Machine Learning) y mucho más. Su SDK basado en Beam también permite a los desarrolladores crear extensiones personalizadas, además de elegir motores de ejecución alternativos, como Apache Spark, a través de Cloud Dataproc o en entornos locales. Para los usuarios de Apache Kafka, un conector de Cloud Dataflow realiza una fácil integración en GCP.

use-your-favorite-and-familiar-tools

Transformación de los datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Administración de recursos automatizada
Cloud Dataflow automatiza el aprovisionamiento y la administración de los recursos de procesamiento para minimizar la latencia y maximizar el uso. Ya no tienes que iniciar las instancias manualmente ni reservarlas.
Reequilibrio dinámico del trabajo
Una partición automatizada y optimizada de trabajos vuelve a equilibrar dinámicamente el trabajo atrasado. No es necesario buscar “teclas de acceso rápido” ni procesar previamente los datos de entrada.
Procesamiento confiable y coherente que se realiza exactamente una sola vez
Proporciona compatibilidad de manera predeterminada con la ejecución con tolerancia a errores, que es coherente y correcta independientemente del tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad de la canalización.
Ajuste de escala automático y horizontal
El ajuste de escala automático y horizontal de los recursos del trabajador para alcanzar un rendimiento óptimo tiene como resultado una mejor relación general entre precio y rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones avanzadas del tipo MapReduce, ventanas de datos potentes y un control de exactitud específico tanto para los datos de transmisión como para los de procesamiento por lotes.
Innovación impulsada por la comunidad
Los desarrolladores que deseen ampliar el modelo de programación de Cloud Dataflow pueden bifurcar o contribuir a Apache Beam.

Cloud Dataflow y Cloud Dataproc: ¿Cuál deberías usar?

Tanto Cloud Dataproc como Cloud Dataflow pueden usarse para el procesamiento de datos, y sus capacidades de procesamiento por lotes y transmisión se superponen. ¿Cómo decidir cuál producto se ajusta mejor a tu entorno?
Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es ideal para entornos que dependen de componentes específicos del ecosistema de macrodatos de Apache:

  • check Herramientas/paquetes
  • check Canalizaciones
  • check Conjunto de habilidades de los recursos existentes

Cloud Dataflow

Cloud Dataflow es, por lo general, la opción preferida para los entornos nuevos:

  • check Menos sobrecarga operativa
  • check Enfoque unificado para el desarrollo de canalizaciones por lotes o de transmisión
  • check Usa Apache Beam
  • check Admite la portabilidad de canalizaciones en Cloud Dataflow, Apache Spark y Apache Flink como tiempos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de transmisión (ETL) check
Procesamiento por lotes (ETL) check check
Procesamientos iterativos y cuadernos check
Aprendizaje automático con Spark ML check
Procesamiento previo para aprendizaje automático check (con Cloud ML Engine)

Integraciones y asociaciones

Los socios y desarrolladores externos de Google Cloud Platform desarrollaron integraciones con Dataflow para permitir la realización rápida y fácil de tareas de procesamiento de datos de alta exigencia, sin importar el tamaño.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Ejecutar nuestras canalizaciones en Cloud Dataflow nos permite enfocarnos en la programación sin tener que preocuparnos por implementar y mantener instancias que ejecuten nuestro código (un sello distintivo de GCP en general)”.

- Jibran Saithi arquitecto principal, Qubit

Precios asequibles para los usuarios

Los trabajos de Cloud Dataflow se facturan en incrementos por segundo, en función del uso real de los trabajadores de transmisión o por lotes de Cloud Dataflow. Los trabajos que consumen recursos adicionales de GCP (como Cloud Storage o Cloud Pub/Sub) se facturan, cada uno, según los precios de ese servicio.

Iowa Oregón Virginia del Norte Carolina del Sur Montreal São Paulo Bélgica Londres Países Bajos Fráncfort Bombay Singapur Sídney Taiwán Tokio
Tipo de trabajador de Cloud Dataflow CPU virtual
$/h
Memoria
$ GB/h
Almacenamiento - Disco persistente estándar
$ GB/h
Almacenamiento - Disco SSD persistente
$ GB/h
Datos procesados con Shuffle3
$ GB4
Por lotes 1
Transmisión 2
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en las SKU de Cloud Platform.

1 Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente

2 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria, 420 GB de disco persistente

3 Actualmente, la modalidad de Cloud Dataflow Shuffle basada en servicios está disponible en versión Beta para las canalizaciones por lotes solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones en el futuro.

4 Consulta Precios de Cloud Dataflow para obtener más información sobre los datos procesados con Shuffle.