Cloud Dataflow

Procesamiento simplificado de datos de transmisión y por lotes, con la misma confiabilidad y expresividad

Pruébalo gratis

Desarrollo más rápido y administración simplificada

Cloud Dataflow es un servicio totalmente administrado para transformar y enriquecer datos en los modos de transmisión (en tiempo real) y por lotes (histórico) con la misma confiabilidad y expresividad: ya no se requieren soluciones alternativas complejas ni compromisos. Gracias a su enfoque de aprovisionamiento y administración de recursos sin servidores, tienes acceso a una capacidad prácticamente ilimitada para solucionar tus mayores desafíos de procesamiento de datos, a la vez que pagas solo por lo que utilizas.

Cloud Dataflow ofrece casos prácticos transformadores para todos los sectores, incluidos:

  • Análisis de flujo de clics, punto de venta y segmentación en el comercio minorista
  • Detección de fraudes en servicios financieros
  • Experiencia del usuario personalizada en los videojuegos
  • Análisis de IoT en manufactura, salud y logística
faster-development-easier-management

Acelera el desarrollo para los modos de transmisión y por lotes

Cloud Dataflow permite un desarrollo rápido y simplificado de las canalizaciones mediante API expresivas de Java y Python del SDK de Apache Beam, que ofrece un conjunto amplio de funciones elementales de análisis de sesiones y sistemas de ventanas, así como un ecosistema de conectores fuente y receptores. Además, el modelo de desarrollo original y unificado de Beam te permite reutilizar más código en canalizaciones de transmisión y por lotes.

accelerate-development-with-no-compromises

Simplifica las operaciones y la administración

El enfoque sin servidores de GCP quita las sobrecargas operativas gracias a que el rendimiento, el escalamiento, la disponibilidad, la seguridad y el cumplimiento se controlan automáticamente, de manera que los usuarios pueden concentrarse en la programación en lugar de la administración de clústeres de servidores. La integración con Stackdriver, la solución de supervisión y registro unificado de GCP, te permite supervisar y solucionar problemas en tus canalizaciones mientras están activas. La visualización, el registro y las alertas avanzadas te ayudan a identificar posibles problemas y a solucionarlos.

simplify-operations-and-management

Crea una base para aprendizaje automático

Usa Cloud Dataflow como un punto de integración conveniente para realizar análisis predictivos destinados a la detección de fraudes, la personalización en tiempo real y los casos prácticos similares mediante la incorporación de los modelos y API de Cloud Machine Learning basados en TensorFlow en tus canalizaciones de procesamiento de datos.

build-on-a-foundation-for-machine-learning

Usa tus herramientas favoritas y conocidas

Cloud Dataflow se integra de forma continua a los servicios de GCP para transferencia de eventos de transmisión (Cloud Pub/Sub), almacenamiento de datos (BigQuery), aprendizaje automático (Cloud Machine Learning) y mucho más. Su SDK basado en Beam también permite a los desarrolladores crear extensiones personalizadas, además de elegir motores de ejecución alternativos, como Apache Spark, a través de Cloud Dataproc o en entornos locales. Para los usuarios de Apache Kafka, un conector de Cloud Dataflow realiza una integración fácil en GCP.

use-your-favorite-and-familiar-tools

Transformación de los datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Administración de recursos automatizada
Cloud Dataflow automatiza el aprovisionamiento y la administración de los recursos de procesamiento para minimizar la latencia y maximizar el uso. Ya no tienes que iniciar las instancias manualmente ni reservarlas.
Reequilibrio dinámico del trabajo
Una partición automatizada y optimizada de trabajos vuelve a equilibrar dinámicamente el trabajo atrasado. No es necesario buscar “teclas de acceso rápido” ni procesar previamente los datos de entrada.
Procesamiento confiable y coherente que se realiza exactamente una sola vez
Proporciona compatibilidad de manera predeterminada con la ejecución con tolerancia a errores, que es coherente y correcta independientemente del tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad de la canalización.
Ajuste de escala automático y horizontal
El ajuste de escala automático y horizontal de los recursos del trabajador para alcanzar un rendimiento óptimo tiene como resultado una mejor relación general entre precio y rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones avanzadas del tipo MapReduce, ventanas de datos potentes y un control de exactitud específico tanto para los datos de transmisión como para los de procesamiento por lotes.
Innovación impulsada por la comunidad
Los desarrolladores que deseen ampliar el modelo de programación de Cloud Dataflow pueden bifurcar o contribuir a Apache Beam.

Cloud Dataflow y Cloud Dataproc: ¿Cuál deberías usar?

Tanto Cloud Dataproc como Cloud Dataflow pueden usarse para el procesamiento de datos, y sus capacidades de procesamiento de transmisión o por lotes están superpuestas. ¿Cómo decidir cuál producto se ajusta mejor a tu entorno?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc es ideal para entornos que dependen de componentes específicos del ecosistema de macrodatos de Apache:

  •  Herramientas/paquetes
  •  Canalizaciones
  •  Conjuntos de habilidades de los recursos existentes

Cloud Dataflow

Cloud Dataflow es, por lo general, la opción preferida para los entornos nuevos:

  •  Menos sobrecarga operativa
  •  Enfoque unificado para el desarrollo de canalizaciones por lotes o de transmisión
  •  Uso de Apache Beam
  •  Compatibilidad con la portabilidad de canalizaciones entre Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de transmisión (ETL)
Procesamiento por lotes (ETL)
Procesamientos iterativos y notebooks
Aprendizaje automático con Spark ML
Procesamiento previo para aprendizaje automático (con Cloud ML Engine)

Integraciones y asociaciones

Los socios y programadores externos de Google Cloud Platform desarrollaron integraciones con Dataflow para permitir la realización rápida y fácil de tareas de procesamiento de datos de alta exigencia, sin importar el tamaño.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Ejecutar nuestras canalizaciones en Cloud Dataflow nos permite enfocarnos en la programación sin tener que preocuparnos por implementar y mantener instancias que ejecuten nuestro código (un sello distintivo de GCP en general)”.

Jibran Saithi Arquitecto principal de Qubit

Precios asequibles para los clientes

Los trabajos de Cloud Dataflow se facturan en incrementos por segundo, en función del uso real de los trabajadores de transmisión o por lotes de Cloud Dataflow. Los trabajos que consumen recursos adicionales de GCP (como Cloud Storage o Cloud Pub/Sub) se facturan, cada uno, según los precios de ese servicio.

Iowa (us-central1) Los Ángeles (us-west2) Oregón (us-west1) Virginia del Norte (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Finlandia (europe-north1) Fráncfort (europe-west3) Londres (europe-west2) Países Bajos (europe-west4) Bombay (asia-south1) Singapur (asia-southeast1) Sídney (australia-southeast1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1)
Tipo de trabajador de Cloud Dataflow CPU virtual
$/h
Memoria
$ GB/h
Almacenamiento - Disco persistente estándar
$ GB/h
Almacenamiento - Disco SSD persistente
$ GB/h
Datos procesados3,4
$ GB5
Por lotes1
Transmisión2
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

1 Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente

2 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria, 420 GB de disco persistente

3 Actualmente, Cloud Dataflow Shuffle está disponible para las canalizaciones por lotes solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones en el futuro.

4 Cloud Dataflow Streaming Engine usa la unidad de precios de datos de transmisión procesados. Actualmente, Streaming Engine está disponible en versión Beta para las canalizaciones de transmisión solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones en el futuro.

5 Consulta los precios de Cloud Dataflow para obtener más información sobre los datos procesados.

Enviar comentarios sobre…