Cloud Dataflow

Procesamiento de datos por lotes y en streaming simplificado, con fiabilidad y expresividad por igual

Pruébalo gratis

Desarrollo más rápido y administración más sencilla

Cloud Dataflow es un servicio totalmente gestionado para transformar y enriquecer datos tanto en modo de streaming (tiempo real) como por lotes (histórico) con la misma fiabilidad y expresividad, y sin soluciones provisionales complejas ni riesgos. Además, al no necesitar servidor para el aprovisionamiento de recursos y administración, tienes una capacidad casi ilimitada para solucionar los mayores desafíos que el procesamiento de datos plantee, al tiempo que solo pagarás por lo que utilices.

Cloud Dataflow desbloquea casos prácticos de transformación en distintos sectores, entre los que se incluyen los siguientes:

  • Análisis del flujo de clics, puntos de venta y segmentación en comercios
  • Detección de fraudes en servicios financieros
  • Experiencia de usuario personalizada en juegos
  • Análisis del Internet de las cosas en fabricación, atención sanitaria y logística
faster-development-easier-management

Agiliza el procesamiento por lotes y en streaming

Cloud Dataflow simplifica el desarrollo rápido de flujos de procesamiento por medio de las API expresivas de SQL, Java y Python del SDK de Apache Beam. Esto se traduce en un conjunto completo de primitivas de análisis de sesiones y ventanas, así como en un ecosistema de conectores de orígenes y sumideros. Además, el modelo de desarrollo único y unificado de Beam permite reutilizar más código en los flujos de procesamiento de streaming y lotes.

Para solicitar que se te envíe una notificación cuando la versión alfa de Dataflow SQL esté disponible, rellena este formulario. Nos pondremos en contacto contigo para informarte de que puedes utilizarla.

accelerate-development-with-no-compromises

Simplifica las operaciones y la gestión

Al no necesitar servidor en GCP, puedes olvidarte de la sobrecarga operativa y centrarte en la programación. La administración del rendimiento, el escalado, la disponibilidad, la seguridad y el cumplimiento normativo de los clústeres de servidores se hace de forma automática. La integración con Stackdriver, la solución de registro y supervisión unificada de GCP, permite supervisar los flujos de procesamiento y solucionar sus problemas mientras están en ejecución. La visualización completa, los registros y las alertas avanzadas permiten identificar y actuar ante posibles problemas.

simplify-operations-and-management

Creación sobre una base para el aprendizaje automático

Utiliza Cloud Dataflow como un punto de integración cómodo para trasladar el análisis predictivo a la detección de fraudes, la personalización en tiempo real y otros usos prácticos similares. Para ello, se incorporan modelos de aprendizaje automático en la nube y varias API a los flujos de procesamiento de datos.

build-on-a-foundation-for-machine-learning

Utiliza tus herramientas favoritas y conocidas

Cloud Dataflow se integra a la perfección con los servicios de GCP para la ingestión de eventos de streaming (Cloud Pub/Sub), el almacenamiento de datos (BigQuery) o el aprendizaje automático (Cloud Machine Learning), entre otros. Su SDK basado en Beam también permite que los desarrolladores generen extensiones personalizadas e incluso elijan sistemas de ejecución alternativos, como Apache Spark a través de Cloud Dataproc o en las instalaciones. Para los usuarios de Apache Kafka, los conectores de Cloud Dataflow facilitan la integración con GCP.

use-your-favorite-and-familiar-tools

Transformación de datos con Cloud Dataflow

diagram-dataflow

CARACTERÍSTICAS DE CLOUD DATAFLOW

Gestión automática de recursos
Cloud Dataflow automatiza el aprovisionamiento y la gestión de los recursos de procesamiento para reducir al mínimo la latencia y utilizarlos al máximo. Se acabó tener que poner en marcha las instancias manualmente o reservarlas.
Restablecimiento del equilibrio de las tareas dinámicas
La partición automática y optimizada de tareas vuelve a equilibrar dinámicamente el trabajo pendiente. No es necesario buscar las “teclas de acceso rápido” ni procesar de antemano los datos de entrada.
Procesamiento exacto, uniforme y fiable
Cloud Dataflow es compatible con una ejecución tolerante a fallos que siempre es uniforme y correcta, sea cual sea el tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad del flujo de procesamiento.
Autoescalado horizontal
El autoescalado horizontal de los recursos de los trabajadores cumple los requisitos óptimos de rendimiento y resulta en una mejor relación precio-rendimiento.
Modelo de programación unificado
El SDK de Apache Beam ofrece operaciones igual de completas que MapReduce, un potente sistema de ventanas de datos y un control del grado de corrección detallado para datos de streaming y lotes.
Innovación motivada por la comunidad
Los desarrolladores que quieran ampliar el modelo de programación de Cloud Dataflow pueden bifurcar o enviar aportaciones a Apache Beam.
Flexibilidad en los precios de la programación de recursos del procesamiento por lotes
En los casos en los que se necesita flexibilidad en cuanto al momento para el que se programan las tareas (como es el caso de aquellas que se ejecutan durante la noche), el precio del procesamiento por lotes es inferior con la programación flexible de recursos. Las tareas flexibles se colocan en una cola con la garantía de que se retirarán y ejecutarán en un plazo de seis horas.

Cloud Dataflow o Cloud Dataproc: ¿cuál debería utilizar?

Cloud Dataproc y Cloud Dataflow se pueden utilizar para el procesamiento de datos, pero sus funciones de lotes y streaming se solapan. Por ello, ¿cómo puedes saber qué producto es el más adecuado para tu entorno?
Comparación entre Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es adecuado para entornos que dependen de componentes específicos del ecosistema de Big Data de Apache:

  • Herramientas y paquetes
  • Flujos de procesamiento
  • Conjuntos de habilidades de los recursos disponibles

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos de proyectos nuevos:

  • Menos sobrecarga operativa
  • Enfoque unificado del desarrollo de flujos de procesamiento por lotes o en streaming
  • Uso de Apache Beam
  • Portabilidad de flujos de procesamiento en Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de streaming (ETL)
Procesamiento por lotes (ETL)
Procesamiento iterativo y cuadernos
Aprendizaje automático con Spark ML
Preprocesamiento para aprendizaje automático (con Cloud ML Engine)

Partners e integraciones

Varios de nuestros partners de Google Cloud Platform y desarrolladores externos han desarrollado integraciones con Dataflow para posibilitar tareas de procesamiento muy potentes y de cualquier tamaño de manera rápida y sencilla.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

“La ejecución de nuestros flujos de procesamiento en Cloud Dataflow nos permite dedicar nuestro tiempo a la programación y olvidarnos de las tareas de despliegue y mantenimiento de las instancias donde funciona nuestro código (sello distintivo general de GCP)”.

- Jibran Saithi Director de Arquitectura de Qubit

Precios asequibles

Las tareas de Cloud Dataflow se facturan por incrementos de segundos, según el uso real de los trabajadores de procesamiento por lotes o de streaming de Cloud Dataflow. Las tareas que consumen otros recursos de GCP, como Cloud Storage o Cloud Pub/Sub, se facturan por el precio de ese servicio.

Iowa (us-central1) Los Ángeles (us-west2) Oregón (us-west1) Norte de Virginia (us-east4) Carolina del sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica(europe-west1) Finlandia (europe-north1) Fráncfort (europe-west3) Londres (europe-west2) Países Bajos (europe-west4) Zúrich (europe-west6) Bombay (asia-south1) Singapur (asia-southeast1) Sídney (australia-southeast1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1) Osaka (asia-northeast2)
Tipo de trabajador de Cloud Dataflow vCPU
$ por hora
Memoria
USD por GB y hora
Almacenamiento: Persistent Disk estándar
USD por GB y hora
Almacenamiento: Persistent Disk SSD
USD por GB y hora
Datos procesados3 y 4
USD por GB6
Por lotes1
FlexRS2
Streaming3
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y unidad de disco persistente de 250 GB

2 Valores predeterminados de los trabajadores FlexRS: 2 vCPU, 7,5 GB de memoria y unidad de disco persistente de 25 GB por trabajador, con un mínimo de dos trabajadores

3 Valores predeterminados de los trabajadores en streaming: 4 vCPU, 15 GB de memoria y unidad de disco persistente de 420 GB

4 Cloud Dataflow Shuffle está disponible para los flujos de procesamiento por lotes en las siguientes regiones:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-northeast1 (Tokio)

Estará disponible en otras regiones más adelante.

5 Para Cloud Dataflow Streaming Engine se aplica la unidad de precio indicada en la columna Datos procesados para la categoría En streaming. Streaming Engine está disponible en las siguientes regiones:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • asia-northeast1 (Tokio)
  • europe-west4 (Países Bajos)
Estará disponible en otras regiones más adelante.

6 Consulta los precios de Cloud Dataflow para obtener más información sobre los datos procesados.

Enviar comentarios sobre...