Cloud Dataflow

Servicio de procesamiento de datos totalmente administrado capaz de ejecutar canalizaciones, tanto continuas como por lotes

Pruébalo gratis

Administrado y unificado

Dataflow es un modelo de programación unificado y un servicio administrado para desarrollar y ejecutar una gran variedad de patrones de procesamiento de datos, como el ETL y las operaciones informáticas, tanto por lotes como continuas. Con Cloud Dataflow, no tienes que realizar tareas operativas como administrar recursos y optimizar el rendimiento.

Totalmente administrado

El servicio administrado gestiona de forma transparente la duración de los recursos y provisiona recursos dinámicamente para minimizar la latencia, a la vez que mantiene una alta eficiencia. Los recursos de Dataflow se asignan según demanda, proporcionando una capacidad casi ilimitada de recursos para resolver los retos inherentes al procesamiento de Big Data.

Modelo de programación unificado

Los SDK de Apache Beam suministran primitivas de programación, como los controles de ventanas y de corrección, que se pueden aplicar a las fuentes de datos, tanto continuas como por lotes. El modelo de Apache Beam elimina el coste que conlleva el cambiar el modelo de programación entre el procesamiento por lotes y el de transmisión continua, ya que permite que los desarrolladores expresen requisitos informáticos, sea cual sea la fuente de datos.

Integrado y de código abierto

Basado en servicios como Google Compute Engine, Dataflow es un entorno informático con un funcionamiento conocido que se integra a la perfección con Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable y BigQuery. Los SDK de Apache Beam, disponibles en Java y Python, permiten que los desarrolladores desplieguen extensiones personalizadas y elijan motores de ejecución alternativos.

Partners e integraciones

Varios de nuestros partners de Google Cloud Platform y desarrolladores externos han desarrollado integraciones con Dataflow para posibilitar tareas de procesamiento muy potentes y de cualquier tamaño de manera rápida y sencilla. Las integraciones se realizan con las API abiertas que proporciona Dataflow.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

Características de Dataflow

Ejecución fiable para procesar datos a gran escala

Administración de recursos
Cloud Dataflow automatiza por completo la administración de los recursos de procesamiento necesarios. Se acabó poner en marcha las instancias manualmente.
Según demanda
Todos los recursos se ofrecen según demanda, lo que te permite escalar para satisfacer las necesidades de tu empresa. No hace falta comprar instancias informáticas reservadas.
Programación inteligente de tareas
La partición automática y optimizada de tareas es capaz de volver a equilibrar dinámicamente el trabajo pendiente. Se acabó tener que buscar las teclas de acceso rápido o procesar de antemano los datos de entrada.
Escalabilidad automática
La escalabilidad automática horizontal de los recursos de los trabajadores cumple los requisitos óptimos de rendimiento y resulta en una mejor relación precio-rendimiento.
Modelo de programación unificado
La API de Dataflow te permite expresar MapReduce, como operaciones, un potente sistema de ventanas de datos y un control del grado de corrección detallado, sea cual sea la fuente de datos.
Código abierto
Los desarrolladores que quieran ampliar el modelo de programación de Dataflow pueden bifurcar o enviar solicitudes de extracción en los SDK de Apache Beam. Las canalizaciones de Dataflow se pueden ejecutar también en tiempos alternativos como Spark y Flink.
Supervisión
Cloud Dataflow se encuentra integrado en la consola de Google Cloud Platform para ofrecer estadísticas como el rendimiento y el retraso de las canalizaciones, así como para proporcionar una inspección unificada del registro de trabajadores. Y todo, casi en tiempo real.
Integrado
Se integra con Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable y BigQuery para que los datos se procesen con total fluidez. También se puede ampliar para que interactúe con otras fuentes y destinos de datos, como Apache Kafka y HDFS.
Procesamiento uniforme y fiable
Cloud Dataflow es compatible con una ejecución tolerante a fallos que siempre es uniforme y correcta, sea cual sea el tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad de la canalización.

"La transmisión de Google Cloud Dataflow se ajusta perfectamente a los requisitos de la plataforma de análisis de serie temporal de Wix.com, en concreto, su escalabilidad, su procesamiento de datos de baja latencia y su ejecución tolerante a fallos. La amplia gama de transformaciones de recogida de datos y de operaciones de agrupación de datos permite implementar algoritmos de procesamiento de datos de transmisiones complejas".

- Gregory Bondar Doctor y director sénior de la Plataforma de Servicios de Datos en Wix.com

Resumen de los precios de Dataflow

Las tareas de Cloud Dataflow se facturan por minuto, según el uso de al menos un procesamiento por lotes o de transmisión continua. Es posible que una tarea de Dataflow consuma recursos adicionales de GCP (Cloud Storage, Cloud Pub/Sub u otros). En tal caso, se facturan según su precio individual. Consulta la guía de precios para obtener información más detallada.

Iowa Oregón Carolina del Sur Bélgica Taiwán Tokio
Tipo de trabajador de Dataflow vCPU
$ por hora
Memoria
$ por GB y hora
Almacenamiento local: disco persistente
$ por GB y hora
Almacenamiento local: basado en SSD
$ por GB y hora
Por lotes1
De transmisión continua2

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria, 250 GB de disco persistente.

2 Valores predeterminados de los trabajadores de transmisión continua: 4 vCPU, 15 GB de memoria, 420 GB de disco persistente.

Apache®, Apache Beam y el logotipo de la letra B naranja son marcas registradas o marcas de Apache Software Foundation en Estados Unidos o en otros países.

Supervisa tus recursos estés donde estés

Descarga la aplicación Google Cloud Console para administrar tus proyectos.