Cloud Dataflow

Un servicio de procesamiento de datos completamente administrado, que permite ejecutar canalizaciones de transmisión y de lote

Pruébalo gratis

Administrado y unificado

Dataflow es un modelo de programación unificado y un servicio administrado para el desarrollo y la ejecución de una amplia variedad de patrones de procesamiento de datos, como ETL, cálculos por lote y cálculos continuos. Cloud Dataflow te libera de tareas operativas como la administración de recursos y la optimización del rendimiento.

Completamente administrado

El servicio administrado gestiona con transparencia el ciclo de vida de los recursos y puede aprovisionarlos dinámicamente para minimizar la latencia, al mismo tiempo que mantiene una alta eficiencia de uso. Los recursos de Dataflow se asignan en función de la demanda y te brindan una capacidad casi ilimitada para resolver los desafíos que se te presenten en el procesamiento de macrodatos.

Modelo de programación unificado

Los SDK de Apache Beam proporcionan primitivas de programación, como ventanas potentes y controles de exactitud que se pueden aplicar a fuentes de datos por lotes o transmisiones. El modelo Apache Beam elimina con eficacia los costos del cambio de modelo de programación del procesamiento por lotes a de transmisiones continuas, lo que les permite a los programadores expresar los requisitos de cálculo sin importar la fuente de datos.

Integrado y de código abierto

Dataflow se basa en servicios como Google Compute Engine y es un entorno de cálculo con un funcionamiento familiar, que se integra sin problema con Cloud Storage, Pub/Sub de Cloud, Cloud Datastore, Cloud Bigtable y BigQuery. Los SDK de Apache Beam están disponibles en Java y Python, y les permiten a los programadores implementar extensiones personalizadas y seleccionar motores de ejecución alternativos.

Integraciones y asociaciones

Los socios y programadores externos de Google Cloud Platform desarrollaron integraciones con Dataflow para permitir la realización rápida y fácil de tareas de procesamiento de datos de alta exigencia, sin importar el tamaño. Las integraciones se realizan con API abiertas proporcionadas por Dataflow.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

Características de Dataflow

Una ejecución confiable para el procesamiento de datos a gran escala

Administración de recursos
Cloud Dataflow automatiza completamente la administración de los recursos de procesamiento necesarios. Ya no tienes que iniciar las instancias manualmente.
En función de la demanda
Todos los recursos se proporcionan en función de la demanda, lo que te permite ajustar la escala para satisfacer las necesidades del negocio. No es necesario comprar instancias de computación reservadas.
Programación de trabajos inteligente
Una partición automatizada y optimizada de trabajos que puede volver a balancear dinámicamente el trabajo atrasado. Ya no es necesario buscar “teclas de acceso rápido” ni procesar previamente los datos de entrada.
Ajuste de escala automático
El ajuste de escala automático y horizontal de los recursos del trabajador, con el fin de reunir los requisitos de rendimiento óptimo, tiene como resultado una mejor relación general entre precio y desempeño.
Modelo de programación unificado
La API de Dataflow te permite expresar operaciones como MapReduce, ventanas de datos potentes y un control de exactitud específico, sin importar la fuente de datos.
Código abierto
Los programadores que deseen ampliar el modelo de programación de Dataflow pueden bifurcar o enviar solicitudes de extracción en los SDK de Apache Beam. Las canalizaciones de Dataflow también se pueden ejecutar en tiempos de ejecución alternativos como Spark y Flink.
Supervisión
Como está integrado en la consola de Google Cloud Platform, Cloud Dataflow ofrece estadísticas sobre el rendimiento y el atraso de las canalizaciones, así como la inspección consolidada de los registros de trabajadores; prácticamente en tiempo real.
Integración
Se integra con Cloud Storage, Pub/Sub de Cloud, Cloud Datastore, Cloud Bigtable y BigQuery con el fin de procesar datos sin inconvenientes. Y se puede ampliar para que interactúe con otras fuentes y receptores, como Apache Kafka y HDFS.
Procesamiento confiable y coherente
De manera predeterminada, Cloud Dataflow es compatible con la ejecución con tolerancia a errores, coherente y correcta, independientemente del tamaño de los datos, el tamaño del clúster, el patrón de procesamiento o la complejidad de la canalización.

“La transmisión de Google Cloud Dataflow se adapta perfectamente a los requisitos de la plataforma de análisis de series temporales de Wix.com, en particular, con su escalabilidad, procesamiento de datos con baja latencia y computación con tolerancia a errores. La gran variedad de transformaciones de recopilaciones de datos y las operaciones de agrupación permiten la implementación de algoritmos complejos de procesamiento de transmisión de datos”.

- Gregory Bondar Doctor y director sénior de la plataforma de servicios de datos, Wix.com

Resumen de precios de Dataflow

Los trabajos de Cloud Dataflow se facturan por minuto, en función del uso de al menos un lote de Cloud Dataflow o trabajadores de transmisión. Un trabajo de Dataflow podría consumir recursos de GCP adicionales (como Cloud Storage, Pubsub de Cloud, etc.), cada uno de estos se factura de acuerdo con los precios pertinentes. Para obtener información detallada sobre los precios, consulta la guía de precios.

Iowa Oregón Carolina del Sur Bélgica Taiwán Tokio
Tipo de trabajador de Dataflow CPU virtual
$/h
Memoria
$ GB/h
Almacenamiento local - Disco persistente
$ GB/h
Almacenamiento local - Basado en SSD
$ GB/h
Lote 1
Transmisión 2

1 Propiedades predeterminadas de los trabajadores de lote: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente.

2 Propiedades predeterminadas de los trabajadores de transmisiones: 4 CPU virtuales, 15 GB de memoria, 420 GB de disco persistente.

Apache®, Apache Beam y el logotipo con la letra B naranja son marcas comerciales registradas o marcas comerciales de Apache Software Foundation en Estados Unidos y otros países.

Supervisa tus recursos estés donde estés

Obtén la app de Google Cloud Console para ayudarte a administrar tus proyectos.