Precios de Cloud Dataflow

En esta página se describen los precios de Cloud Dataflow. Para ver los de otros productos, lee la documentación de precios.

Resumen de precios

Aunque las tarifas de los precios están basadas en horas, el uso del servicio Cloud Dataflow se cobra por incrementos de un segundo y por tarea. El uso se determina en horas (por ejemplo, 30 minutos son 0,5 horas) para poder aplicar los precios por hora al uso por segundo. Es posible que los trabajadores y las tareas consuman recursos, tal y como se describe en las siguientes secciones.

Trabajadores y recursos de trabajadores

En cada tarea de Cloud Dataflow se utiliza como mínimo un trabajador de Cloud Dataflow. El servicio Cloud Dataflow ofrece dos tipos de trabajadores: por lotes y en streaming. Cada tipo de trabajador tiene un cargo por servicio distinto.

Los trabajadores de Cloud Dataflow consumirán los siguientes recursos, que se facturan por segundo.

Los trabajadores por lotes y en streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Cloud Dataflow no emitirá facturas de Compute Engine para los recursos de Compute Engine que administra el servicio Cloud Dataflow. En cambio, los cargos por el servicio Cloud Dataflow incluirán el uso de estos recursos de Compute Engine.

Puedes anular el recuento de trabajadores predeterminado de una tarea. Si estás utilizando el autoescalado, puedes especificar la cantidad máxima de trabajadores que se va a asignar a una tarea. Los trabajadores y los recursos respectivos se añadirán y retirarán automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (tipo de máquina, tipo de disco y tamaño de disco) que se le asigna a cada trabajador.

Servicios de Cloud Dataflow

La operación Cloud Dataflow Shuffle particiona y agrupa los datos por clave de manera escalable, eficiente y tolerante a fallos. De forma predeterminada, Cloud Dataflow utiliza una implementación de agrupamiento de datos por clave que se ejecuta por completo en las máquinas virtuales de los trabajadores y que consume la CPU, la memoria y el almacenamiento del disco persistente de dichos trabajadores.

Además, Cloud Dataflow proporciona una función opcional altamente escalable, Shuffle, que solo se puede utilizar en flujos de procesamiento por lotes y agrupa los datos por clave de manera ajena a los trabajadores. La función Shuffle se cobra según el volumen de datos que se procesan. Para indicar a Cloud Dataflow que debe usar Shuffle, especifica el parámetro de flujo de procesamiento Shuffle.

La función Cloud Dataflow Streaming Engine, similar a Shuffle, traslada el procesamiento de estados y el agrupamiento de datos por clave en streaming fuera de las máquinas virtuales de trabajadores y las ubica en el backend del servicio Cloud Dataflow. Para indicar a Cloud Dataflow que debe usar Streaming Engine en tus flujos de procesamiento en streaming, especifica el parámetro de flujo de procesamiento Streaming Engine. La función Streaming Engine se factura según el volumen de datos procesados en streaming, el cual depende del volumen de datos ingeridos en tu flujo de procesamiento en streaming y de la complejidad y el número de fases de dicho flujo. Aquí tienes algunos ejemplos de lo que cuenta como un byte procesado: flujos de entrada de fuentes de datos; flujos de datos de una fase del flujo de procesamiento fusionada a otra fase fusionada; flujos de datos conservados en el estado definido por el usuario o utilizados para las ventanas, y mensajes de salida a sumideros de datos, como Cloud Pub/Sub o BigQuery.

Otros recursos de tareas

Además del uso de los recursos de los trabajadores, una tarea puede consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Precios detallados

En futuras versiones, es posible que haya otros cargos por servicio en Cloud Dataflow o que se agrupen los servicios relacionados.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página correspondiente de Compute Engine.

Iowa (us-central1) Los Ángeles (us-west2) Oregón (us-west1) Norte de Virginia (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Finlandia (europe-north1) Fráncfort (europe-west3) Londres (europe-west2) Países Bajos (europe-west4) Zúrich (europe-west6) Bombay (asia-south1) Singapur (asia-southeast1) Sídney (australia-southeast1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1)
Tipo de trabajador de Cloud Dataflow vCPU
(por hora)
Memoria
(por GB y hora)
Almacenamiento: disco persistente estándar
(por GB y hora)
Almacenamiento: disco persistente SSD
(por GB y hora)
Datos procesados3, 4
(por GB)5
Por lotes1
En streaming2

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores en streaming: 4 vCPU, 15 GB de memoria y disco persistente de 420 GB.

3 Cloud Dataflow Shuffle solo se puede usar en los flujos de procesamiento por lotes de las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones más adelante.

4 Para Cloud Dataflow Streaming Engine se aplica el precio de los datos procesados en streaming. En la actualidad, Streaming Engine solo está disponible en versión beta para los flujos de procesamiento en streaming de las regiones us‑central1 (Iowa) y europe‑west1 (Bélgica). Estará disponible en otras regiones más adelante.

5 Antes del 3 de mayo del 2018, Cloud Dataflow Shuffle se facturaba de acuerdo con la cantidad de datos agrupados por clave multiplicada por el tiempo que se tardaba en realizar dicha operación y en guardarlos en la memoria de Shuffle. El precio era de 0,0216 USD por GB a la hora. A partir del 3 de mayo del 2018, el precio de Shuffle se fija exclusivamente según la cantidad de datos que lee y escribe nuestra infraestructura de servicio durante el proceso de agrupar tu conjunto de datos por clave. La unidad de precio son los gigabytes y no se tiene en cuenta la dependencia de tiempo en la facturación. Es probable que los costes totales de Shuffle de los usuarios con conjuntos de datos grandes o muy grandes se reduzcan significativamente.
Para fomentar aún más la adopción de la versión de Shuffle basada en servicios, se aplica un descuento del 50 % a las tarifas de los primeros 5 TB de datos procesados por esta función. Por ejemplo, si tu flujo de procesamiento genera 1 TB de datos reales procesados por Shuffle, solo se te cobra el 50 % de ese volumen de datos (0,5 TB). Si tu flujo de procesamiento genera 10 TB de datos reales procesados por Shuffle, solo se te cobran 7,5 TB porque se aplica una reducción del 50 % en la tarifa de los primeros 5 TB del volumen.

Comprobación del uso

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en la consola de Google Cloud Platform o a través de la herramienta de línea de comandos gcloud. En la interfaz de monitorización de Cloud Dataflow puedes realizar un seguimiento de las métricas reales y facturables de datos procesados por Shuffle y de datos procesados en streaming. Con los datos reales procesados por Shuffle puedes evaluar el rendimiento de tu flujo de procesamiento y mediante los datos facturables procesados por Shuffle puedes determinar los costes de la tarea de Cloud Dataflow. En el caso de los datos procesados en streaming, las métricas reales y las facturables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud Platform para entender cómo se calcula tu factura.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.