Precios de Cloud Dataflow

En esta página se describen los precios de Dataflow. Para ver los de otros productos, lee la documentación de precios.

Información general sobre los precios

Aunque los precios se indican en horas, el uso del servicio Dataflow se cobra por incrementos de un segundo y por tarea. El uso se indica por horas (por ejemplo, 30 minutos serían 0,5 horas) y se aplica la tarifa por horas que correspondería al uso por segundo. Es posible que los trabajadores y las tareas consuman recursos, tal y como se describe en las siguientes secciones.

Trabajadores y recursos de trabajadores

En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Cada tipo de trabajador tiene un cargo por servicio distinto.

Los trabajadores de Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Dataflow no emitirá facturas de Compute Engine para los recursos de Compute Engine que administra el servicio Dataflow. En su lugar, los cargos por el servicio Dataflow incluyen el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que deseas asignar a una tarea. Los trabajadores y los recursos respectivos se añadirán y retirarán automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (tipo de máquina, tipo de disco y tamaño de disco) que se le asignan a cada trabajador.

Servicios de Cloud Dataflow

La operación Shuffle de Dataflow particiona y agrupa los datos por clave de manera escalable, eficiente y tolerante a fallos. De forma predeterminada, Dataflow utiliza una implementación de esta operación que se ejecuta por completo en las máquinas virtuales de los trabajadores y que utiliza la CPU, la memoria y el almacenamiento de disco persistente de dichos trabajadores.

Además, Dataflow proporciona una función opcional muy escalable, Shuffle, que solo se puede utilizar en flujos de procesamiento por lotes y agrupa los datos por clave fuera de los trabajadores. Esta función se cobra según el volumen de datos que se procesan. Para indicar a Dataflow que use Shuffle, especifica el parámetro de flujo de procesamiento de Shuffle.

De forma parecida a lo que sucede con Shuffle, la función Streaming Engine de Dataflow traslada el procesamiento de estados y el análisis y la clasificación de datos de streaming fuera de las máquinas virtuales de trabajadores y lo ubica en el backend del servicio Dataflow. Para indicar a Dataflow que debe usar Streaming Engine en tus flujos de procesamiento de streaming, especifica el parámetro de flujo de procesamiento de Streaming Engine. El uso de Streaming Engine se factura según el volumen de datos procesados en streaming, el cual depende del volumen de datos ingeridos en tu flujo de procesamiento en streaming y de la complejidad y el número de fases de dicho flujo. Aquí tienes algunos ejemplos de lo que cuenta como un byte procesado: flujos de entrada de fuentes de datos; flujos de datos de una fase del flujo de procesamiento fusionada a otra fase fusionada; flujos de datos conservados en el estado definido por el usuario o utilizados para las ventanas, y transmitir mensajes a sumideros de datos, como Pub/Sub o BigQuery.

Dataflow también ofrece una opción con precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales y no garantizadas en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles. Cuando Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa fija inferior a los precios normales de Dataflow, al margen del tipo de trabajador que se utilice. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Otros recursos de tareas

Además de usar recursos de trabajadores, cada tarea puede consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Precios detallados

En futuras versiones, es posible que haya otros cargos por servicio en Dataflow o que se agrupen servicios relacionados.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página correspondiente de Compute Engine.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria y disco persistente de 420 GB.

4 Shuffle de Dataflow está disponible para los flujos de procesamiento por lotes en las siguientes regiones:

  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-west1 (Oregón)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)

Estará disponible en otras regiones más adelante.

5 Para Streaming Engine de Cloud Dataflow, se aplica la unidad de precio de los datos procesados en streaming. Streaming Engine está disponible en las siguientes regiones:

  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-west1 (Oregón)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)
Estará disponible en otras regiones más adelante.

6 Antes del 3 de mayo del 2018, Shuffle de Dataflow se facturaba según la cantidad de datos procesados en dicha operación multiplicada por el tiempo que se tardaba en llevarla a cabo y en conservar los datos en la memoria de Shuffle. El precio era de 0,0216 USD por GB y hora. Desde el 3 de mayo del 2018, el precio de Shuffle se fija exclusivamente según la cantidad de datos que lee y escribe la infraestructura del servicio Dataflow durante dicha operación. La unidad de precio son los gigabytes y no se tiene en cuenta la dependencia de tiempo en la facturación. Es probable que los costes totales de Shuffle de los usuarios con conjuntos de datos grandes o muy grandes se reduzcan significativamente.
Para fomentar aún más la adopción de la operación Shuffle basada en servicios, se aplica un descuento del 50 % a las tarifas de los primeros 5 TB de datos procesados por esta función. Por ejemplo, si tu flujo de procesamiento genera 1 TB de datos reales procesados por Shuffle, solo se te cobra el 50 % de ese volumen de datos (0,5 TB). Si tu flujo de procesamiento genera 10 TB de datos reales procesados por Shuffle, solo se te cobran 7,5 TB porque se aplica una reducción del 50 % en la tarifa de los primeros 5 TB del volumen.

Comprobación del uso

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en la consola de Google Cloud o a través de la herramienta de línea de comandos gcloud. En la interfaz de supervisión de Dataflow puedes monitorizar las métricas reales y facturables de datos procesados por Shuffle y de datos de transmisión procesados. Con los datos reales procesados por Shuffle puedes evaluar el rendimiento de tu flujo de procesamiento, y mediante los datos facturables procesados por Shuffle puedes determinar los costes de la tarea de Dataflow. En el caso de los datos de transmisión procesados, las métricas reales y las facturables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.