Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver las tarifas de otros productos, consulta la lista de precios.

Información general sobre los precios

Aunque los precios se indican en horas, el uso del servicio Dataflow se cobra por incrementos de un segundo y por tarea. El uso se indica por horas (por ejemplo, 30 minutos serían 0,5 horas) y se aplica la tarifa por horas que correspondería al uso por segundo. Es posible que los trabajadores y las tareas consuman recursos, tal y como se describe en las siguientes secciones.

Trabajadores y recursos de trabajadores

En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Cada tipo de trabajador tiene un cargo por servicio distinto.

Los trabajadores de Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Dataflow no emitirá facturas de Compute Engine para los recursos de Compute Engine que administra el servicio Dataflow. En su lugar, los cargos por el servicio Dataflow incluyen el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que deseas asignar a una tarea. Los trabajadores y los recursos respectivos se añadirán y retirarán automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (tipo de máquina, tipo de disco y tamaño de disco) que se le asignan a cada trabajador.

Servicios de Dataflow

La operación Shuffle de Dataflow divide en particiones los datos y los agrupa por clave de manera escalable, eficiente y tolerante a fallos. De forma predeterminada, Dataflow utiliza una implementación de esta operación que se ejecuta por completo en las máquinas virtuales de los trabajadores y que utiliza la CPU, la memoria y el almacenamiento de disco persistente de dichos trabajadores.

Dataflow proporciona además gracias a Shuffle una función opcional y muy escalable que se puede utilizar exclusivamente en flujos de procesamiento por lotes y agrupa los datos por clave fuera de los trabajadores. Esta función se cobra según el volumen de datos que se procesan. Para indicar a Dataflow que use Shuffle, especifica el parámetro de flujo de procesamiento de Shuffle.

De forma parecida a lo que sucede con Shuffle, la función Streaming Engine de Dataflow traslada el procesamiento de estados y el análisis y la clasificación de datos de streaming fuera de las máquinas virtuales de trabajadores y los ubica en el backend del servicio Dataflow. Para indicar a Dataflow que debe usar Streaming Engine en tus flujos de procesamiento de streaming, especifica el parámetro de flujo de procesamiento de Streaming Engine. El uso de Streaming Engine se factura según el volumen de datos de streaming procesados, el cual depende del volumen de datos ingeridos en tu flujo de procesamiento en streaming y de la complejidad y el número de fases de dicho flujo. Aquí tienes algunos ejemplos de lo que cuenta como un byte procesado: flujos de entrada de fuentes de datos; flujos de datos de una fase del flujo de procesamiento fusionada a otra fase fusionada; flujos de datos conservados en el estado definido por el usuario o utilizados para las ventanas, y mensajes de salida a sumideros de datos, como Pub/Sub o BigQuery.

Dataflow también ofrece una opción con precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales e interrumpibles en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles. Cuando Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa fija inferior a los precios normales de Dataflow, al margen del tipo de trabajador que se utilice. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Otros recursos de tareas

Además de usar recursos de trabajadores, cada tarea puede consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Precios detallados

En futuras versiones, es posible que haya otros cargos por servicio en Dataflow o que se agrupen servicios relacionados.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página correspondiente de Compute Engine.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria y disco persistente de 420 GB.

4 Shuffle de Dataflow está disponible para los flujos de procesamiento por lotes en las siguientes regiones:

  • us-west1 (Oregón)
  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-east4 (Norte de Virginia)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (Londres)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • europe-west3 (Fráncfort)
  • asia-southeast1 (Singapur)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sídney)

Estará disponible en otras regiones más adelante.

Los precios de Shuffle de Dataflow se basan en los ajustes de volumen que se apliquen a la cantidad de datos procesados durante operaciones de lectura y escritura al reorganizar tu conjunto de datos. Para obtener más información, consulta los precios detallados de Shuffle de Dataflow.

5 En el caso de Streaming Engine de Dataflow, se aplica la unidad de precio de los datos de transmisión procesados. Streaming Engine está disponible en las siguientes regiones:

  • us-west1 (Oregón)
  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-east4 (Norte de Virginia)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (Londres)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • europe-west3 (Fráncfort)
  • asia-southeast1 (Singapur)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sídney)
Estará disponible en otras regiones más adelante.

Precios detallados de Shuffle de Dataflow

Los cargos de cada tarea de Dataflow se calculan en función de los ajustes de volumen que se apliquen a la cantidad total de datos procesados durante las operaciones Shuffle de Dataflow. La factura que recibirás por los datos procesados por Shuffle de Dataflow será equivalente al precio total de una cantidad de datos más pequeña que la cantidad que se procesa en una tarea de Dataflow. Esa diferencia hará que la métrica de datos facturables de Shuffle de Dataflow sea inferior a la métrica de datos totales de Shuffle de Dataflow.

En la tabla siguiente se explica cómo se aplican estos ajustes:

Datos procesados por una tarea Ajuste de facturación
Primeros 250 GB Reducción del 75 %
Siguientes 4870 GB Reducción del 50 %
Resto de datos a partir de 5120 GB (5 TB) Ninguno

Por ejemplo, si tu flujo de procesamiento genera un total de 1024 GB (1 TB) de datos procesados por Shuffle de Dataflow, la cantidad facturable se calcula de la siguiente manera: 250 GB * 25 % + 774 GB * 50 % = 449,5 GB * tarifa regional de procesamiento de datos de Shuffle de Dataflow. Si tu flujo de procesamiento genera un total de 10.240 GB (10 TB) de datos procesados por Shuffle de Dataflow, la cantidad de datos facturables es de 250 GB * 25 % + 4870 GB * 50 % + 5120 GB = 7617,5 GB.

Comprobación del uso

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en la consola de Google Cloud o a través de la herramienta de línea de comandos gcloud. En la interfaz de supervisión de Dataflow puedes monitorizar las métricas reales y facturables de datos procesados por Shuffle y de datos de streaming procesados. Con los datos reales procesados por Shuffle puedes evaluar el rendimiento de tu flujo de procesamiento, y mediante los datos facturables procesados por Shuffle puedes determinar los costes de la tarea de Dataflow. En el caso de los datos de streaming procesados, las métricas reales y las facturables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.