Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver los precios de otros productos, consulta la documentación sobre precios.

Descripción general de los precios

Si bien la tarifa se expresa en horas, el uso del servicio de Dataflow se factura en incrementos por segundo por trabajo. El uso se expresa en horas (por ejemplo, 30 minutos corresponden a 0.5 horas) para aplicar los precios por hora al uso por segundos. Los trabajadores y los trabajos pueden consumir recursos, según se describe en las siguientes secciones.

Los trabajadores y sus recursos

Cada trabajo de Dataflow usa al menos un trabajador de Dataflow. Este servicio ofrece dos tipos de trabajadores: lotes y transmisión. Se cobran cargos diferentes por el servicio de los trabajadores de cada tipo.

Los trabajadores de Dataflow consumen los siguientes recursos, que se facturan por segundo.

Los trabajadores en transmisión y por lotes son recursos especializados que usan Compute Engine. Sin embargo, un trabajo de Dataflow no emite facturación de Compute Engine para los recursos de Compute Engine que administra el servicio de Dataflow. En cambio, los cargos por el servicio de Dataflow abarcan el uso de estos recursos de Compute Engine.

Puedes anular el recuento de trabajadores predeterminado para un trabajo. Si usas el ajuste de escala automático, puedes especificar la cantidad máxima de trabajadores que se asignan a un trabajo. Los trabajadores y sus recursos se agregan y quitan de forma automática según la activación del ajuste de escala automático.

Además, puedes usar las opciones de canalización para anular la configuración de recursos predeterminada (tipo de máquina, tipo y tamaño del disco) que se asigna a cada trabajador.

Servicios de Dataflow

La operación de Dataflow Shuffle particiona y agrupa los datos por clave de forma escalable, eficiente y tolerante a errores. De forma predeterminada, Dataflow usa una implementación de Shuffle que se ejecuta por completo en máquinas virtuales de trabajadores y consume su CPU, memoria y almacenamiento del disco persistente.

Dataflow también ofrece una función opcional altamente escalable llamada Dataflow Shuffle, que está disponible solo para las canalizaciones por lotes y que reorganiza los datos sin usar trabajadores. Shuffle se cobra según el volumen de datos procesados. Para hacer que Dataflow use Shuffle, puedes especificar el parámetro de canalización con Shuffle.

De forma similar a Shuffle, Dataflow Streaming Engine traslada el procesamiento de la reorganización y el estado de las transmisiones fuera de las VM de trabajador y lo envía al backend del servicio de Dataflow. Para indicarle a Dataflow que use Streaming Engine en tus canalizaciones de transmisiones, debes especificar el parámetro de canalización de Streaming Engine. El uso de Streaming Engine se factura de acuerdo con el volumen de los datos de transmisión procesados, lo que depende del volumen de datos transferidos a tu canalización de transmisiones y la complejidad y cantidad de etapas de la canalización. Entre los ejemplos de lo que se considera un byte procesado, se encuentran los flujos de entrada de las fuentes de datos; los flujos de datos desde una etapa de canalización fusionada hacia otra etapa fusionada; los flujos de datos que persisten en el estado definido por el usuario o que se usan para los sistemas de ventanas, y los mensajes salientes a receptores de datos, como a Pub/Sub o BigQuery.

Dataflow también ofrece una opción de precios con descuento para la CPU y la memoria, destinada al procesamiento por lotes. Flexible Resource Scheduling (FlexRS) combina VM interrumpibles y normales en un solo grupo de trabajadores de Dataflow para que los usuarios tengan acceso a recursos de procesamiento más económicos. Además, FlexRS retrasa la ejecución de un trabajo por lotes de Dataflow por un período de 6 horas a fin de identificar el mejor momento para iniciarlo según los recursos disponibles. Aunque Dataflow usa una combinación de trabajadores para ejecutar un trabajo de FlexRS, se te cobrará una tarifa uniforme con descuento en comparación con los precios normales de Dataflow, sin importar el tipo de trabajador. Para indicarle a Dataflow que use FlexRS en tus canalizaciones por lotes con ajuste de escala automático, debes especificar el parámetro de FlexRS.

Recursos de trabajo adicionales

Además del uso de recursos de trabajadores, un trabajo puede consumir los siguientes recursos (entre otros), que se facturan según sus precios correspondientes:

Detalles de precios

Las versiones futuras de Dataflow podrían tener cargos por servicio diferentes o agrupar servicios relacionados en paquetes.

Consulta la página Regiones y zonas de Compute Engine para obtener más información sobre las regiones disponibles y sus zonas.

1 Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria y 250 GB de disco persistente

2 Propiedades predeterminadas de los trabajadores FlexRS: 2 CPU virtuales, 7.50 GB de memoria, 25 GB de disco persistente por trabajador, con un mínimo de dos trabajadores

3 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria, 420 GB de disco persistente

4 En la actualidad, Dataflow Shuffle está disponible para las canalizaciones por lotes en las siguientes regiones:

  • us-west1 (Oregón)
  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-east4 (Virginia del Norte)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (Londres)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • europe-west3 (Fráncfort)
  • asia-southeast1 (Singapur)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sídney)

Estará disponible en otras regiones próximamente.

Los precios de Dataflow Shuffle dependen de los ajustes de volumen que se aplican a la cantidad de datos procesados mientras se reorganiza tu conjunto de datos durante las operaciones de lectura y escritura. Para obtener más información, consulta los detalles de precios de Dataflow Shuffle.

5 Dataflow Streaming Engine usa la unidad de precios de datos de transmisión procesados. Ahora, Streaming Engine está disponible en las siguientes regiones:

  • us-west1 (Oregón)
  • us-central1 (Iowa)
  • us-east1 (Carolina del Sur)
  • us-east4 (Virginia del Norte)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (Londres)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • europe-west3 (Fráncfort)
  • asia-southeast1 (Singapur)
  • asia-east1 (Taiwán)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sídney)
Estará disponible en otras regiones próximamente.

Detalles de precios de Dataflow Shuffle

Los cobros se calculan por trabajo de Dataflow a través de los ajustes de volumen que se aplicaron a la cantidad total de datos procesados durante las operaciones de Dataflow Shuffle. Tu facturación actual por los datos procesados con Dataflow Shuffle es igual a que se te cobre el precio completo por un cantidad menor de datos en vez de la cantidad procesada por un trabajo de Dataflow. Esta diferencia hace que la métrica de datos facturables de Dataflow Shuffle sea menor que la métrica de datos totales de Dataflow Shuffle.

En la siguiente tabla, se explica cómo se aplican estos ajustes:

Datos que procesa un trabajo Ajuste de facturación
Primeros 250 GB Reducción del 75%
Siguientes 4,870 GB Reducción del 50%
Datos restantes sobre 5,120 GB (5 TB) ninguna

Por ejemplo, si tu canalización consta de 1,024 GB (1 TB) de datos procesados con Dataflow Shuffle, la cantidad facturable se calcula de la siguiente manera: 250 GB × 25% + 774 GB × 50% = 449.5 GB × tasa regional de procesamiento de datos con Dataflow Shuffle. Si el resultado de tu canalización es 10,240 GB (10 TB) de datos procesados en total con Dataflow Shuffle, entonces la cantidad facturable sería 250 GB × 25% + 4,870 GB × 50% + 5,120 GB = 7,617.5 GB.

Mira la información de uso

Puedes ver el total de recursos de discos persistentes, CPU virtuales y memoria asociados a un trabajo en Google Cloud Console o mediante la herramienta de línea de comandos de gcloud. Si deseas realizar un seguimiento de las métricas reales y cobrables de los datos procesados de transmisión y con Shuffle, puedes hacerlo en la interfaz de Dataflow Monitoring. Puedes usar los datos procesados con Shuffle reales para evaluar el rendimiento de la canalización y los datos procesados cobrables a fin de determinar los costos del trabajo de Dataflow. Para los datos procesados de transmisión, las métricas reales y cobrables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para comprender cómo se calcula tu factura.