Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver las tarifas de otros productos, consulta la lista de precios.

Para saber cómo puedes ahorrar un 40% con un compromiso de tres años o un 20% con un compromiso de un año, consulta nuestra página sobre los descuentos por compromiso de uso.

Información general

El uso de Dataflow se factura por los recursos que utilizan tus tareas. Los recursos se miden y facturan de forma diferente en función del modelo de precios que uses.

Recursos de computación de Dataflow Recursos de computación de Dataflow Prime
Unidades de computación de datos (DCUs)
(por lotes y en streaming)

Otros recursos de Dataflow que se facturan por todas las tareas son Persistent Disk, GPUs y capturas.

Es posible que se usen recursos de otros servicios para la tarea de Dataflow. Entre los servicios que se utilizan con Dataflow se pueden incluir BigQuery, Pub/Sub, Cloud Storage y Cloud Logging, entre otros.

Aunque los precios se indican en horas, el uso de Dataflow se cobra por incrementos de un segundo y por tarea. El uso se indica en horas para poder aplicar los precios por hora al uso por segundo. Por ejemplo, 30 minutos son 0,5 horas. Es posible que los trabajadores y las tareas consuman recursos, tal como se describe en las siguientes secciones.

En futuras versiones de Dataflow, es posible que se apliquen cargos por servicio diferentes o que se agrupen servicios relacionados.

Recursos de computación de Dataflow

La facturación de los recursos de computación de Dataflow incluye los siguientes componentes:

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página de regiones y zonas de Compute Engine.

CPU y memoria del trabajador

En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Los trabajadores por lotes y en streaming tienen cargos por servicio independientes.

Los trabajadores de Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:

  • CPU
  • Memoria

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Dataflow no emite facturas de Compute Engine por los recursos de Compute Engine que gestiona el servicio Dataflow. En su lugar, los cargos por el servicio Dataflow incluyen el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que quieres asignar a una tarea. Los trabajadores y los recursos respectivos se añaden y se quitan automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (como el tipo de máquina, el tipo de disco y el tamaño de disco) que se asigna a cada trabajador y que utiliza GPUs.

FlexRS

Dataflow ofrece una opción con un precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales e interrumpibles en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles.

Aunque Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa reducida uniforme de aproximadamente el 40% del coste de la CPU y la memoria en comparación con los precios normales de Dataflow, independientemente del tipo de trabajador. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Datos procesados por Acción de Dataflow en Dataflow

En el caso de los flujos de procesamiento por lotes, Dataflow proporciona una función de alta escalabilidad, Dataflow sh, que organiza los datos de manera aleatoria fuera de los trabajadores. Para obtener más información, consulta el artículo sobre Dataflow Scratch.

La función Aceleración de Dataflow se cobra según el volumen de datos que se procesan en esta función.

Precios de Streaming Engine

En el caso de los flujos de procesamiento de streaming, Dataflow Streaming Engine traslada el procesamiento de estados y el análisis de datos de streaming de las máquinas virtuales de los trabajadores al backend del servicio Dataflow. Para obtener más información, consulta el apartado sobre Streaming Engine.

Unidades de computación de Streaming Engine

Con la facturación basada en recursos, los recursos de Streaming Engine se miden en unidades de computación de Streaming Engine. Dataflow mide los recursos de Streaming Engine que usa cada tarea y luego los factura en función de los recursos totales que utiliza. Si quieres habilitar la facturación basada en recursos para tu tarea, consulta la sección Usar la facturación basada en recursos. Cuando usas la facturación basada en recursos, los descuentos disponibles se aplican automáticamente.

Cuando usas Dataflow Prime con la facturación basada en recursos, se te factura según el total de recursos que utiliza cada tarea, pero se usa el SKU de unidad de computación de datos (DCU) en lugar del SKU de unidad de procesamiento de Streaming Engine.

Datos de Streaming Engine procesados (antiguos)

Dataflow sigue siendo compatible con la facturación antigua procesada de datos. A menos que habilites la facturación basada en recursos, las tareas se facturarán mediante el uso de una facturación procesada de datos.

La facturación de datos de Streaming Engine se mide según el volumen de datos de streaming procesados, que depende de los siguientes factores:

  • El volumen de datos ingeridos en tu flujo de procesamiento de streaming.
  • La complejidad del flujo de procesamiento
  • Número de fases de flujo de procesamiento con operaciones aleatorias o con DoFns con reconocimiento del estado.

Entre los ejemplos de lo que se cuenta como un byte procesado, se incluyen los siguientes:

  • Flujos de entrada de fuentes de datos
  • Flujos de datos de una fase de flujo de procesamiento fusionada a otra fase fusionada.
  • Flujos de datos que persisten en el estado definido por el usuario o se usan para crear ventanas
  • Envía mensajes a sumideros de datos, como Pub/Sub o BigQuery

Precios de los recursos de computación de Dataflow: por lotes y FlexRS

En la siguiente tabla se indican los precios de los recursos de los trabajadores y de los datos procesados por shuffle y por lotes y de FlexRS.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3, 75 GB de memoria, disco persistente de 250 GB si no usa Dataflow sh

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

Precios de recursos de computación de Dataflow: streaming

En la tabla siguiente se indican los precios de los recursos de los trabajadores, los datos procesados de Streaming Engine (antiguos) y las unidades de computación de Streaming Engine de las tareas de streaming.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria, disco persistente de 400 GB si no usa Streaming Engine y disco persistente de 30 GB si usa Streaming Engine. Actualmente, el servicio Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando se ejecuta una tarea de streaming. La asignación mínima de recursos es una proporción de 1:1 entre los trabajadores y los discos.

4 Los precios de Dataflow shing se basan en los ajustes de volumen que se aplican a la cantidad de datos procesados durante las operaciones de lectura y escritura al reordenar los conjuntos de datos de forma aleatoria. Para obtener más información, consulta los precios detallados de Dataflow Batch. Los precios de Trace de Dataflow shing no se aplican a las tareas de Streaming Engine que utilizan una facturación basada en recursos.

5 Unidades de computación de Streaming Engine: para tareas de streaming que utilizan Streaming Engine y el modelo de facturación basado en recursos. Estas tareas no se facturan por los datos procesados durante la reproducción aleatoria.

Ajustes de volumen para los datos procesados de Acción aleatoria de Dataflow

Los cargos se calculan por cada tarea de Dataflow mediante los ajustes de volumen que se aplican a la cantidad total de datos procesados durante las operaciones sistemáticas de Dataflow. La factura que recibirás por los datos procesados por Shuffle de Dataflow será equivalente al precio total de una cantidad de datos más pequeña que la cantidad que se procesa en una tarea de Dataflow. Esta diferencia provoca que la métrica de datos facturables procesados de forma aleatoria sea menor que la métrica de total de datos procesados de modo aleatorio.

En la tabla siguiente se explica cómo se aplican estos ajustes:

Datos procesados de BigQuery de Dataflow Ajuste de facturación
Primeros 250 GB Reducción del 75 %
Siguientes 4870 GB Reducción del 50 %
Resto de datos a partir de 5120 GB (5 TB) ninguno

Por ejemplo, si tu flujo de procesamiento genera 1024 GB (1 TB) de un total de datos procesados por shuffle de Dataflow, la cantidad facturable se calcula de la siguiente manera:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Si tu flujo de procesamiento genera 10.240 GB (10 TB) de un total de datos procesados con Dataflow shing, la cantidad de datos facturable será la siguiente:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Precios de los recursos de computación de Dataflow Prime

Dataflow Prime es una plataforma de procesamiento de datos basada en Dataflow para mejorar el uso de recursos y el diagnóstico distribuido.

El precio de los recursos de computación que utilizan las tareas de Dataflow Prime se calcula según el número de unidades de computación de datos (DCUs). Las DCUs representan los recursos de computación que se asignan para ejecutar el flujo de procesamiento. Otros recursos de Dataflow que utilizan las tareas de Dataflow Prime, como el disco persistente, las GPUs y las capturas, se facturan por separado.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página de regiones y zonas de Compute Engine.

Unidad de computación de datos

Una unidad de computación de datos (DCU) es una unidad de medición del uso de Dataflow que monitoriza el número de recursos de computación que consumen tus tareas. Entre los recursos que monitorizan las DCUs se incluyen las vCPU, la memoria, los datos procesados con Acción de Dataflow (en el caso de las tareas por lotes) y los datos de Streaming Engine (en las tareas de streaming). Las tareas que consumen más recursos hacen un uso mayor de DCU que las que consumen menos recursos. Una DCU es comparable a los recursos que utiliza una tarea de Dataflow que se ejecuta durante una hora en un trabajador de 1 vCPU con 4 GB.

Facturación de unidades de computación de datos

Se te facturará por el número total de DCUs que consume tu tarea. El precio de una sola DCU varía en función de si tienes una tarea por lotes o de streaming. Cuando usas Dataflow Prime con la facturación basada en recursos, se te factura según los recursos totales usados, en lugar del proceso de bytes.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

Optimiza el uso de unidades de computación de datos

No puedes establecer el número de DCUs para tus tareas. Dataflow cuenta cuenta las DCUs. Sin embargo, puedes reducir el número de DCUs consumidas gestionando los siguientes aspectos de tu tarea:

  • Reducir el consumo de memoria
  • Reducir la cantidad de datos procesados en pasos de orden aleatorio usando filtros, combinadores y programadores eficientes.

Para identificar estas optimizaciones, usa la interfaz de monitorización de Dataflow y la interfaz de detalles de ejecución.

¿En qué se diferencian los precios de Dataflow Prime de los precios de Dataflow?

En Dataflow, se te cobra por los recursos dispares que consumen tus tareas, como vCPUs, memoria, disco persistente y la cantidad de datos procesados por Dataflow sh

Las unidades de computación de datos consolidan todos los recursos, excepto el almacenamiento, en una única unidad de cupo por usuario. Se te factura por los recursos de disco persistente y por el número de DCUs que se consumen según el tipo de tarea, por lotes o de streaming. Para obtener más información, consulta el artículo sobre cómo utilizar capturas de Dataflow.

¿Qué ocurre con las tareas que ya tengo en las que se usa el modelo de precios de Dataflow?

Las tareas por lotes y de streaming se seguirán facturando con el modelo de Dataflow. Cuando actualizas tus tareas para usar Dataflow Prime, dichas tareas emplean el modelo de precios de Dataflow Prime, donde se facturan los recursos de disco persistente y las DCUs consumidas.

Otros recursos de Dataflow

El almacenamiento, las GPUs, las capturas y otros recursos se facturan de la misma forma para Dataflow y Dataflow Prime.

Precios de recursos de almacenamiento

Los recursos de almacenamiento se facturan a la misma tarifa para las tareas de streaming, por lotes y de FlexRS. Puedes usar las opciones de flujo de procesamiento para cambiar el tamaño o el tipo de disco predeterminados. Dataflow Prime factura al disco persistente por separado según los precios que figuran en la siguiente tabla.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

Actualmente, el servicio Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando se ejecuta una tarea de streaming. Cada disco persistente es local a una máquina virtual de Compute Engine concreta. La asignación mínima de recursos es una proporción de 1:1 entre los trabajadores y los discos.

Las tareas que utilizan Streaming Engine utilizan discos de arranque de 30 GB. Las tareas que utilizan Dataflow Batch usan discos de arranque de 25 GB. En el caso de las tareas que no usan estos recursos, el tamaño predeterminado de cada disco persistente es de 250 GB en modo por lotes y de 400 GB en modo de streaming.

El uso de Compute Engine se basa en el promedio de trabajadores, mientras que el uso del disco persistente se basa en el valor exacto de --maxNumWorkers. Los discos persistentes se redistribuyen de tal forma que cada trabajador tenga el mismo número de discos conectados.

Precios de recursos de GPU

Los recursos de GPU se facturan a la misma tarifa en las tareas de streaming y por lotes. Actualmente, FlexRS no admite GPUs. Para obtener información sobre la disponibilidad de regiones y zonas de GPUs, consulta la documentación de Compute Engine.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

Capturas

Si quieres gestionar la fiabilidad de tus flujos de procesamiento de streaming, puedes usar capturas para guardar y restaurar el estado de los flujos. El uso de las capturas se factura por el volumen de datos almacenados, que depende de los siguientes factores:

  • El volumen de datos ingeridos en tu flujo de procesamiento de streaming.
  • Tu lógica de ventanas
  • Número de fases del flujo de procesamiento

Puedes tomar una captura de tu tarea de streaming con la consola de Dataflow o con la CLI de Google Cloud. No se te cobrará nada por crear una tarea a partir de la captura y restaurar el estado del flujo de procesamiento. Para obtener más información, consulta el artículo sobre cómo usar capturas de Dataflow.

Precios de las capturas

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

VM confidenciales

Las máquinas virtuales confidenciales de Dataflow cifran los datos en uso de las máquinas virtuales de trabajadores de Compute Engine. Para obtener más información, consulta los conceptos de Confidencial Computing.

El uso de máquinas virtuales confidenciales para Dataflow conlleva unos costes fijos adicionales por vCPU y por GB.

Precios de las VM confidenciales

Los precios son globales y no cambian según la región de Google Cloud.

Recursos que no son de Dataflow

Además del uso de Dataflow, una tarea podría consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Ver uso de recursos

Puedes ver los recursos totales de vCPU, memoria y disco persistente asociados a una tarea en el panel Información de la tarea, en Métricas de recursos. Puedes hacer un seguimiento de las siguientes métricas en la interfaz de monitorización de Dataflow:

  • Tiempo total de vCPU
  • Tiempo de uso de memoria total
  • Tiempo de uso total del disco persistente
  • Total de datos de transmisión procesados
  • Total de datos de shuffle procesados
  • Datos de shuffle facturables procesados

Puedes usar la métrica Total de datos shuffle de datos procesados para evaluar el rendimiento de tu flujo de procesamiento y la métrica Datos procesados de shuffle facturables para determinar los costes de la tarea de Dataflow.

En Dataflow Prime, puedes ver el número total de DCUs que consume una tarea en el panel Información de la tarea, en la sección Métricas de recursos.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

Siguientes pasos

Solicitar un presupuesto personalizado

Gracias al modelo de pago por uso de Google Cloud, solo pagas por los servicios que utilizas. Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.
Contactar con Ventas