Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver las tarifas de otros productos, consulta la lista de precios.

Resumen de precios

Aunque los precios se indican en horas, el uso del servicio Dataflow se cobra por incrementos de un segundo y por tarea. El uso se especifica en horas (por ejemplo, 30 minutos son 0,5 horas) para poder aplicar los precios por hora al uso por segundo. Es posible que los trabajadores y las tareas consuman recursos, tal y como se describe en las siguientes secciones.

Trabajadores y recursos de trabajadores

En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Los trabajadores por lotes y de streaming tienen cargos de servicio independientes.

Los trabajadores de Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Dataflow no emite la facturación de Compute Engine para los recursos de Compute Engine que administra el servicio Dataflow. En su lugar, los cargos por el servicio Dataflow incluyen el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que deseas asignar a una tarea. Los trabajadores y los recursos respectivos se añaden y eliminan automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (tipo de máquina, tipo de disco y tamaño de disco) que se le asignan a cada trabajador y que utilizan GPUs.

Servicios de Dataflow

La operación Shuffle de Dataflow divide en particiones los datos y los agrupa por clave de manera escalable, eficiente y tolerante a fallos. Para obtener información detallada sobre los precios, consulta la sección Precios detallados de este documento.

Flujos de procesamiento por lotes

Dataflow ofrece una función de alta escalabilidad, Shuffle de Dataflow, que reorganiza los datos fuera de los trabajadores por lotes de flujos de procesamiento por lotes. Para obtener más información, consulta Dataflow Shuffle.

Dataflow Shuffle cobra por volumen de datos que se procesan en modo aleatorio. Para obtener más información sobre los precios, consulta la sección Precios de Shuffle de Dataflow en este documento.

Flujos de procesamiento en streaming

De manera predeterminada, en los flujos de procesamiento de streaming, Dataflow utiliza una implementación de esta operación que se ejecuta por completo en las máquinas virtuales de los trabajadores y consume la CPU, la memoria y el almacenamiento de disco persistente de dichos trabajadores.

También puedes usar Streaming Engine. Con Streaming Engine, el motor de streaming de Dataflow traslada el procesamiento de estados y el análisis y la clasificación de datos de streaming fuera de las máquinas virtuales de trabajadores y los ubica en el backend del servicio Dataflow. Para utilizar Streaming Engine en tus flujos de procesamiento de streaming, especifica el parámetro de flujo de procesamiento de Streaming Engine.

El uso de Streaming Engine se factura según el volumen de datos de streaming procesados, el cual depende del volumen de datos ingeridos en tu flujo de procesamiento en streaming y de la complejidad y el número de fases de dicho flujo. Aquí tienes algunos ejemplos de lo que cuenta como un byte procesado: flujos de entrada de fuentes de datos; flujos de datos de una fase del flujo de procesamiento fusionada a otra fase fusionada; flujos de datos conservados en el estado definido por el usuario o utilizados para las ventanas, y mensajes de salida a sumideros de datos, como Pub/Sub o BigQuery. Para obtener más información sobre los precios, consulta la sección Precios de este documento.

FlexRS

Dataflow también ofrece una opción con precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales e interrumpibles en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles.

Aunque Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa fija inferior a los precios normales de Dataflow, al margen del tipo de trabajador que se utilice. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Capturas

Las capturas de Dataflow permiten guardar y restaurar el estado de los flujos de procesamiento y, de esa forma, te ayudan a gestionar la fiabilidad de los flujos de procesamiento de streaming. El uso de las capturas se factura según el volumen de datos almacenados, que depende de la cantidad de datos ingeridos en tu flujo de procesamiento en streaming, la lógica basada en ventanas y el número de fases del flujo en cuestión. Puedes hacer una captura de tu tarea de streaming con la interfaz web de Dataflow o la CLI de Google Cloud. No se te cobrará nada por crear una tarea a partir de la captura y restaurar el estado del flujo de procesamiento. Para obtener más información, consulta el artículo Utilizar capturas de Dataflow.

Dataflow Prime

Dataflow Prime es una nueva plataforma de procesamiento de datos que se basa en Dataflow y ofrece mejoras en el uso de los recursos y el diagnóstico distribuido.

El precio de una tarea que ejecuta Dataflow Prime según el número de unidades de procesamiento de Dataflow (DPU). Los DPU representan los recursos de computación asignados a la ejecución de tu flujo de procesamiento.

¿Qué es una unidad de procesamiento de Dataflow?

Las unidades de procesamiento de Dataflow (DPU) son unidades de medición de uso de Dataflow que hacen un seguimiento de la cantidad de recursos que consumen las tareas. Los DPUs monitorizan el uso de varios recursos, como computación, memoria, almacenamiento en disco, datos aleatorios (en el caso de las tareas por lotes) y datos de streaming procesados (en el caso de las tareas de streaming). Las tareas que consuman más recursos experimentarán un mayor uso de DPU que las tareas que consuman menos recursos. Si bien no hay ninguna asignación de uno a uno entre los recursos que tu tarea consume y el DPU, un 1 DPU es comparable con los recursos que usa una tarea de Dataflow que se ejecuta. durante 1 hora en un trabajador de 1 vCPU o 4 GB con un disco persistente de 250 GB.

¿Cómo puedo optimizar el número de unidades de procesamiento de Dataflow que usa mi tarea?

No puedes definir el número de DPU de tus tareas. Las tareas de protección de datos se cuentan mediante Dataflow Prime. Sin embargo, puedes centrarte en los siguientes aspectos de tu tarea para reducir el número de DPU que consumas:

  • Reducir el consumo de memoria.
  • Reducir la cantidad de datos procesados en los pasos aleatorios con filtros, combinaciones y codificadores eficientes.

Puedes utilizar las interfaces de la interfaz de monitorización de Dataflow y de ejecución de ejecución para identificar estas optimizaciones.

¿Cómo se facturan las unidades de procesamiento de Dataflow?

Se te factura por segundo el número total de DPU que ha consumido tu tarea durante una hora determinada. El precio de un solo DPU varía en función del tipo de tarea (por lotes o en streaming).

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

¿Cómo puedo limitar el número de unidades de procesamiento de Dataflow que consume mi tarea?

El número total de DPU que puede consumir tu tarea está limitado por el número máximo de recursos que puede consumir tu tarea. También puedes configurar el número máximo de trabajadores de una tarea, lo que limita la cantidad de DPU que puede consumir la tarea.

¿En qué se diferencian los precios de Dataflow Prime y los del modelo de precios de Dataflow?

En el modelo Dataflow, se te cobra por los distintos recursos que consumen tus tareas: vCPU, memoria, almacenamiento y la cantidad de datos que procesa Dataflow Shuffle o Streaming Engine.

Las unidades de procesamiento de Dataflow agrupan estos recursos en una sola unidad de medición. Se te facturará por el número de DPU que se consuman en función del tipo de tarea (por lotes o en streaming). Al desvincular los DPU de los recursos físicos, resulta más fácil comparar los costes entre las tareas y monitorizar el uso de Dataflow a lo largo del tiempo. Para obtener más información, consulta el artículo sobre cómo utilizar capturas de Dataflow.

¿Qué ocurre con las tareas que ya tengo que usan el modelo de precios de Dataflow?

El modelo de Dataflow seguirá facturando las tareas por lotes y en streaming que tengas. Si actualizas tus tareas para que empleen Dataflow Prime, se te facturarán las DPU que consuman.

Otros recursos de tareas

Además de usar recursos de trabajadores, cada tarea puede consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Detalles de los precios

En futuras versiones, es posible que haya otros cargos por servicio en Dataflow o que se agrupen servicios relacionados.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página correspondiente de Compute Engine.

Precios de los recursos para trabajadores

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKUs de Cloud Platform.

Precios de otros recursos

Los siguientes recursos se facturan al mismo precio que las tareas de streaming, por lotes y de FlexRS.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKUs de Cloud Platform.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria y disco persistente de 400 GB.

4 Esta función está disponible en todas las regiones en las que se admite Dataflow. Para ver las ubicaciones disponibles, consulta el artículo sobre ubicaciones de Dataflow.

Los precios de Shuffle de Dataflow se basan en los ajustes de volumen que se apliquen a la cantidad de datos procesados durante operaciones de lectura y escritura al reorganizar tu conjunto de datos. Para obtener más información, consulta los precios detallados de Shuffle de Dataflow.

5 Esta función está disponible en todas las regiones en las que se admite Dataflow. Para ver las ubicaciones disponibles, consulta el artículo sobre ubicaciones de Dataflow.

Precios detallados de Shuffle de Dataflow

Los cargos se calculan por tarea de Dataflow mediante ajustes de volumen aplicados a la cantidad total de datos procesados durante operaciones de Shuffle de Dataflow. La factura que recibirás por los datos procesados por Shuffle de Dataflow será equivalente al precio total de una cantidad de datos más pequeña que la cantidad que se procesa en una tarea de Dataflow. Esa diferencia hará que la métrica de datos facturables de Shuffle de Dataflow sea inferior a la métrica de datos totales de Shuffle de Dataflow.

En la tabla siguiente se explica cómo se aplican estos ajustes:

Datos procesados por una tarea Ajuste de facturación
Primeros 250 GB Reducción del 75 %
Siguientes 4870 GB Reducción del 50 %
Resto de datos a partir de 5120 GB (5 TB) Ninguno

Por ejemplo, si tu flujo de procesamiento genera un total de 1024 GB (1 TB) de datos procesados por Shuffle de Dataflow, la cantidad facturable se calcula de la siguiente manera: 250 GB * 25 % + 774 GB * 50 % = 449,5 GB * tarifa regional de procesamiento de datos de Shuffle de Dataflow. Si tu flujo de procesamiento genera un total de 10.240 GB (10 TB) de datos procesados por Shuffle de Dataflow, la cantidad de datos facturables es de 250 GB * 25 % + 4870 GB * 50 % + 5120 GB = 7617,5 GB.

Precios de las capturas

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKUs de Cloud Platform.

Las capturas de Dataflow estarán disponibles en otras regiones cuando la solución esté disponible para el público general.

Comprobación del uso

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en la consola de Google Cloud o a través de la herramienta de línea de comandos gcloud. En la interfaz de monitorización de Dataflow puedes seguir las métricas reales y facturables de datos procesados por Shuffle y de datos de streaming procesados. Con los datos reales procesados por Shuffle puedes evaluar el rendimiento de tu flujo de procesamiento, y mediante los datos facturables procesados por Shuffle puedes determinar los costes de la tarea de Dataflow. En el caso de los datos de streaming procesados, las métricas reales y las facturables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.

Siguientes pasos

Solicitar un presupuesto personalizado

Gracias al pago por uso de Google Cloud, solo pagas por los servicios que utilizas. Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.
Contacta con Ventas