|

Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver las tarifas de otros productos, consulta la lista de precios.

Para saber cómo puedes ahorrar un 40% con un compromiso de tres años o un 20% con un compromiso de un año, consulta nuestra página de descuentos por uso comprometido (CUDs).

Información general

El uso de Dataflow se factura por los recursos que usan tus tareas. Dependiendo del modelo de precios que uses, los recursos se miden y facturan de forma distinta.

Recursos de computación de Dataflow Recursos de computación de Dataflow Prime
Unidades de computación de datos (DCU)
(por lotes y en streaming)

Otros recursos de Dataflow en los que se facturan todas las tareas incluyen discos persistentes, GPUs y resúmenes.

Es posible que se utilicen recursos de otros servicios en el trabajo de Dataflow. Entre los servicios que se usan con Dataflow se incluyen BigQuery, Pub/Sub, Cloud Storage y Cloud Logging, entre otros.

Aunque los precios se indican en horas, el uso de Dataflow se cobra por incrementos de un segundo y por tarea. El uso se indica por horas y se aplica la tarifa por horas que correspondería al uso por segundo. Por ejemplo, 30 minutos son 0,5 horas. Es posible que los trabajadores y las tareas consuman recursos, tal y como se describe en las siguientes secciones.

En futuras versiones, es posible que haya otros cargos por servicio en Dataflow o que se agrupen servicios relacionados.

Recursos de computación de Dataflow

La facturación de Dataflow para los recursos de computación incluye los siguientes componentes:

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página Regiones y zonas de Compute Engine.

CPU y memoria de trabajador

En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Cada tipo de trabajador tiene un cargo por servicio distinto.

Los trabajadores de Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:

  • CPU
  • Memoria

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Dataflow no emitirá facturas de Compute Engine por los recursos de Compute Engine que gestiona el servicio Dataflow. En su lugar, los cargos por el servicio Dataflow incluyen el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que deseas asignar a una tarea. Los trabajadores y los recursos respectivos se añaden y retiran automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (como el tipo de máquina, el tipo de disco y el tamaño de disco) que se asignan a cada trabajador y que utilizan GPUs.

FlexRS

Dataflow ofrece una opción con precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales e interrumpibles en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles.

Aunque Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa fija inferior a los precios normales de Dataflow, al margen del tipo de trabajador que se utilice. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Datos de Shuffle de Dataflow tratados

En el caso de los flujos de procesamiento por lotes, Dataflow proporciona una función muy escalable, Shuffle, que agrupa los datos por clave fuera de los trabajadores. Para obtener más información, consulta Shuffle de Dataflow.

Shuffle de Dataflow se cobra según el volumen de datos que se procesan durante la mezcla.

Precios de Streaming Engine

En el caso de los flujos de procesamiento de streaming, la función Streaming Engine de Dataflow traslada el procesamiento de estados y el análisis y la clasificación de datos de streaming fuera de las máquinas virtuales de trabajadores y los ubica en el backend del servicio Dataflow. Consulta más información en Streaming Engine.

Unidades de computación de Streaming Engine

Con la facturación basada en recursos, los recursos de Streaming Engine se miden en unidades de procesamiento de Streaming Engine. Dataflow mide los recursos de Streaming Engine que utiliza cada tarea y, a continuación, emite una factura en función del total de recursos que ha usado esa tarea. Para habilitar la facturación basada en recursos para tu trabajo, consulta el artículo Usar la facturación basada en recursos. Cuando usas la facturación basada en recursos, los descuentos que tengas se aplican automáticamente.

Cuando usas Dataflow Prime con facturación basada en recursos, se te factura en función del total de recursos que usa cada tarea, pero se utiliza la SKU de unidades de computación de datos (DCU) en lugar de la SKU de unidades de computación de Streaming Engine.

Datos de Streaming Engine tratados (antiguo)

Dataflow seguirá admitiendo la facturación del procesamiento de datos antiguo. A menos que habilites la facturación basada en recursos, las tareas se facturan mediante la facturación por procesamiento de datos.

La facturación por datos procesados de Streaming Engine mide el uso según el volumen de datos de streaming procesados, que depende de los siguientes factores:

  • El volumen de datos ingeridos en tu flujo de procesamiento en streaming
  • La complejidad del flujo de procesamiento
  • Número de fases de flujo de procesamiento con operaciones de mezcla o con funciones definidas por el usuario con estado

Estos son algunos ejemplos de lo que se considera un byte procesado:

  • Flujos de entrada de fuentes de datos
  • Flujos de datos de una fase de flujo de procesamiento fusionado a otra fase de fusión
  • Flujos de datos persistentes en un estado definido por el usuario o utilizados para el encuadre
  • Enviar mensajes a sumideros de datos, como Pub/Sub o BigQuery

Precios de los recursos de computación de Dataflow: por lotes y de FlexRS

En la siguiente tabla se incluyen los detalles de los precios de los recursos de nodo de trabajo y los datos de Shuffle que se procesan en tareas por lotes y de FlexRS.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3, 75 GB de memoria y disco persistente de 250 GB si no se usa el mezclador de Dataflow, o de 25 GB si se usa el mezclador de Dataflow

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

Precios de los recursos de computación de Dataflow: streaming

En la siguiente tabla se incluyen los precios detallados de los recursos de trabajador, los datos procesados de Streaming Engine (antiguos) y las unidades de procesamiento de Streaming Engine para tareas de streaming.

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria y disco persistente de 400 GB si no se usa Streaming Engine, o de 30 GB si se usa. El servicio de flujo de datos actualmente está limitado a 15 discos persistentes por instancia de trabajador al ejecutar un trabajo de streaming. La relación mínima entre trabajadores y discos es de 1:1.

4 Los precios de Shuffle de Dataflow se basan en los ajustes de volumen que se apliquen a la cantidad de datos procesados durante operaciones de lectura y escritura al reorganizar tu conjunto de datos. Para obtener más información, consulta los precios detallados de Shuffle de Dataflow. Los precios de Shuffle de Dataflow no se aplican a las tareas de Streaming Engine que usan la facturación basada en recursos.

5 Unidades de computación de Streaming Engine: para tareas de streaming que usan Streaming Engine y el modelo de facturación basado en recursos. Estos trabajos no se facturan por los datos que se procesan durante la mezcla.

Ajustes de volumen para los datos de Dataflow Shuffle procesados

Los cargos de cada tarea de Dataflow se calculan en función de los ajustes de volumen que se apliquen a la cantidad total de datos procesados durante las operaciones Shuffle de Dataflow. La factura que recibirás por los datos procesados por Shuffle de Dataflow será equivalente al precio total de una cantidad de datos más pequeña que la cantidad que se procesa en una tarea de Dataflow. Esa diferencia hará que la métrica de datos de shuffle procesados facturables sea inferior a la métrica de datos de shuffle procesados totales.

En la tabla siguiente se explica cómo se aplican estos ajustes:

Datos de Dataflow Shuffle tratados Ajuste de facturación
Primeros 250 GB Reducción del 75 %
Siguientes 4870 GB Reducción del 50 %
Resto de datos a partir de 5120 GB (5 TB) ninguno

Por ejemplo, si tu flujo de procesamiento genera un total de 1024 GB (1 TB) de datos procesados por Shuffle de Dataflow, la cantidad facturable se calcula de la siguiente manera:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Si tu flujo de procesamiento genera un total de 10.240 GB (10 TB) de datos procesados por Shuffle de Dataflow, la cantidad de datos facturables es:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Precios de los recursos de computación de Dataflow Prime

Dataflow Prime es una plataforma de procesamiento de datos que se basa en Dataflow y ofrece mejoras en el uso de los recursos y el diagnóstico distribuido.

El precio de los recursos de computación que utiliza una tarea de Dataflow Prime se basa en el número de unidades de computación de datos (DCU). Los DCUs representan los recursos de computación asignados a la ejecución de tu flujo de procesamiento. Otros recursos de Dataflow que usan las tareas de Dataflow Prime, como los discos persistentes, las GPUs y los resúmenes, se facturan por separado.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página Regiones y zonas de Compute Engine.

Unidad de computación de datos

Las unidades de computación de datos (DCU) son unidades de medición de uso de Dataflow que hacen un seguimiento del número de recursos de computación que consumen tus tareas. Los recursos que monitorizan los DCUs incluyen vCPU, memoria, datos de Shuffle de Dataflow procesados (en el caso de las tareas por lotes) y datos de Streaming Engine procesados (en el caso de las tareas de streaming). Las tareas que consuman más recursos tendrán un mayor uso de DCU que las tareas que consuman menos recursos. Un DCU equivale a los recursos que usa una tarea de Dataflow que se ejecuta durante una hora en un trabajador de 1 vCPU y 4 GB.

Facturación de unidades de computación de datos

Se te factura por el número total de DCUs que ha consumido tu tarea. El precio de un solo DCU varía en función de si tienes una tarea por lotes o una tarea en streaming. Si usas Dataflow Prime con la facturación basada en recursos, se te facturará en función del total de recursos utilizados en lugar de los bytes procesados.

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Optimiza el uso de las unidades de computación de datos

No puedes definir el número de DCUs de tus tareas. Las tareas de protección de datos se cuentan mediante Dataflow Prime. Sin embargo, puedes gestionar los siguientes aspectos de tu tarea para reducir el número de DCUs que consumes:

  • Reducir el consumo de memoria
  • Reducir la cantidad de datos procesados en los pasos aleatorios con filtros, combinaciones y codificadores eficientes

Para identificar estas optimizaciones, utiliza la interfaz de monitorización de Dataflow y la interfaz de detalles de ejecución.

¿En qué se diferencian los precios de Dataflow Prime y los de Dataflow?

En Dataflow, se te cobra por los distintos recursos que consumen tus tareas, como las vCPUs, la memoria, los discos persistentes y la cantidad de datos que procesa Dataflow Shuffle o Streaming Engine.

Las unidades de computación de datos agrupan todos los recursos, excepto el almacenamiento, en una sola unidad de medición. Se te facturará por los recursos de disco persistente y por el número de DCUs que se consuman en función del tipo de tarea (por lotes o en streaming). Para obtener más información, consulta el artículo sobre cómo utilizar capturas de Dataflow.

¿Qué ocurre con las tareas que ya tengo que usan el modelo de precios de Dataflow?

El modelo de Dataflow seguirá facturando las tareas por lotes y en streaming que tengas. Si actualizas tus tareas para que empleen Dataflow Prime, las tareas utilizarán el modelo de precios de Dataflow Prime, en el que se te facturarán los recursos de disco persistente y las unidades de procesamiento de datos consumidas.

Otros recursos de Dataflow

El almacenamiento, las GPUs, las instantáneas y otros recursos se facturan de la misma forma en Dataflow y Dataflow Prime.

Precios de los recursos de almacenamiento

Los recursos de almacenamiento se facturan al mismo precio que las tareas de streaming, por lotes y de FlexRS. Puedes usar las opciones de flujo de procesamiento para cambiar el tamaño o el tipo de disco predeterminados. Dataflow Prime factura los discos persistentes por separado según los precios que se indican en la siguiente tabla.

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Actualmente, el servicio Dataflow se limita a 15 discos persistentes por instancia de trabajador al ejecutar un trabajo de streaming. Cada disco persistente es local para una máquina virtual de Compute Engine. La asignación mínima de recursos es una relación 1:1 entre los workers y los discos.

Los trabajos que usan Streaming Engine utilizan discos de arranque de 30 GB. Los trabajos que usan Dataflow Shuffle usan discos de inicio de 25 GB. En el caso de los trabajos que no utilizan estas ofertas, el tamaño predeterminado de cada disco persistente es de 250 GB en modo por lotes y de 400 GB en modo de streaming.

El uso de Compute Engine se basa en el número medio de workers, mientras que el uso de los discos persistentes se basa en el valor exacto de --maxNumWorkers. Los discos persistentes se redistribuyen de forma que cada trabajador tenga el mismo número de discos conectados.

Precios de los recursos de GPU

Los recursos de GPU se facturan al mismo precio que las tareas de streaming y por lotes. FlexRS no admite GPUs en estos momentos. Para obtener información sobre las regiones y zonas disponibles para las GPUs, consulta la sección Disponibilidad de regiones y zonas para GPUs de la documentación de Compute Engine.

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Capturas

Para gestionar la fiabilidad de tus flujos de procesamiento de streaming, puedes usar capturas para guardar y restaurar el estado de los flujos de procesamiento. El uso de las capturas se factura según el volumen de datos almacenados, que depende de los siguientes factores:

  • El volumen de datos ingeridos en tu flujo de procesamiento en streaming
  • Tu lógica de ventanas
  • El número de fases del flujo de procesamiento

Puedes hacer una captura de tu tarea de streaming mediante la consola de Dataflow o la CLI de Google Cloud. No se te cobrará nada por crear una tarea a partir de la captura y restaurar el estado del flujo de procesamiento. Para obtener más información, consulta el artículo sobre cómo utilizar capturas de Dataflow.

Precios de las capturas

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

VM confidenciales

Las máquinas virtuales confidenciales de Dataflow encriptan los datos en uso en las máquinas virtuales de Compute Engine para trabajadores. Para obtener más información, consulta el artículo Introducción a las máquinas virtuales confidenciales.

El uso de máquinas virtuales confidenciales para Dataflow genera unos costes fijos adicionales por vCPU y por GB.

Precios de las VM confidenciales

Los precios son globales y no cambian según la región de Google Cloud.

Recursos que no son de Dataflow

Además del uso de Dataflow, una tarea puede consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Ver el uso de los recursos

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en el panel Información de la tarea, en Métricas de recursos. En la interfaz de monitorización de Dataflow puedes monitorizar las siguientes métricas:

  • Tiempo total de vCPU
  • Tiempo total de uso de memoria
  • Tiempo de uso total de Persistent Disk
  • Total de datos de transmisión procesados
  • Total de datos procesados por Shuffle
  • Datos procesados por Shuffle facturables

Puedes usar la métrica Total de datos de shuffle procesados para evaluar el rendimiento de tu flujo de procesamiento, y mediante la métrica Datos de shuffle procesados facturables puedes determinar los costes de la tarea de Dataflow.

En el caso de Dataflow Prime, puedes ver el número total de DCUs que consume una tarea en el panel Información de la tarea en Métricas de recursos.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en la página de SKUs de Cloud Platform.

Siguientes pasos

Solicita un presupuesto personalizado

Gracias al modelo de pago por uso de Google Cloud, solo pagas por los servicios que usas. Ponte en contacto con nuestro equipo de Ventas para solicitar un presupuesto personalizado para tu empresa.
Contactar con Ventas