En esta página se describen los precios de Dataflow. Para ver los precios de otros productos, consulta la documentación sobre precios.
Para saber cómo puedes ahorrar un 40% con un compromiso de tres años o un 20% con un compromiso de un año, revisa nuestra página de descuentos por compromiso de uso (CUD).
El uso de Dataflow se factura por los recursos que usan tus trabajos. Según el modelo de precios que uses, los recursos se miden y facturan de manera diferente.
| Unidades de procesamiento de datos (DCUs) (lotes y transmisión) |
Unidades de procesamiento de datos (DCUs)
(lotes y transmisión)
Otros recursos de Dataflow que se facturan para todos los trabajos incluyen discos persistentes, GPUs y snapshots.
Los recursos de otros servicios podrían usarse para el trabajo de Dataflow. Los servicios que se usan con Dataflow pueden incluir BigQuery, Pub/Sub, Cloud Storage y Cloud Logging, entre otros.
Si bien la tarifa se establece por hora, el uso de Dataflow se factura en incrementos de un segundo por trabajo. El uso se expresa en horas para aplicar los precios por hora al uso por segundos. Por ejemplo, 30 minutos son 0.5 horas. Los trabajadores y los trabajos pueden consumir recursos según se describe en las siguientes secciones.
Las versiones futuras de Dataflow podrían tener cargos por servicio diferentes o agrupar servicios relacionados en paquetes.
La facturación de Dataflow para los recursos de procesamiento incluye los siguientes componentes:
Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página Regiones y zonas de Compute Engine.
Cada trabajo de Dataflow usa al menos un trabajador de Dataflow. Este servicio ofrece dos tipos de trabajadores: por lotes y de transmisión. Los trabajadores de transmisión y por lotes tienen cargos de servicio independientes.
Los trabajadores de Dataflow consumen los siguientes recursos, que se facturan por segundo:
Los trabajadores de transmisión y por lotes son recursos especializados que usan Compute Engine. Sin embargo, un trabajo de Dataflow no emite facturación de Compute Engine para los recursos de Compute Engine que administra el servicio de Dataflow. En cambio, los cargos por el servicio de Dataflow abarcan el uso de estos recursos de Compute Engine.
Puedes anular el recuento de trabajadores predeterminado para un trabajo. Si usas el ajuste de escala automático, puedes especificar la cantidad máxima de trabajadores que se asignan a un trabajo. Los trabajadores y sus recursos se agregan y quitan de forma automática según la activación del ajuste de escala automático.
Además, puedes usar opciones de canalización para anular la configuración de recursos predeterminada, como el tipo de máquina, el tipo de disco y el tamaño del disco, que se asignan a cada trabajador y que usan GPUs.
Dataflow ofrece una opción de precios con descuento para la CPU y la memoria, destinada al procesamiento por lotes. Flexible Resource Scheduling (FlexRS) combina VMs interrumpibles y normales en un solo grupo de trabajadores de Dataflow para que los usuarios tengan acceso a recursos de procesamiento más económicos. Además, FlexRS retrasa la ejecución de un trabajo por lotes de Dataflow por un período de 6 horas a fin de identificar el mejor momento para iniciarlo según los recursos disponibles.
Aunque Dataflow usa una combinación de trabajadores para ejecutar un trabajo de FlexRS, se te cobrará una tarifa uniforme con descuento de aproximadamente un 40% en el costo de CPU y memoria en comparación con los precios normales de Dataflow, sin importar el tipo de trabajador. Para indicarle a Dataflow que use FlexRS en tus canalizaciones por lotes con ajuste de escala automático, debes especificar el parámetro de FlexRS.
Para las canalizaciones por lotes, Dataflow proporciona una función altamente escalable, Dataflow Shuffle, que redistribuye los datos sin usar trabajadores. Para obtener más información, consulta Dataflow Shuffle.
Dataflow Shuffle cobra según el volumen de datos procesados durante la reorganización.
Para las canalizaciones de transmisión, Dataflow Streaming Engine traslada el procesamiento de la redistribución y el estado de las transmisiones fuera de las VMs de trabajador y lo envía al backend del servicio de Dataflow. Para obtener más información, consulta Streaming Engine.
Con la facturación basada en recursos, los recursos de Streaming Engine se miden en unidades de procesamiento de Streaming Engine. Dataflow mide los recursos de Streaming Engine que usa cada trabajo y, luego, factura en función de los recursos totales que usa ese trabajo. Para habilitar la facturación basada en recursos para tu trabajo, consulta Usa la facturación basada en recursos. Cuando usas la facturación basada en recursos, los descuentos existentes se aplican automáticamente.
Cuando usas Dataflow Prime con facturación basada en recursos, se te factura en función de los recursos totales que usa cada trabajo, pero se usa el SKU de la unidad de procesamiento de datos (DCU) en lugar del SKU de la unidad de procesamiento de Streaming Engine.
Dataflow sigue admitiendo la facturación heredada de datos procesados. A menos que habilites la facturación basada en recursos, los trabajos se facturan a través de la facturación por datos procesados.
La facturación de datos procesados de Streaming Engine mide el uso por el volumen de datos de transmisión procesados, lo que depende de los siguientes factores:
Estos son algunos ejemplos de lo que se considera un byte procesado:
Precios de los recursos de procesamiento de Dataflow: Batch
En la siguiente tabla, se incluyen los detalles de precios de los recursos de trabajador y los datos de Shuffle procesados para Batch.
Tipo de trabajo | Predeterminado (USD) |
---|---|
CPU | USD 0.056 / 1 hour |
Memoria | USD 0.003557 / 1 gibibyte hour |
Datos procesados durante el shuffle | USD 0.011 / 1 gibibyte |
Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente si no se usa Dataflow Shuffle, 25 GB de disco persistente si se usa Dataflow Shuffle
Precios de los recursos de procesamiento de Dataflow: FlexRS
En la siguiente tabla, se incluyen los detalles de los precios de los recursos de trabajador y los datos de Shuffle procesados para los trabajos de FlexRS.
Recurso | Predeterminado (USD) |
---|---|
CPU | USD 0.0336 / 1 hour |
Memoria | USD 0.0021342 / 1 gibibyte hour |
Datos procesados durante el shuffle | USD 0.011 / 1 gibibyte |
Propiedades predeterminadas de los trabajadores FlexRS: 2 CPU virtuales, 7.50 GB de memoria, 25 GB de disco persistente por trabajador, con un mínimo de dos trabajadores
En la siguiente tabla, se incluyen los detalles de precios de los recursos de trabajadores, los datos procesados de Streaming Engine (heredado) y las unidades de procesamiento de Streaming Engine para trabajos de transmisión.
Recurso | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
CPU | USD 0.069 / 1 hour | USD 0.0552 / 1 hour | USD 0.0414 / 1 hour |
Memoria | USD 0.003557 / 1 gibibyte hour | USD 0.0028456 / 1 gibibyte hour | USD 0.0021342 / 1 gibibyte hour |
Datos procesados durante la reorganización | USD 0.018 / 1 gibibyte | USD 0.0144 / 1 gibibyte | USD 0.0108 / 1 gibibyte |
Streaming Engine | USD 0.089 / 1 count | USD 0.0712 / 1 count | USD 0.0534 / 1 count |
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.
3Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria, 400 GB de disco persistente si no se usa Streaming Engine, 30 GB de disco persistente si se usa Streaming Engine. En la actualidad, el servicio de Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando se ejecuta un trabajo de transmisión. Una proporción de 1:1 entre trabajadores y discos es la asignación de recursos mínima.
4Los precios de Dataflow Shuffle dependen de los ajustes de volumen que se aplican a la cantidad de datos procesados mientras se reorganiza tu conjunto de datos durante las operaciones de lectura y escritura. Para obtener más información, consulta los detalles de precios de Dataflow Shuffle. Los precios de Dataflow Shuffle no se aplican a los trabajos de Streaming Engine que usan facturación basada en recursos.
5 Unidades de procesamiento de Streaming Engine: para trabajos de transmisión que usan Streaming Engine y el modelo de facturación basado en recursos. Estos trabajos no se facturan por los datos procesados durante la reorganización.
Los cobros se calculan por trabajo de Dataflow a través de los ajustes de volumen que se aplicaron a la cantidad total de datos procesados durante las operaciones de Dataflow Shuffle. Tu facturación actual por los datos procesados con Dataflow Shuffle es igual a que se te cobre el precio completo por un cantidad menor de datos en vez de la cantidad procesada por un trabajo de Dataflow. Esta diferencia hace que la métrica de datos de shuffle facturables procesados sea menor que la métrica de datos de shuffle totales procesados.
En la siguiente tabla, se explica cómo se aplican estos ajustes:
Datos procesados con Dataflow Shuffle | Ajuste de facturación |
---|---|
Primeros 250 GiB | Reducción del 75% |
Siguientes 4,870 GiB | Reducción del 50% |
Datos restantes sobre 5,120 GiB (5 TiB) | ninguna |
Por ejemplo, si tu canalización consta de 1,024 GiB (1 TiB) de datos procesados con Dataflow Shuffle, la cantidad facturable se calcula de la siguiente manera:
250 GiB × 25% + 774 GiB × 50% = 449.5 GiB × tasa regional de procesamiento de datos con Dataflow Shuffle
Si el resultado de tu canalización es 10,240 GiB (10 TiB) de datos procesados en total con Dataflow Shuffle, entonces la cantidad facturable sería:
250 GiB * 25% + 4,870 GiB * 50% + 5,120 GiB = 7,617.5 GiB
Dataflow Prime es una plataforma de procesamiento de datos que se basa en Dataflow para mejorar el uso de recursos y los diagnósticos distribuidos.
Los recursos de procesamiento que usa un trabajo de Dataflow Prime se cobran según la cantidad de unidades de procesamiento de datos (DCUs). Las DCU representan los recursos de procesamiento que se asignan para ejecutar la canalización. Otros recursos de Dataflow que usan los trabajos de Dataflow Prime, como discos persistentes, GPUs y snapshots, se facturan por separado.
Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página Regiones y zonas de Compute Engine.
Una unidad de procesamiento de datos (DCU) es una unidad de medición de uso de Dataflow que realiza un seguimiento de la cantidad de recursos de procesamiento que consumen tus trabajos. Los recursos que rastrean las DCU incluyen CPU virtual, memoria, datos procesados con Dataflow Shuffle (para trabajos por lotes) y datos procesados con Streaming Engine (para trabajos de transmisión). Los trabajos que consumen más recursos tienen un uso mayor de DCU en comparación con los trabajos que consumen menos recursos. Una DCU es comparable a los recursos que usa un trabajo de Dataflow que se ejecuta durante una hora en un trabajador de 1 CPU virtual y 4 GB.
Se te factura por la cantidad total de DCU que consume tu trabajo. El precio de una sola DCU varía según si tienes un trabajo por lotes o un trabajo de transmisión. Cuando usas Dataflow Prime con facturación basada en recursos, se te factura en función de los recursos totales usados en lugar de los bytes procesados.
Tipo de trabajo | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
Lote | USD 0.06 / 1 count | - | - |
Transmisión | USD 0.089 / 1 count | USD 0.0712 / 1 count | USD 0.0534 / 1 count |
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.
No puedes establecer la cantidad de DCU para tus trabajos. Dataflow Prime cuenta las DCU. Sin embargo, puedes reducir la cantidad de DCU consumidas si administras los siguientes aspectos de tu trabajo:
Para identificar estas optimizaciones, usa la interfaz de supervisión de Dataflow y la interfaz de detalles de la ejecución.
En Dataflow, se te cobra por los distintos recursos que consumen los trabajos, como CPUs virtuales, memoria, Persistent Disk y la cantidad de datos que procesa Dataflow Shuffle o Streaming Engine.
Las unidades de procesamiento de datos consolidan todos los recursos, excepto el almacenamiento, en una sola unidad de medición. Se te facturan los recursos de Persistent Disk y la cantidad de DCU consumidas en función del tipo de trabajo, por lotes o transmisión. Para obtener más información, consulta Usa Dataflow Prime.
El modelo de Dataflow seguirá facturando tus trabajos de transmisión y por lotes existentes. Cuando actualices tus trabajos para usar Dataflow Prime, los trabajos usarán el modelo de precios de Dataflow Prime, en el que se facturan los recursos de Persistent Disk y las DCU consumidas.
El almacenamiento, las GPUs, las instantáneas y otros recursos se facturan de la misma manera para Dataflow y Dataflow Prime.
Los recursos de almacenamiento se facturan con la misma tarifa para los trabajos de transmisión, por lotes y FlexRS. Puedes usar opciones de canalización para cambiar el tamaño o el tipo de disco predeterminado. Dataflow Prime factura el Persistent Disk por separado según los precios de la siguiente tabla.
Elemento | Predeterminado (USD) |
---|---|
Almacenamiento - Disco persistente estándar | USD 0.000054 / 1 gibibyte hour |
Almacenamiento - Disco SSD persistente | USD 0.000298 / 1 gibibyte hour |
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.
En la actualidad, el servicio de Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando se ejecuta un trabajo de transmisión. Cada disco persistente pertenece a una máquina virtual de Compute Engine individual. Una proporción de 1:1 entre trabajadores y discos es la asignación de recursos mínima.
Los trabajos que usan Streaming Engine usan discos de arranque de 30 GB. Los trabajos que usan Dataflow Shuffle usan discos de arranque de 25 GB. El tamaño predeterminado para cada disco persistente que no usa estas ofertas es de 250 GB en modo por lotes y 400 GB en modo de transmisión.
El uso de Compute Engine se basa en el número promedio de trabajadores, mientras que el uso de discos persistentes se basa en el valor exacto de --maxNumWorkers. Los discos persistentes se redistribuyen de modo que cada trabajador obtenga el mismo número de discos adjuntos.
Los recursos de GPU se facturan con la misma tarifa para los trabajos de transmisión y por lotes. Por el momento, FlexRS no admite GPUs. Para obtener información sobre las regiones y zonas disponibles para GPU, consulta Disponibilidad de regiones y zonas de GPU en la documentación de Compute Engine.
Elemento | Predeterminado (USD) |
---|---|
GPU NVIDIA® Tesla® P100 | USD 1.752 / 1 hour |
GPU NVIDIA® Tesla® V100 | USD 2.976 / 1 hour |
GPU NVIDIA® Tesla® T4 | USD 0.42 / 1 hour |
GPU NVIDIA® Tesla® P4 | USD 0.72 / 1 hour |
GPU NVIDIA® Tesla® L4 | USD 0.672048 / 1 hour |
GPU NVIDIA® Tesla® A100 (40 GB) | USD 3.72 / 1 hour |
GPU NVIDIA® Tesla® A100 (80 GB) | USD 4.713696 / 1 hour |
GPU NVIDIA ® Tesla ® H100 | USD 11.7558607 / 1 hour |
GPU NVIDIA ® Tesla ® H100 Mega | USD 12.4131309 / 1 hour |
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.
Los recursos de TPU se facturan con la misma tarifa para los trabajos de transmisión y por lotes. Como los precios de Dataflow para TPU incluyen el costo de las TPU, la CPU virtual y la memoria, los trabajadores de TPU no incurren en cargos separados de CPU virtual y memoria en Dataflow. Además, FlexRS no admite TPUs en este momento. Para obtener información sobre las regiones y zonas disponibles para TPU, consulta Regiones y zonas de TPU en la documentación de Compute Engine. Para usar TPU en Dataflow, comunícate con tu equipo de cuentas.
Elemento | Predeterminado (USD) |
---|---|
TPU V5E | USD 1.44 / 1 hour |
TPU V5P | USD 5.04 / 1 hour |
TPU V6E | USD 3.24 / 1 hour |
Cuando usas reservas de GPU o TPU de Compute Engine específicamente orientadas con Dataflow, se te factura según los precios de Compute Engine, incluidos los descuentos por compromiso de uso (CUD) aplicables. También se te cobra una prima de administración por los recursos de procesamiento consumidos en Dataflow. Para obtener más detalles, consulta Usa reservas de Compute Engine con Dataflow.
A continuación, se muestra una tabla que contiene las primas de administración para los recursos de procesamiento consumidos mientras se usan las reservas de GPU o TPU de Compute Engine en Dataflow. Ten en cuenta que los descuentos por compromiso de uso (CUD) de transmisión de Dataflow solo se aplican a las primas de administración de CPU y memoria para trabajos de transmisión.
Recurso | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
CPU Premium | USD 0.0178405 / 1 hour | USD 0.0142724 / 1 hour | USD 0.0107043 / 1 hour |
Memory Premium | USD 0.0020901 / 1 gibibyte hour | USD 0.00167208 / 1 gibibyte hour | USD 0.00125406 / 1 gibibyte hour |
Recurso | Precio (USD) |
---|---|
CPU Premium por lotes | USD 0.0111508 / 1 hour |
Memoria de lote Premium | USD 0.0013063 / 1 gibibyte hour |
GPU V100 Premium | USD 0.496 / 1 hour |
GPU P100 Premium | USD 0.292 / 1 hour |
GPU T4 Premium | USD 0.07 / 1 hour |
GPU L4 Premium | USD 0.112008 / 1 hour |
GPU A100 de 40 GB Premium | USD 0.5867816 / 1 hour |
GPU A100 de 80 GB Premium | USD 0.785616 / 1 hour |
GPU H100 Premium | USD 1.9593101 / 1 hour |
GPU H100 Mega Premium | USD 2.0688551 / 1 hour |
TPU V5E Premium | USD 0.24 / 1 hour |
TPU V5P Premium | USD 0.84 / 1 hour |
TPU V6E Premium | USD 0.54 / 1 hour |
Para ayudarte a administrar la confiabilidad de tus canalizaciones de transmisión, puedes usar instantáneas para guardar y restablecer el estado de tu canalización. El uso de instantáneas se factura por el volumen de datos almacenados, que depende de los siguientes factores:
Puedes tomar una instantánea de tu trabajo de transmisión con la consola de Dataflow o Google Cloud CLI. No se aplican cargos adicionales por crear un trabajo desde tu instantánea para restablecer el estado de tu canalización. Para obtener más información, consulta Usa instantáneas de Dataflow.
Elemento | Predeterminado (USD) |
---|---|
Almacenamiento | USD 0.000205479 / 1 gibibyte hour |
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.
Confidential VM para Dataflow encripta los datos en uso en las VMs de trabajador de Compute Engine. Para obtener más detalles, consulta Descripción general de Confidential VM.
El uso de Confidential VM para Dataflow genera costos fijos adicionales por CPU virtual y por GB.
Los precios son globales y no cambian según la región de Google Cloud.
Elemento | Predeterminado (USD) |
---|---|
CPU | USD 0.005479 / 1 hour |
Memoria | USD 0.0007342 / 1 gibibyte hour |
Además del uso de Dataflow, un trabajo puede consumir los siguientes recursos, que se facturan según sus precios correspondientes:
Puedes ver el total de recursos de discos persistentes, CPU virtuales y memoria asociados a un trabajo en el panel Información del trabajo en Métricas de recursos. Puedes hacer un seguimiento de las siguientes métricas en la interfaz de supervisión de Dataflow:
Puedes usar la métrica Total de datos procesados con Shuffle para evaluar el rendimiento de tu canalización y la métrica Datos procesados con Shuffle facturables para determinar los costos del trabajo de Dataflow.
En Dataflow Prime, puedes ver la cantidad total de DCU que consumió un trabajo en el panel Información del trabajo en Métricas de recursos.
Usa la calculadora de precios de Google Cloud para comprender cómo se calcula tu factura.
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.