Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver los precios de otros productos, consulta la documentación sobre precios.

Para aprender a ahorrar un 40% con un compromiso de tres años o un 20% con un año consulta nuestra página de descuentos por compromiso de uso (CUD).

Descripción general

El uso de Dataflow se factura por los recursos que usan tus trabajos. Según el modelo de precios que uses, los recursos se miden y facturan de forma diferente.

Recursos de procesamiento de Dataflow Recursos de procesamiento de Dataflow Prime
Unidades de procesamiento de datos (DCU)
(lotes y transmisión)

Otros recursos de Dataflow que se facturan para todos los trabajos, como Persistent Disk, instantáneas y, también, instantáneas.

Los recursos de otros servicios podrían usarse para Dataflow. el trabajo. Los servicios que se usan con Dataflow pueden incluir BigQuery, Pub/Sub, Cloud Storage y Cloud Logging, entre otros.

Aunque la tarifa de los precios se basa en la hora, Dataflow se factura en incrementos por segundo por trabajo. El uso es expresadas en horas para aplicar los precios por hora al uso por segundo. Por ejemplo, 30 minutos son 0.5 horas. Los trabajadores y los trabajos pueden consumir recursos que se describe en las siguientes secciones.

Es posible que las versiones futuras de Dataflow tengan cargos por servicio diferentes o la agrupación de servicios relacionados.

Recursos de procesamiento de Dataflow

Facturación de Dataflow para los recursos de procesamiento incluye los siguientes componentes:

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la Regiones y zonas de Compute Engine .

CPU y memoria de los trabajadores

Cada trabajo de Dataflow usa al menos un trabajador de Dataflow. Este servicio ofrece dos tipos de trabajadores: lotes y transmisión. Los trabajadores de transmisión y por lotes tienen cargos de servicio independientes.

Los trabajadores de Dataflow consumen los siguientes recursos, cada uno facturado por segundo:

  • CPU
  • Memoria

Los trabajadores en transmisión y por lotes son recursos especializados que usan Compute Engine. Sin embargo, un trabajo de Dataflow no emite Facturación de Compute Engine para recursos de Compute Engine administrados por el servicio de Dataflow. En cambio, el servicio de Dataflow los cargos abarcan el uso de estos recursos de Compute Engine.

Puedes anular el recuento de trabajadores predeterminado para un trabajo. Si utilizas ajuste de escala automático, especificar la cantidad máxima de trabajadores que se asignarán a un trabajo. Trabajadores y los recursos respectivos se agregan y se quitan automáticamente según del ajuste de escala automático.

Además, puedes usar opciones de canalización para anular la configuración de recursos predeterminada, como el tipo de máquina, el tipo de disco y el disco que se asignan a cada trabajador y que usan GPU.

FlexRS

Dataflow ofrece una opción de CPU y memoria con descuento para el procesamiento por lotes. Flexible Resource Scheduling (FlexRS) combina VM interrumpibles y normales en un solo grupo de trabajadores de Dataflow para que los usuarios tengan acceso a recursos de procesamiento más económicos. Además, FlexRS retrasa la ejecución de un trabajo por lotes de Dataflow por un período de 6 horas a fin de identificar el mejor momento para iniciarlo según los recursos disponibles.

Aunque Dataflow usa una combinación de trabajadores para ejecutar un trabajo de FlexRS, se te factura de descuento de aproximadamente el 40% en el costo de CPU y memoria en comparación con el costo de Dataflow, independientemente de el tipo de trabajador. Para indicarle a Dataflow que use FlexRS en tus canalizaciones por lotes con ajuste de escala automático, debes especificar el parámetro de FlexRS.

Datos procesados con Dataflow Shuffle

Para las canalizaciones por lotes, Dataflow proporciona una función altamente escalable, Dataflow Shuffle, que redistribuye los datos fuera de los trabajadores. Para obtener más información, consulta Dataflow Shuffle.

Dataflow Shuffle cobra por volumen de datos. y se procesan durante la reproducción aleatoria.

Precios de Streaming Engine

Para las canalizaciones de transmisión, Dataflow Streaming Engine traslada la redistribución de datos y el procesamiento del estado desde las VMs de trabajador hacia la Backend del servicio de Dataflow. Para obtener más información, consulta Streaming Engine.

Unidades de procesamiento de Streaming Engine

Con la facturación basada en recursos, los recursos de Streaming Engine se miden en unidades de procesamiento de Streaming Engine Dataflow mide los recursos de Streaming Engine que usa cada trabajo y, luego, factura según el total de recursos que usa ese trabajo. Si quieres habilitar la facturación basada en recursos para tu trabajo, consulta Usa la facturación basada en recursos. Cuando usas la facturación basada en recursos, los descuentos existentes se aplican automáticamente.

Cuando usas Dataflow Prime con facturación basada en recursos, se te factura de los recursos totales que usa cada trabajo, Se usa el SKU Data Compute Unit (DCU) en lugar del SKU de la unidad de procesamiento de Streaming Engine

Datos procesados (heredados) de Streaming Engine

Dataflow continúa admitir la facturación procesada de datos heredados. A menos que Habilitar la facturación basada en recursos trabajos se facturan con la facturación procesada por datos.

La facturación procesada por datos de Streaming Engine mide el uso por volumen de de transmisión de datos procesados, lo que depende de los siguientes factores:

  • El volumen de datos transferidos a tu canalización de transmisión
  • La complejidad de la canalización
  • La cantidad de etapas de canalización con operación Shuffle o con DoFn con estado

Entre los ejemplos de lo que se registra como un byte procesado, se incluyen los siguientes elementos:

  • Flujos de entrada desde fuentes de datos
  • Flujos de datos desde una etapa de canalización fusionada a otra etapa fusionada
  • Flujos de datos que persisten en el estado definido por el usuario o se usan para la renderización en ventanas
  • Enviar mensajes a los receptores de datos, como a Pub/Sub o BigQuery

Precios de los recursos de procesamiento de Dataflow: por lotes y FlexRS

En la siguiente tabla, se muestran los detalles de los precios de los recursos de trabajador y Shuffle procesados para trabajos por lotes y de FlexRS.

1 Valores predeterminados de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente si no se usa Dataflow Shuffle, disco persistente de 25 GB si se usa Dataflow Shuffle

2 Propiedades predeterminadas de los trabajadores FlexRS: 2 CPU virtuales, 7.50 GB de memoria, 25 GB de disco persistente por trabajador, con un mínimo de dos trabajadores

Precios de los recursos de procesamiento de Dataflow: transmisión

La siguiente tabla contiene detalles de los precios de los recursos de trabajadores, los recursos de transmisión Datos procesados (heredados) de Streaming Engine y unidades de procesamiento de Streaming Engine para transmisiones de seguridad en la nube.

Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

3 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria y 400 GB de disco persistente si no usa Streaming Engine, 30 GB de disco persistente si usa Streaming Engine El En la actualidad, el servicio de Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando ejecutar un trabajo de transmisión. Una proporción de 1:1 entre trabajadores y discos es la asignación de recursos mínima.

4 Los precios de Dataflow Shuffle se basan en los ajustes de volumen aplicados a la cantidad de datos procesados. durante las operaciones de lectura y escritura mientras se redistribuye el conjunto de datos. Para obtener más información, consulta los detalles de precios de Dataflow Shuffle. Los precios de Dataflow Shuffle no se aplican a los trabajos de Streaming Engine que usan facturación basada en recursos.

5 Unidades de procesamiento de Streaming Engine: Para trabajos de transmisión que usan Streaming Engine y el modelo de facturación basado en recursos Estos trabajos no se facturan por los datos procesados durante la redistribución.

Ajustes de volumen para datos procesados de Dataflow Shuffle

Los cargos se calculan por trabajo de Dataflow a través de los ajustes de volumen aplicados a la cantidad total de datos procesados durante las operaciones de Dataflow Shuffle. Tu facturación actual por los datos procesados con Dataflow Shuffle es igual a que se te cobre el precio completo por un cantidad menor de datos en vez de la cantidad procesada por un trabajo de Dataflow. Esta diferencia da como resultado el datos procesados de Shuffle facturables que son más pequeños que el total Shuffle de datos procesados

En la siguiente tabla, se explica cómo se aplican estos ajustes:

Datos procesados de Dataflow Shuffle Ajuste de facturación
Primeros 250 GB Reducción del 75%
Siguientes 4,870 GB Reducción del 50%
Datos restantes sobre 5,120 GB (5 TB) ninguno

Por ejemplo, si tu canalización da como resultado 1,024 GB (1 TB) de datos procesados totales de Dataflow Shuffle, el importe facturable se calcula de la siguiente manera:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Si tu canalización da como resultado 10,240 GB (10 TB) de datos procesados en total con Dataflow Shuffle, esta es la cantidad facturable de datos:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Precios de los recursos de procesamiento de Dataflow Prime

Dataflow Prime es una plataforma de procesamiento de datos que se basa en Dataflow mejoras en el uso de recursos y el diagnóstico distribuido.

El precio de los recursos de procesamiento que usa un trabajo de Dataflow Prime se hace según la cantidad de datos Unidades de procesamiento (DCU) Las DCU representan los recursos de procesamiento que se asignan para ejecutar tu canalización. Otros recursos de Dataflow que usan los trabajos de Dataflow Prime, como Persistent Disk, instantáneas y GPU, se se factura por separado.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la Regiones y zonas de Compute Engine .

Unidad de procesamiento de datos

Una unidad de procesamiento de datos (DCU) es una unidad de medición de uso de Dataflow que hace un seguimiento de la cantidad de recursos de procesamiento que consumen tus trabajos. Recursos con seguimiento por DCU incluyen CPU virtual, memoria y datos procesados con Dataflow Shuffle (para trabajos por lotes) y datos procesados de Streaming Engine (para trabajos de transmisión). Trabajos que consumen más recursos tienen más uso de DCU en comparación con los trabajos que consumen menos recursos. Una DCU se puede comparar con los recursos utilizados por una Trabajo de Dataflow que se ejecuta durante una hora en un trabajador con 1 CPU virtual y 4 GB.

Facturación de la unidad de procesamiento de datos

Se te factura por la cantidad total de DCU que consume tu trabajo. El precio de una sola DCU varía en función de si un trabajo por lotes o de transmisión. Cuando usas Dataflow Prime Con la facturación basada en recursos, se factura en función del total de recursos usados, en lugar de bytes del proceso.

Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

Optimiza el uso de unidades de procesamiento de datos

No puedes establecer la cantidad de DCU para tus trabajos. Dataflow Prime cuenta las DCU. Sin embargo, puedes reducir la cantidad de DCU que se consumen administrando los siguientes aspectos de tu trabajo:

  • Cómo reducir el consumo de memoria
  • Reducir la cantidad de datos procesados en pasos de redistribución mediante filtros, combinadores y codificadores eficientes

Para identificar estas optimizaciones, usa el Interfaz de supervisión de Dataflow y la interfaz de detalles de ejecución.

¿En qué se diferencian los precios de Dataflow Prime de los de Dataflow?

En Dataflow, se te cobra por los recursos diversos que consumen tus trabajos, como CPU virtuales, memoria, Persistent Disk y la cantidad de datos que procesan Dataflow Shuffle o Streaming Engine

Las unidades de procesamiento de datos consolidan todos los recursos, excepto el almacenamiento, en un unidad de medición individual. Se te factura por los recursos de Persistent Disk y por La cantidad de DCU consumidas según el tipo de trabajo, por lotes o transmisión. Para obtener más información, consulta Usa Dataflow Prime.

¿Qué sucede con mis trabajos existentes que usan el modelo de precios de Dataflow?

Tus trabajos de transmisión y por lotes existentes se seguirán facturando con el Modelo de Dataflow. Cuando actualizas tus trabajos a usar Dataflow Prime, los trabajos Luego, usan el modelo de precios de Dataflow Prime, en el que se les factura por el Persistent Disk. y para las DCU consumidas.

Otros recursos de Dataflow

El almacenamiento, las GPU, las instantáneas y otros recursos se facturan de la misma manera para Dataflow y Dataflow Prime.

Precios de los recursos de almacenamiento

Los recursos de almacenamiento se facturan con la misma tarifa para las transmisiones, los lotes y los FlexRS. de seguridad en la nube. Puedes usar Opciones de canalización para cambiar el tamaño o tipo de disco predeterminados. Dataflow Prime factura al Persistent Disk por separado según el precio del siguiente tabla.

Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

En la actualidad, el servicio de Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando ejecutas un trabajo de transmisión. Cada disco persistente es local a una máquina virtual individual de Compute Engine. Una relación de 1:1 entre trabajadores y discos es la asignación de recursos mínima.

Los trabajos que usan Streaming Engine usan 30 GB. en los discos de arranque de los discos. Trabajos con Dataflow Shuffle usar discos de arranque de 25 GB. Para los trabajos que no usan estas ofertas, el tamaño predeterminado de cada disco persistente es de 250 GB en modo por lotes y 400 GB en modo de transmisión.

El uso de Compute Engine se basa en el número promedio de trabajadores, mientras que El uso de Persistent Disk se basa en el valor exacto de --maxNumWorkers. Discos persistentes se redistribuyan de modo que cada trabajador tenga la misma cantidad de discos conectados.

Precios de los recursos de GPU

Los recursos de GPU se facturan con la misma tarifa para los trabajos de transmisión y por lotes. FlexRS actualmente no es compatible con GPU. Para obtener información sobre las regiones y zonas para GPU, consulta Disponibilidad de regiones y zonas de GPU en la documentación de Compute Engine.

Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

Instantáneas

Para administrar la confiabilidad de tus canalizaciones de transmisión, puedes usar para guardar y restablecer el estado de la canalización. El uso de instantáneas se factura según el volumen de datos almacenados, lo que depende de los siguientes factores:

  • El volumen de datos transferidos a tu canalización de transmisión
  • La lógica de tu sistema de ventanas
  • La cantidad de etapas de la canalización

Puedes tomar una instantánea de tu trabajo de transmisión con la de Google Cloud o Google Cloud CLI. No se aplican cargos adicionales por crear un trabajo desde tu instantánea para restablecer el estado de tu canalización. Para obtener más información, consulta Usa instantáneas de Dataflow.

Precios de las instantáneas

Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

Confidential VM

Confidential VM para Dataflow encripta los datos en uso en VMs de trabajador de Compute Engine. Para obtener más detalles, consulta Descripción general de Confidential VM.

Usar Confidential VM para Dataflow genera los costos por CPU virtual y por GB.

Precios de Confidential VM

Los precios son globales y no cambian según la región de Google Cloud.

Recursos que no son de Dataflow

Además del uso de Dataflow, un trabajo podría consumir lo siguiente: recursos, cada uno facturado según sus propios precios, incluidos, sin limitaciones, los siguientes:

Ver uso de recursos

Puedes ver el total de recursos de Persistent Disk, CPU virtuales y memoria asociados por un trabajo en el panel Información del trabajo en Métricas de recursos. Tú puede hacer un seguimiento de las siguientes métricas Interfaz de supervisión de Dataflow:

  • Tiempo total de CPU virtuales
  • Tiempo total de uso de memoria
  • Tiempo total de uso de los discos persistentes
  • Total de datos de transmisión procesados (Total streaming data processed)
  • Total de datos de Shuffle procesados
  • Datos de Shuffle facturables y procesados

Puedes usar la métrica Total de datos aleatorios procesados para evaluar el rendimiento de tu canalización y la métrica Facturación aleatoria de datos procesados para determinar los costos del trabajo de Dataflow.

En Dataflow Prime, puedes ver la cantidad total de DCU que consume un trabajo En el panel Información del trabajo en Métricas de recursos.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para comprender cómo se calcula tu factura.

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en SKU de Google Cloud.

¿Qué sigue?

Solicita una cotización personalizada

Con los precios de pago por uso de Google Cloud, solo pagas por los servicios que usas. Comunícate con nuestro equipo de Ventas y obtén una cotización personalizada para tu organización.
Comunicarse con Ventas