Precios de Dataflow

En esta página se describen los precios de Dataflow. Para ver las tarifas de otros productos, consulta la lista de precios.

Descubre cómo puedes ahorrar un 40% con un compromiso de tres años o un 20% con un año de compromiso compromiso, consulta nuestra página de descuentos por compromiso de uso (CUDs).

Descripción general

El uso de Dataflow se factura en función de los recursos que utilicen tus tareas. Según el modelo de precios que utilices, recursos se miden y facturan de forma diferente.

Recursos de computación de Dataflow Recursos de computación de Dataflow Prime
Unidades de computación de datos (DCUs)
(por lotes y streaming)

Otros recursos de Dataflow que se facturan por todas las tareas incluyen discos persistentes, GPUs y capturas.

recursos de otros servicios se pueden usar para la instancia de Dataflow trabajo. Algunos de los servicios que se usan con Dataflow son BigQuery, Pub/Sub Cloud Storage y Cloud Logging, entre otros.

Aunque los precios se basan en la hora, Dataflow se factura en incrementos por segundo y por tarea. El uso es se indica en horas para poder aplicar el precio por hora al uso por segundo. Por ejemplo, 30 minutos son 0,5 horas. Es posible que los trabajadores y las tareas consuman recursos como se describen en las siguientes secciones.

Es posible que las próximas versiones de Dataflow tengan cargos por el servicio diferentes o la agrupación de servicios relacionados.

Recursos de computación de Dataflow

Facturación de Dataflow para los recursos de computación Incluye los siguientes componentes:

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la Regiones y zonas de Compute Engine .

CPU y memoria del trabajador

En cada tarea de Dataflow se utiliza como mínimo un trabajador de Dataflow. El servicio Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Los trabajadores por lotes y en streaming tienen cargos por servicio independientes.

Los trabajadores de Dataflow consumen los siguientes recursos (cada uno facturado) Por segundo:

  • CPU
  • Memoria

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, una tarea de Dataflow no emite Facturación de Compute Engine para los recursos de Compute Engine gestionados por el servicio Dataflow. En su lugar, usa el servicio Dataflow los cargos abarcan el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas autoescalado, especificar el número máximo de trabajadores que se asignarán a una tarea. Trabajadores y sus respectivos recursos se añaden y se eliminan automáticamente en función de del autoescalado.

Además, puedes utilizar opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos, como el tipo de máquina, el tipo de disco y el disco que se asignan a cada trabajador y que usan GPUs.

FlexRS

Dataflow ofrece una opción con CPU y memoria rebajadas. precios del procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales e interrumpibles en un único grupo de trabajadores de Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles.

Aunque Dataflow utiliza una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa uniforme una tarifa rebajada de alrededor del 40% en el coste de la CPU y la memoria en comparación con las Los precios de Dataflow, independientemente de el tipo de trabajador. Para indicar a Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Datos procesados por Shuffle de Dataflow

Para los flujos de procesamiento por lotes, Dataflow proporciona una función de gran escalabilidad, Dataflow Shuffle, que reproduce aleatoriamente los datos fuera de los trabajadores. Para obtener más información, consulta Dataflow Shuffle.

Shuffle de Dataflow se cobra según el volumen de datos durante la reproducción aleatoria.

Precios de Streaming Engine

Para los flujos de procesamiento de streaming, Streaming Engine de Dataflow transmitir el procesamiento aleatorio y de los estados desde las máquinas virtuales del trabajador hasta el Backend del servicio Dataflow. Para obtener más información, consulta Streaming Engine.

Unidades de computación de Streaming Engine

Con la facturación basada en recursos, los recursos de Streaming Engine se miden en Unidades de computación de Streaming Engine. Dataflow mide los recursos de Streaming Engine que usa cada tarea y luego se factura en función de los recursos totales que utiliza ese trabajo. Para habilitar la facturación basada en recursos en tu tarea, consulta Utilizar la facturación basada en recursos. Cuando usas la facturación basada en recursos, los descuentos se aplican automáticamente.

Cuando usas Dataflow Prime con la facturación basada en recursos, se te factura en función de en el total de recursos que usa cada tarea, pero la Se usa el SKU de Data Compute Unit (DCU) en lugar del SKU de la unidad de computación de Streaming Engine.

Datos de Streaming Engine procesados (antiguos)

Dataflow continúa admiten la facturación procesada por datos antigua. A menos que habilitar la facturación basada en recursos tareas se facturan mediante el procesamiento de datos para la facturación.

La facturación procesada por datos de Streaming Engine mide el uso según el volumen de datos de streaming procesados, lo que depende de los siguientes factores:

  • Volumen de datos ingeridos en tu flujo de procesamiento de streaming
  • La complejidad del flujo de procesamiento
  • El número de fases de flujo de procesamiento con operaciones aleatorias o con DoFns con reconocimiento del estado

Estos son algunos ejemplos de lo que se contabiliza como un byte procesado:

  • Flujos de entrada de fuentes de datos
  • Flujos de datos de una fase de un flujo de procesamiento fusionado a otra fase de un flujo de procesamiento fusionado
  • Flujos de datos conservados en el estado definido por el usuario o usados en ventanas
  • Enviar mensajes a sumideros de datos, como Pub/Sub o BigQuery

Precios de los recursos de computación de Dataflow: por lotes y FlexRS

La siguiente tabla contiene los detalles de los precios de los recursos de trabajadores y de Shuffle los datos procesados para tareas por lotes y FlexRS.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3, 75 GB de memoria y disco persistente de 250 GB si no se usa Dataflow Shuffle, disco persistente de 25 GB si se utiliza la función Shuffle de Dataflow

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

Precios de los recursos de computación de Dataflow (streaming)

La siguiente tabla contiene detalles sobre los precios de los recursos de trabajador, los precios Datos de buscador procesados (antiguos) y unidades de computación de Streaming Engine para streaming. tareas.

<ph type="x-smartling-placeholder"></ph> <ph type="x-smartling-placeholder"></ph> Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

3 Valores predeterminados de los trabajadores de streaming: 4 vCPUs, 15 GB de memoria y disco persistente de 400 GB. Si no utilizas Streaming Engine, usa un disco persistente de 30 GB si usas Streaming Engine. La Actualmente, el servicio Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando ejecutar una tarea de streaming. Una proporción de 1:1 entre trabajadores y discos es la asignación mínima de recursos.

4 Los precios de Shuffle de Dataflow se basan en los ajustes de volumen aplicados a la cantidad de datos procesados durante las operaciones de lectura y escritura, y mezclar tu conjunto de datos. Para obtener más información, consulta los precios detallados de Shuffle de Dataflow. Los precios de Shuffle de Dataflow no se aplican a las tareas de Streaming Engine que usan la facturación basada en recursos.

5 Unidades de computación de Streaming Engine: para las tareas de streaming que utilizan Streaming Engine y el modelo de facturación basado en recursos. Estas tareas no se facturan por los datos que se procesan durante la reproducción aleatoria.

Ajustes de volumen de los datos procesados por Shuffle de Dataflow

Los cargos por cada tarea de Dataflow se calculan en función de los ajustes de volumen que se aplican a la cantidad total de los datos procesados durante las operaciones de Shuffle de Dataflow. La factura que recibirás por los datos procesados por Shuffle de Dataflow será equivalente al precio total de una cantidad de datos más pequeña que la cantidad que se procesa en una tarea de Dataflow. Esta diferencia provoca métrica de datos aleatorios facturables procesados es inferior a la la métrica del total de datos procesados por aleatoriamente.

En la tabla siguiente se explica cómo se aplican estos ajustes:

Datos tratados por Shuffle de Dataflow Ajuste de facturación
Primeros 250 GB Reducción del 75 %
Siguientes 4870 GB Reducción del 50 %
Resto de datos a partir de 5120 GB (5 TB) ninguno

Por ejemplo, si tu flujo de procesamiento genera 1024 GB (1 TB) de datos totales procesados por Shuffle de Dataflow, la cantidad facturable se calcula de la siguiente manera:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Si tu flujo de procesamiento genera un total de 10240 GB (10 TB) de datos procesados por Shuffle de Dataflow, la cantidad de datos facturable es la siguiente:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Precios de los recursos de computación de Dataflow Prime

Dataflow Prime es una plataforma de procesamiento de datos que se basa en Dataflow para ofrecer Mejoras en el uso de recursos y el diagnóstico distribuido.

El precio de los recursos de computación que utiliza una tarea de Dataflow Prime se determina por número de unidades de Unidades de computación (DCUs). Las DCUs representan los recursos informáticos que se asignan para ejecutar tu flujo de procesamiento. Otros recursos de Dataflow que utilizan las tareas de Dataflow Prime, como los discos persistentes, las GPUs y las capturas, se factura por separado.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la Regiones y zonas de Compute Engine .

Unidad de computación de datos

Una unidad de computación de datos (DCU) es una unidad de medición del uso de Dataflow que realiza un seguimiento del número de recursos de computación que consumen tus tareas. Recursos monitorizados por DCUs incluyen vCPU, memoria y datos procesados por Shuffle de Dataflow (para tareas por lotes) y datos de Streaming Engine procesados (para tareas de streaming). Trabajos que consumen más recursos tienen un mayor uso de DCU que las tareas que consumen menos recursos. Una DCU es comparable a los recursos que usa Tarea de Dataflow que se ejecuta durante una hora en un trabajador con 1 vCPU y 4 GB.

Facturación de unidades de computación de datos

Se te facturará por el número total de DCUs consumidas por tu tarea. El precio de una sola DCU varía en función de si tienes una tarea por lotes o de streaming. Si usas Dataflow Prime con la facturación basada en recursos, se factura en función del total de recursos utilizados en lugar del proceso de bytes.

<ph type="x-smartling-placeholder"></ph> <ph type="x-smartling-placeholder"></ph> Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Optimiza el uso de unidades de computación de datos

No puedes establecer el número de DCUs para tus tareas. Dataflow Prime para contar las DCUs. Sin embargo, puedes reducir el número de DCUs consumidas gestionando las siguientes aspectos de tu trabajo:

  • Reduce el consumo de memoria
  • Reducir la cantidad de datos que se procesan en los pasos de reordenación usando filtros, combinadores y programadores eficientes.

Para identificar estas optimizaciones, utiliza el Interfaz de monitorización de Dataflow y la interfaz de detalles de ejecución.

¿En qué se diferencian los precios de Dataflow Prime y los de Dataflow?

En Dataflow, se te cobra por los recursos dispares. que consumen las tareas, como vCPUs, memoria, disco persistente y la cantidad de datos que procesa Shuffle de Dataflow o Streaming Engine.

Las unidades de computación de datos consolidan todos los recursos excepto el almacenamiento en un una sola unidad de cupo por usuario. Se te factura por los recursos de disco persistente y por los Número de DCUs consumidas en función del tipo de tarea, por lotes o en streaming. Para obtener más información, consulta el artículo sobre cómo utilizar capturas de Dataflow.

¿Qué ocurre con las tareas que utilizan el modelo de precios de Dataflow?

Tus tareas de streaming y por lotes se seguirán facturando con la de Dataflow. Cuando actualices tus tareas a usan Dataflow Prime, las tareas se usa el modelo de precios de Dataflow Prime, en el que se factura el disco persistente recursos y para las DCUs consumidas.

Otros recursos de Dataflow

El almacenamiento, las GPUs, las capturas y otros recursos se facturan según la de la misma forma con Dataflow y Dataflow Prime.

Precios de los recursos de almacenamiento

Los recursos de almacenamiento se facturan al mismo precio para el streaming, por lotes y FlexRS tareas. Puedes utilizar opciones de flujo de procesamiento para cambiar el tamaño o el tipo de disco predeterminados. Dataflow Prime factura el disco persistente por separado de acuerdo con el precio en la siguiente tabla.

<ph type="x-smartling-placeholder"></ph> <ph type="x-smartling-placeholder"></ph> Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Actualmente, el servicio Dataflow tiene un límite de 15 discos persistentes por instancia de trabajador al ejecutar una tarea de streaming. Cada disco persistente es local a una máquina virtual de Compute Engine concreta. Una relación de aspecto de 1:1 entre trabajadores y discos es la asignación mínima de recursos.

Las tareas que usan Streaming Engine utilizan 30 GB discos de arranque. Tareas que usan Dataflow Shuffle usan discos de arranque de 25 GB. En el caso de los trabajos que no utilicen estas ofertas, la el tamaño predeterminado de cada disco persistente es de 250 GB en modo por lotes y 400 GB en modo de streaming.

El uso de Compute Engine se basa en el número medio de trabajadores, mientras que El uso del disco persistente se basa en el valor exacto de --maxNumWorkers. Discos persistentes se redistribuyen de tal manera que cada trabajador tenga el mismo número de discos conectados.

Precios de los recursos de GPU

Los recursos de GPU se facturan al mismo precio en las tareas de streaming y por lotes. FlexRS no admite actualmente GPUs. Para obtener información sobre las regiones y para GPUs, consulta Disponibilidad de las zonas y regiones de GPU en la documentación de Compute Engine.

<ph type="x-smartling-placeholder"></ph> <ph type="x-smartling-placeholder"></ph> Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Capturas

Para gestionar la fiabilidad de tus flujos de procesamiento de streaming, puedes usar para guardar y restaurar el estado de tu flujo de procesamiento. El uso de las capturas se factura según el volumen de datos almacenados y depende de los siguientes factores:

  • Volumen de datos ingeridos en tu flujo de procesamiento de streaming
  • Tu lógica de ventanas
  • El número de fases del flujo de procesamiento.

Puedes hacer una captura de tu tarea de streaming con Dataflow consola o la CLI de Google Cloud. No se te cobrará nada por crear una tarea a partir de la captura y restaurar el estado del flujo de procesamiento. Para obtener más información, consulta Usar capturas de Dataflow.

Precios de las capturas

<ph type="x-smartling-placeholder"></ph> <ph type="x-smartling-placeholder"></ph> Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

VM confidenciales

La máquina virtual confidencial de Dataflow encripta los datos que se usan en máquinas virtuales de Compute Engine de trabajador. Para obtener más información, consulta Información general sobre las máquinas virtuales confidenciales

El uso de máquinas virtuales confidenciales para Dataflow conlleva un pago fijo adicional por vCPU y por GB.

Precios de las VM confidenciales

Los precios son globales y no cambian según la región de Google Cloud.

Recursos que no son de Dataflow

Además del uso de Dataflow, una tarea podría consumir lo siguiente recursos (cada uno a su propio precio), entre los que se incluyen los siguientes:

Consultar el uso de recursos

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados con una tarea en el panel Información de la tarea, en Métricas del recurso. Tu puede hacer un seguimiento de las siguientes métricas Interfaz de monitorización de Dataflow:

  • Tiempo total de vCPU
  • Tiempo de uso total de memoria
  • Tiempo de uso total del disco persistente
  • Total de datos de transmisión procesados
  • Total de datos procesados por Shuffle
  • Datos de Shuffle facturables procesados

Puede utilizar la métrica Total de datos procesados por orden aleatorio para evaluar el rendimiento de tu flujo de procesamiento y la métrica Datos aleatorios facturables procesados para determinar los costes. de la tarea de Dataflow.

En Dataflow Prime, puedes ver el número total de DCUs consumidas por una tarea. En el panel Información de la tarea, en Métricas de recursos.

Calculadora de precios

Usa la calculadora de precios de Google Cloud para entender cómo se calcula tu factura.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en la página de SKUs de Cloud Platform.

Siguientes pasos

Solicita un presupuesto personalizado

Gracias al modelo de pago por uso de Google Cloud, solo pagas por los servicios que usas. Ponte en contacto con nuestro equipo de Ventas para solicitar un presupuesto personalizado para tu empresa.
Contactar con Ventas