Precios de Cloud Dataflow

En esta página se describen los precios de Cloud Dataflow. Para ver los de otros productos, lee la documentación de precios.

Descripción general de los precios

Aunque los precios se indican en horas, el uso del servicio Cloud Dataflow se cobra por incrementos de un segundo y por tarea. El uso se especifica en horas (por ejemplo, 30 minutos son 0,5 horas) para poder aplicar los precios por hora al uso por segundo. Es posible que los trabajadores y las tareas consuman recursos, tal y como se describe en las siguientes secciones.

Trabajadores y recursos de trabajadores

En cada tarea de Cloud Dataflow se utiliza como mínimo un trabajador de Cloud Dataflow. El servicio Cloud Dataflow ofrece dos tipos de trabajadores: por lotes y de streaming. Cada tipo de trabajador tiene un cargo por servicio distinto.

Los trabajadores de Cloud Dataflow consumen los siguientes recursos, cada uno de los cuales se factura por segundo:

Los trabajadores por lotes y de streaming son recursos especializados que usan Compute Engine. Sin embargo, las tareas de Cloud Dataflow no emiten facturas de Compute Engine por los recursos de Compute Engine que gestiona el servicio Cloud Dataflow: los cargos por el servicio Cloud Dataflow incluyen el uso de estos recursos de Compute Engine.

Puedes anular el número de trabajadores predeterminado de una tarea. Si utilizas el autoescalado, puedes especificar la cantidad máxima de trabajadores que deseas asignar a una tarea. Los trabajadores y los recursos respectivos se añadirán y retirarán automáticamente en función de la actuación del autoescalado.

Además, puedes usar las opciones de flujo de procesamiento para anular la configuración predeterminada de los recursos (tipo de máquina, tipo de disco y tamaño de disco) que se le asignan a cada trabajador.

Servicios de Cloud Dataflow

La operación Shuffle de Cloud Dataflow particiona y agrupa los datos por clave de manera escalable, eficiente y tolerante a fallos. De forma predeterminada, Cloud Dataflow utiliza una implementación de esta operación que se ejecuta por completo en las máquinas virtuales de los trabajadores y que utiliza la CPU, la memoria y el almacenamiento de disco persistente de dichos trabajadores.

Además, Cloud Dataflow proporciona una función opcional muy escalable, Shuffle, que solo se puede utilizar en flujos de procesamiento por lotes y agrupa los datos por clave de manera ajena a los trabajadores. Esta función se cobra según el volumen de datos que se procesan. Para indicar a Cloud Dataflow que use Shuffle, especifica el parámetro de flujo de procesamiento de Shuffle.

La función Streaming Engine de Cloud Dataflow, similar a Shuffle, traslada el procesamiento de estados, análisis y orden sistemático de datos de streaming fuera de las máquinas virtuales de trabajadores y lo ubica en el backend del servicio Cloud Dataflow. Para indicar a Cloud Dataflow que debe usar Streaming Engine en tus flujos de procesamiento de streaming, especifica el parámetro de flujo de procesamiento de Streaming Engine. El uso de Streaming Engine se factura según el volumen de datos procesados en streaming, el cual depende del volumen de datos ingeridos en tu flujo de procesamiento en streaming y de la complejidad y el número de fases de dicho flujo. Aquí tienes algunos ejemplos de lo que cuenta como un byte procesado: flujos de entrada de fuentes de datos; flujos de datos de una fase del flujo de procesamiento fusionada a otra fase fusionada; flujos de datos conservados en el estado definido por el usuario o utilizados para las ventanas, y mensajes de salida a sumideros de datos, como Cloud Pub/Sub o BigQuery.

Cloud Dataflow también ofrece una opción con precio rebajado de CPU y memoria para el procesamiento por lotes. La programación flexible de recursos (FlexRS) combina máquinas virtuales normales y no garantizadas en un único grupo de trabajadores de Cloud Dataflow para que los usuarios puedan acceder a recursos de procesamiento más baratos. FlexRS también retrasa la ejecución de una tarea de Cloud Dataflow por lotes durante un periodo máximo de 6 horas para identificar el mejor momento para iniciar la tarea en función de los recursos disponibles. Cuando Cloud Dataflow usa una combinación de trabajadores para ejecutar una tarea de FlexRS, se te factura una tarifa fija inferior a los precios normales de Cloud Dataflow, al margen del tipo de trabajador que se utilice. Para indicar a Cloud Dataflow que use FlexRS para tus flujos de procesamiento por lotes con autoescalado, especifica el parámetro de FlexRS.

Otros recursos de tareas

Además de usar recursos de trabajadores, cada tarea puede consumir, entre otros, los siguientes recursos (cada uno tiene su propio precio):

Precios detallados

En futuras versiones, es posible que haya otros cargos por servicio en Cloud Dataflow o que se agrupen servicios relacionados.

Para obtener más información sobre las regiones disponibles y sus zonas, consulta la página correspondiente de Compute Engine.

1 Valores predeterminados de los trabajadores por lotes: 1 vCPU, 3,75 GB de memoria y disco persistente de 250 GB.

2 Valores predeterminados de los trabajadores de FlexRS: 2 vCPU, 7,50 GB de memoria y disco persistente de 25 GB por trabajador, con un mínimo de 2 trabajadores.

3 Valores predeterminados de los trabajadores de streaming: 4 vCPU, 15 GB de memoria y disco persistente de 420 GB.

4 Shuffle de Cloud Dataflow está disponible para los flujos de procesamiento por lotes en las siguientes regiones:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-northeast1 (Tokio)

Estará disponible en otras regiones más adelante.

5 Para Streaming Engine de Cloud Dataflow, se aplica la unidad de precio de los datos procesados en streaming. Streaming Engine está disponible en las siguientes regiones:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-northeast1 (Tokio)
Estará disponible en otras regiones más adelante.

6 Antes del 3 de mayo del 2018, Shuffle de Cloud Dataflow se facturaba según la cantidad de datos procesados en dicha operación multiplicada por el tiempo que se tardaba en llevarla a cabo y en conservar los datos en la memoria de Shuffle. El precio era de 0,0216 USD por GB y hora. Desde el 3 de mayo del 2018, el precio de Shuffle se fija exclusivamente según la cantidad de datos que lee y escribe la infraestructura del servicio Cloud Dataflow durante dicha operación. La unidad de precio son los gigabytes y no se tiene en cuenta la dependencia de tiempo en la facturación. Es probable que los costes totales de Shuffle de los usuarios con conjuntos de datos grandes o muy grandes se reduzcan significativamente.
Para fomentar aún más la adopción de la operación Shuffle basada en servicios, se aplica un descuento del 50 % a las tarifas de los primeros 5 TB de datos procesados por esta función. Por ejemplo, si tu flujo de procesamiento genera 1 TB de datos reales procesados por Shuffle, solo se te cobra el 50 % de ese volumen de datos (0,5 TB). Si tu flujo de procesamiento genera 10 TB de datos reales procesados por Shuffle, solo se te cobran 7,5 TB porque se aplica una reducción del 50 % en la tarifa de los primeros 5 TB del volumen.

Consultar la información de uso

Puedes consultar los recursos de vCPU, memoria y disco persistente totales asociados a una tarea en la consola de Google Cloud Platform o a través de la herramienta de línea de comandos gcloud. En la interfaz de supervisión de Cloud Dataflow puedes monitorizar las métricas reales y facturables de datos procesados por Shuffle y de datos de transmisión procesados. Con los datos reales procesados por Shuffle puedes evaluar el rendimiento de tu flujo de procesamiento, y mediante los datos facturables procesados por Shuffle puedes determinar los costes de la tarea de Cloud Dataflow. En el caso de los datos de transmisión procesados, las métricas reales y las facturables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud Platform para entender cómo se calcula tu factura.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.