Precios de Cloud Dataflow

Esta página describe los precios de Cloud Dataflow. Para ver los precios de otros productos, consulta la documentación sobre precios.

Descripción general de los precios

Si bien la tarifa se establece por hora, el uso del servicio de Cloud Dataflow se factura en incrementos de segundos por trabajo. El uso se expresa en horas (por ejemplo, 30 minutos corresponden a 0.5 horas) para aplicar los precios por hora al uso por segundos. Los trabajadores y los trabajos pueden consumir recursos, según se describe en las siguientes secciones.

Recursos del trabajador y de los trabajadores

Cada trabajo de Cloud Dataflow usa, al menos, un trabajador de Cloud Dataflow. Este servicio ofrece dos tipos de trabajadores: por lotes y en transmisión. Se cobran cargos diferentes por el servicio de los trabajadores de cada tipo.

Los trabajadores de Cloud Dataflow consumen los siguientes recursos, que se facturan por segundo.

Los trabajadores en transmisión y por lotes son recursos especializados que usan Compute Engine. Sin embargo, un trabajo de Cloud Dataflow no emite facturación de Compute Engine para los recursos de Compute Engine que administra el servicio de Cloud Dataflow. En cambio, los cargos por el servicio de Cloud Dataflow abarcan el uso de estos recursos de Compute Engine.

Puedes anular el conteo de trabajadores predeterminado para un trabajo. Si usas el ajuste de escala automático, puedes especificar la cantidad máxima de trabajadores que se asignan a un trabajo. Los trabajadores y recursos respectivos se agregan y quitan automáticamente según la activación del ajuste de escala automático.

Además, puedes usar las opciones de canalización para anular la configuración de recursos predeterminada (tipo de máquina, tipo de disco y tamaño del disco) asignada a cada trabajador.

Servicios de Cloud Dataflow

La operación de Cloud Dataflow Shuffle particiona y agrupa los datos por clave de forma escalable, eficiente y tolerante a errores. Con su configuración predeterminada, Cloud Dataflow usa una implementación de Shuffle que se ejecuta completamente en máquinas virtuales de trabajadores y consume su CPU, su memoria y su almacenamiento del disco persistente.

Cloud Dataflow también ofrece una característica opcional altamente escalable llamada Cloud Dataflow Shuffle, que está disponible solo para las canalizaciones por lotes y que redistribuye los datos sin usar trabajadores. Shuffle se cobra según el volumen de datos procesados. Para hacer que Cloud Dataflow use Shuffle, puedes especificar el parámetro de canalización con Shuffle.

De forma similar a Shuffle, Cloud Dataflow Streaming Engine traslada el procesamiento de la redistribución y el estado de las transmisiones fuera de las VM de trabajador y lo envía al backend del servicio de Cloud Dataflow. Para hacer que Cloud Dataflow use Streaming Engine en tus canalizaciones de transmisiones, puedes especificar el parámetro de canalización con Streaming Engine. El uso de Streaming Engine se factura de acuerdo con el volumen de los datos de transmisiones procesados, lo que depende del volumen de datos transferidos a tu canalización de transmisiones y la complejidad y la cantidad de etapas de la canalización. Entre los ejemplos de lo que se considera un byte procesado, se encuentran los flujos de entrada de las fuentes de datos, los flujos de datos desde una etapa de canalización fusionada a otra etapa fusionada, los flujos de datos que persisten en el estado definido por el usuario o que se usan para los sistemas de ventanas y los mensajes salientes a receptores de datos, como a Cloud Pub/Sub o BigQuery.

Cloud Dataflow también ofrece una opción de precios con descuento para la CPU y la memoria, destinada al procesamiento por lotes. Flexible Resource Scheduling (FlexRS) combina VM interrumpibles y normales en un solo grupo de trabajadores de Cloud Dataflow para que los usuarios tengan acceso a recursos de procesamiento más económicos. Además, FlexRS retrasa la ejecución de un trabajo por lotes de Cloud Dataflow por un período de 6 horas a fin de identificar el mejor momento para iniciarlo según los recursos disponibles. Aunque Cloud Dataflow usa una combinación de trabajadores para ejecutar un trabajo de FlexRS, se te cobrará una tarifa uniforme con descuento en comparación con los precios normales de Cloud Dataflow, sin importar el tipo de trabajadores. Para indicarle a Cloud Dataflow que use FlexRS en tus canalizaciones por lotes con ajuste de escala automático, debes especificar el parámetro FlexRS.

Recursos de trabajo adicionales

Además del uso de recursos de trabajadores, un trabajo puede consumir los siguientes recursos, que se facturan según sus precios correspondientes:

Detalles de precios

Las versiones futuras de Cloud Dataflow podrían tener cargos por servicio diferentes o agrupar servicios relacionados en paquetes.

Consulta la página Regiones y zonas de Compute Engine para obtener más información sobre las regiones disponibles y sus zonas.

Iowa (us-central1) Los Ángeles (us-west2) Oregón (us-west1) Virginia del Norte (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Finlandia (europe-north1) Fráncfort (europe-west3) Londres (europe-west2) Países Bajos (europe-west4) Zúrich (europe-west6) Bombay (asia-south1) Singapur (asia-southeast1) Sídney (australia-southeast1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1) Osaka (asia-northeast2)
Tipo de trabajador de Cloud Dataflow CPU virtual
(por hora)
Memoria
(por GB, por hora)
Almacenamiento - Disco persistente estándar
(por GB, por hora)
Almacenamiento - Disco SSD persistente
(por GB, por hora)
Datos procesados4,5
(por GB)6
Por lotes1
FlexRS2
Transmisión3

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

1 Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria y 250 GB de disco persistente

2 Propiedades predeterminadas de los trabajadores de FlexRS: 2 CPU virtual, 7.50 GB de memoria y 25 GB de disco persistente por trabajador, mínimo dos trabajadores

3 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria y 420 GB de disco persistente

4 Actualmente, Cloud Dataflow Shuffle está disponible para las canalizaciones por lotes en las siguientes regiones:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • europe-west4 (Países Bajos)
  • asia-northeast1 (Tokio)

Estará disponible en otras regiones próximamente.

5 Cloud Dataflow Streaming Engine usa la unidad de precios de datos de transmisión procesados. Streaming Engine está disponible actualmente en las siguientes regiones:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • asia-northeast1 (Tokio)
  • europe-west4 (Países Bajos)
Estará disponible en otras regiones próximamente.

6 Antes del 3 de mayo de 2018, Cloud Dataflow Shuffle se facturaba en función de la cantidad de datos redistribuidos multiplicada por el tiempo que tomaba redistribuirlos y mantenerlos en la memoria de Shuffle. El precio era de $0.0216 por gigabyte por hora. A partir del 3 de mayo de 2018, Shuffle comenzó a cobrarse solo por la cantidad de datos que lee y escribe la infraestructura del servicio de Cloud Dataflow durante el proceso de redistribución del conjunto de datos. La unidad de precio es gigabytes. El tiempo ya no se considera como un factor para realizar la facturación. Los usuarios con conjuntos de datos grandes o muy grandes deberían observar reducciones significativas en sus gastos totales de Shuffle.
Para fomentar aún más el uso de Shuffle basado en servicios, los primeros 5 terabytes de datos procesados en la característica tendrán un 50% de descuento. Por ejemplo, si tu canalización consta de 1 TB de datos procesados con Shuffle, tendrás que pagar solo el 50% de ese volumen de datos (0.5 TB). Si tu canalización consta de 10 TB de datos procesados con Shuffle, solo tendrás que pagar por 7.5 TB, ya que los primeros 5 TB de ese volumen tienen un 50% de descuento.

Mira la información de uso

Puedes ver el total de CPU virtuales, memoria y recursos de discos persistentes asociados a un trabajo en Google Cloud Platform Console o mediante la herramienta de línea de comandos de gcloud. Si deseas realizar un seguimiento de las métricas reales y cobrables de los datos procesados de transmisiones y con Shuffle, puedes hacerlo en la interfaz de Cloud Dataflow Monitoring. Puedes usar los datos reales procesados con Shuffle para evaluar el rendimiento de tu canalización y los datos procesados cobrables, a fin de determinar los costos del trabajo de Cloud Dataflow. Para los datos procesados de transmisiones, las métricas reales y cobrables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud Platform para comprender cómo se calcula tu factura.

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.