Precios de Cloud Dataflow

Esta página describe los precios de Cloud Dataflow. Para ver los precios de otros productos, consulta la documentación sobre precios.

Descripción general de los precios

Si bien la tarifa se establece por hora, el uso del servicio de Cloud Dataflow se factura en incrementos de segundos por trabajo. El uso se expresa en horas (por ejemplo, 30 minutos corresponden a 0.5 horas) para aplicar los precios por hora al uso por segundos. Los trabajadores y los trabajos pueden consumir recursos, según se describe en las siguientes secciones.

Recursos del trabajador y de los trabajadores

Cada trabajo de Cloud Dataflow usa, al menos, un trabajador de Cloud Dataflow. El servicio de Cloud Dataflow ofrece dos tipos de trabajadores: en lotes y de transmisión. Se cobran cargos diferentes por servicio para los trabajadores de transmisión y en lotes.

Los trabajadores de Cloud Dataflow consumen los siguientes recursos, que se facturan por segundo.

Los trabajadores de transmisión y en lotes son recursos especializados que usan Compute Engine. Sin embargo, un trabajo de Cloud Dataflow no emite facturación de Compute Engine para los recursos de Compute Engine que administra el servicio de Cloud Dataflow. En cambio, los cargos por el servicio de Cloud Dataflow abarcan el uso de estos recursos de Compute Engine.

Puedes anular el conteo de trabajadores predeterminado para un trabajo. Si usas el ajuste de escala automático, puedes especificar la cantidad máxima de trabajadores que se asignan a un trabajo. Los trabajadores y los recursos respectivos se agregan y se quitan automáticamente según la activación del ajuste de escala automático.

Además, puedes usar las opciones de canalización para anular la configuración de recursos predeterminada (tipo de máquina, tipo de disco y tamaño del disco) asignada a cada trabajador.

Servicios de Cloud Dataflow

La operación de Cloud Dataflow Shuffle particiona y agrupa los datos por clave de forma escalable, eficiente y tolerante a errores. Con su configuración predeterminada, Cloud Dataflow usa una implementación de Shuffle que se ejecuta completamente en máquinas virtuales de trabajadores y consume su CPU, su memoria y su almacenamiento del disco persistente.

Cloud Dataflow también ofrece una característica opcional altamente escalable llamada Cloud Dataflow Shuffle, que está disponible solo para las canalizaciones por lotes y que redistribuye los datos sin usar trabajadores. Shuffle se cobra según el volumen de datos procesados. Para hacer que Cloud Dataflow use Shuffle, puedes especificar el parámetro de canalización con Shuffle.

De forma similar a Shuffle, Cloud Dataflow Streaming Engine traslada el procesamiento de la redistribución y el estado de las transmisiones fuera de las VM de trabajador y lo envía al backend del servicio de Cloud Dataflow. Para hacer que Cloud Dataflow use Streaming Engine en tus canalizaciones de transmisiones, puedes especificar el parámetro de canalización con Streaming Engine. El uso de Streaming Engine se factura de acuerdo con el volumen de los datos de transmisiones procesados, lo que depende del volumen de datos transferidos a tu canalización de transmisiones y la complejidad y la cantidad de etapas de la canalización. Entre los ejemplos de lo que cuenta como un byte procesado, se encuentran los flujos de entrada de las fuentes de datos, los flujos de datos desde una etapa de canalización fusionada a otra etapa fusionada, los flujos de datos que persisten en el estado definido por el usuario o que se usan para los sistemas de ventanas y los mensajes salientes a receptores de datos, como a Cloud Pub/Sub o BigQuery.

Recursos de trabajo adicionales

Además del uso de recursos de trabajadores, un trabajo podría consumir los siguientes recursos, que se facturan según sus propios precios, incluidos los siguientes, entre otros:

Detalles de precios

Las versiones futuras de Cloud Dataflow podrían tener cargos por servicio diferentes o agrupar servicios relacionados en paquetes.

Consulta la página Regiones y zonas de Compute Engine para obtener más información sobre las regiones disponibles y sus zonas.

Iowa (us-central1) Los Ángeles (us-west2) Oregón (us-west1) Virginia del Norte (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Finlandia (europe-north1) Fráncfort (europe-west3) Londres (europe-west2) Países Bajos (europe-west4) Bombay (asia-south1) Singapur (asia-southeast1) Sídney (australia-southeast1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1)
Tipo de trabajador de Cloud Dataflow CPU virtual
(por hora)
Memoria
(por GB, por hora)
Almacenamiento - Disco persistente estándar
(por GB, por hora)
Almacenamiento - Disco SSD persistente
(por GB, por hora)
Datos procesados3,4
(por GB)5
Por lotes 1
Transmisión 2

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en las SKU de Cloud Platform.

1 Propiedades predeterminadas de los trabajadores por lotes: 1 CPU virtual, 3.75 GB de memoria, 250 GB de disco persistente

2 Propiedades predeterminadas de los trabajadores de transmisión: 4 CPU virtuales, 15 GB de memoria, 420 GB de disco persistente

3 Actualmente, Cloud Dataflow Shuffle está disponible para las canalizaciones por lotes solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones en el futuro.

4 Cloud Dataflow Streaming Engine usa la unidad de precios de datos de transmisión procesados. Actualmente, Streaming Engine está disponible en versión Beta para las canalizaciones de transmisión solo en las regiones us-central1 (Iowa) y europe-west1 (Bélgica). Estará disponible en otras regiones en el futuro.

5 Antes del 3 de mayo de 2018, Cloud Dataflow Shuffle se facturaba según la cantidad de datos redistribuidos multiplicada por el tiempo que tomaba redistribuirlos y mantenerlos en la memoria de Shuffle. El precio era de $0.0216 por gigabyte por hora. A partir del 3 de mayo de 2018, Shuffle comenzó a cobrarse solo por la cantidad de datos que la infraestructura de nuestro servicio lee y escribe durante el proceso de redistribución del conjunto de datos. La unidad de precio es gigabytes. El tiempo ya no se considera como un factor para realizar la facturación. Los usuarios con conjuntos de datos grandes o muy grandes, deberían observar reducciones significativas en sus gastos totales de Shuffle.
Para fomentar aún más el uso de Shuffle basado en servicios, los primeros cinco terabytes de datos procesados en Shuffle tendrán un 50% de descuento. Por ejemplo, si tu canalización consta de 1 TB de datos procesados con Shuffle, tendrás que pagar solo el 50% de ese volumen de datos (0.5 TB). Si tu canalización consta de 10 TB de datos procesados con Shuffle, solo tendrás que pagar por 7.5 TB, ya que los primeros 5 TB de ese volumen tienen un 50% de descuento.

Cómo ver la información de uso

Puedes ver el total de CPU virtuales, memoria y recursos de discos persistentes asociados con un trabajo en Google Cloud Platform Console o a través de la herramienta de línea de comandos de gcloud. Si deseas realizar un seguimiento de las métricas reales y cobrables de los datos procesados de transmisiones y con Shuffle, puedes hacerlo en la interfaz de Cloud Dataflow Monitoring. Puedes usar los datos reales procesados con Shuffle para evaluar el rendimiento de tu canalización y los datos procesados cobrables, a fin de determinar los costos del trabajo de Cloud Dataflow. Para los datos procesados de transmisiones, las métricas reales y cobrables son idénticas.

Calculadora de precios

Usa la calculadora de precios de Google Cloud Platform para comprender cómo se calcula tu factura.

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.