Precios de Dataproc Serverless
Los precios de Dataproc Serverless para Spark se basan en la cantidad de unidades de procesamiento de datos (DCUs), la cantidad de aceleradores usados y la cantidad de almacenamiento de mezcla usado. Los DCP, los aceleradores y el almacenamiento de Shuffle se facturan por segundo, con un cargo mínimo de 1 minuto para los DCP y el almacenamiento de Shuffle, y un cargo mínimo de 5 minutos para los aceleradores.
Cada CPU virtual de Dataproc cuenta como 0.6 DCU. La RAM se cobra de forma diferente por debajo y por encima de 8 GB. Cada gigabyte de RAM por debajo de 8 GB por CPU virtual se considera 0.1 DCU y cada gigabyte de RAM por encima de 8 GB por CPU virtual se considera 0.2 DCU. La memoria que usan los controladores y ejecutores de Spark, y el uso de memoria del sistema se cuentan como uso de DCU.
De forma predeterminada, cada carga de trabajo interactiva y por lotes de Dataproc Serverless para Spark consume un mínimo de 12 DCU durante la duración de la carga de trabajo: el controlador usa 4 CPU virtuales y 16 GB de RAM, y consume 4 DCU, y cada uno de los 2 ejecutores usa 4 CPU virtuales y 16 GB de RAM, y consume 4 DCU. Puedes personalizar la cantidad de CPU virtuales y la cantidad de memoria por CPU virtual con la configuración de las propiedades de Spark. No se aplican cargos adicionales de VM de Compute Engine ni de Persistent Disk.
Precios de las unidades de procesamiento de datos (DCU)
La tasa de DCU que se muestra a continuación es una tasa por hora. Se prorratea y se factura por segundo, con un cargo mínimo de 1 minuto.
La carga de trabajo interactiva de Dataproc Serverless para Spark se cobra a la tarifa de Premium.
Precios de almacenamiento de Shuffle
La tasa de almacenamiento de la mezcla que se muestra a continuación es una tasa mensual. Se prorratea y se factura por segundo, con un cargo mínimo de 1 minuto para el almacenamiento de Shuffle estándar y un cargo mínimo de 5 minutos para el almacenamiento de Shuffle Premium. El almacenamiento de mezcla premium solo se puede usar con la unidad de procesamiento premium.
Precios de los aceleradores
La tasa de aceleración que se muestra a continuación es una tasa por hora. Se prorratea y se factura por segundo, con un cargo mínimo de 5 minutos.
Ejemplo de precios
Si la carga de trabajo por lotes de Dataproc sin servidores para Spark se ejecuta con 12 DCU
(spark.driver.cores=4
,spark.executor.cores=4
,spark.executor.instances=2
)
durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de barajar, el cálculo del precio es el siguiente.
Total compute cost = 12 * 24 * $0.060000 = $17.28 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $17.28 + $0.03 = $17.31
Notas:
- En el ejemplo, se supone que el mes tiene 30 días. Dado que la duración de la carga de trabajo por lotes es de un día, la tasa de almacenamiento de barajado mensual se divide por 30.
Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCP y 2
GPU L4 (spark.driver.cores=4
,spark.executor.cores=4
,
spark.executor.instances=2
,spark.dataproc.driver.compute.tier=premium
,
spark.dataproc.executor.compute.tier=premium
,
spark.dataproc.executor.disk.tier=premium
,
spark.dataproc.executor.resource.accelerator.type=l4
) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de mezcla, el cálculo del precio
es el siguiente.
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.1/301) = $0.083 Total accelerator cost = 2 * 24 * $0.6720 = $48.39 ------------------------------------------------ Total cost = $25.632 + $0.083 + $48.39 = $74.105
Notas:
- En el ejemplo, se supone que el mes tiene 30 días. Dado que la duración de la carga de trabajo por lotes es de un día, la tasa de almacenamiento de barajado mensual se divide por 30.
Si la carga de trabajo interactiva de Dataproc Serverless para Spark se ejecuta con 12 DCU
(spark.driver.cores=4
,spark.executor.cores=4
,spark.executor.instances=2
)
durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de barajar, el cálculo del precio es el siguiente:
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $25.632 + $0.03 = $25.662
Notas:
- En el ejemplo, se supone que el mes tiene 30 días. Dado que la duración de la carga de trabajo por lotes es de un día, la tasa de almacenamiento de barajado mensual se divide por 30.
Ejemplo de estimación de precios
Cuando se completa una carga de trabajo por lotes, Dataproc sin servidores para Spark calcula
UsageMetrics,
que contiene una aproximación de los recursos de almacenamiento de DCU, acelerador y barajar
totales que consume la carga de trabajo completada. Después de ejecutar una carga de trabajo,
puedes ejecutar el comando gcloud dataproc batches describe BATCH_ID
para ver las métricas de uso de la carga de trabajo y estimar el costo de ejecutarla.
Ejemplo:
Dataproc Serverless para Spark ejecuta una carga de trabajo en un clúster efímero con
un nodo principal y dos trabajadores. Cada nodo consume 4 DCU (el valor predeterminado es 4 DCU por
núcleo; consulta spark.dataproc.driver.disk.size
)
y 400 GB de almacenamiento de shuffle (el valor predeterminado es 100 GB por núcleo; consulta
spark.driver.cores
).
El tiempo de ejecución de la carga de trabajo es de 60 segundos. Además, cada trabajador tiene 1 GPU para un total
de 2 en todo el clúster.
El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION
para obtener métricas de uso. El resultado del comando incluye el siguiente fragmento
(milliDcuSeconds
: 4 DCUs x 3 VMs x 60 seconds x 1000
=
720000
, milliAcceleratorSeconds
: 1 GPU x 2 VMs x 60 seconds x 1000
=
120000
y shuffleStorageGbSeconds
: 400GB x 3 VMs x 60 seconds
= 72000
):
runtimeInfo: approximateUsage: milliDcuSeconds: '720000' shuffleStorageGbSeconds: '72000' milliAcceleratorSeconds: '120000'
Uso de otros recursos de Google Cloud
De manera opcional, tu carga de trabajo de Dataproc Serverless para Spark puede usar los siguientes recursos, que se facturan según sus propios precios, incluidos los siguientes:
¿Qué sigue?
- Lee la documentación de Dataproc Serverless.
- Comienza a usar Dataproc Serverless.
- Prueba la calculadora de precios.