Precios de Dataproc Serverless
Los precios de Dataproc Serverless para Spark se basan en el número de unidades de computación de datos (DCU), el número de aceleradores utilizados y la cantidad de almacenamiento de shuffle utilizada. Las DCUs, las aceleradoras y el almacenamiento Shuffle se facturan por segundo, con un cargo mínimo de 1 minuto para las DCUs y el almacenamiento Shuffle, y un cargo mínimo de 5 minutos para las aceleradoras.
Cada vCPU de Dataproc cuenta como 0,6 DCU. La RAM se cobra de forma diferente por debajo y por encima de 8 GB. Cada gigabyte de RAM por debajo de 8 GB por vCPU se considera 0,1 DCU, y cada gigabyte de RAM por encima de 8 GB por vCPU se considera 0,2 DCU. La memoria que usan los controladores y ejecutores de Spark, así como el uso de memoria del sistema, se tienen en cuenta a la hora de calcular el uso de DCU.
De forma predeterminada, cada trabajo por lotes e interactivo de Dataproc Serverless para Spark consume un mínimo de 12 DCUs durante la duración del trabajo: el controlador usa 4 vCPUs y 16 GB de RAM y consume 4 DCUs, y cada uno de los 2 ejecutores usa 4 vCPUs y 16 GB de RAM y consume 4 DCUs. Puedes personalizar el número de vCPUs y la cantidad de memoria por vCPU definiendo las propiedades de Spark. No se aplican cargos adicionales por las máquinas virtuales de Compute Engine ni por los discos persistentes.
Precios de las unidades de computación de datos (DCU)
La tarifa de DCU que se muestra a continuación es una tarifa por horas. Se prorratea y factura según
segundo, con una carga mínima de un minuto.
La carga de trabajo interactiva de Dataproc Serverless para Spark se factura como Premium.
Precios de almacenamiento de Shuffle
La tarifa de almacenamiento de Shuffle que se muestra a continuación es una tarifa mensual. Se prorratea y factura según segundo, con una carga mínima de un minuto para el almacenamiento aleatorio estándar y de cinco minutos para el almacenamiento aleatorio Premium. El almacenamiento premium de Shuffle solo se puede usar con la unidad de computación premium.
Precios de Acelerador
La frecuencia del acelerador que se muestra a continuación es una tarifa por horas. Se prorratea y factura según
con una carga mínima de 5 minutos.
Ejemplo de precios
Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCUs
(spark.driver.cores=4
,spark.executor.cores=4
,spark.executor.instances=2
)
durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de shuffle, el cálculo del precio es el siguiente.
Total compute cost = 12 * 24 * $0.060000 = $17.28 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $17.28 + $0.03 = $17.31
Notas:
- En este ejemplo, se supone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la cuota mensual de almacenamiento de Shuffle se divide entre 30.
Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCUs y 2
GPUs L4 (spark.driver.cores=4
,spark.executor.cores=4
,
spark.executor.instances=2
,spark.dataproc.driver.compute.tier=premium
,
spark.dataproc.executor.compute.tier=premium
,
spark.dataproc.executor.disk.tier=premium
,
spark.dataproc.executor.resource.accelerator.type=l4
) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de shuffle, el cálculo de precios
es el siguiente.
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.1/301) = $0.083 Total accelerator cost = 2 * 24 * $0.6720 = $48.39 ------------------------------------------------ Total cost = $25.632 + $0.083 + $48.39 = $74.105
Notas:
- En este ejemplo, se supone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la cuota mensual de almacenamiento de Shuffle se divide entre 30.
Si la carga de trabajo interactiva de Dataproc Serverless para Spark se ejecuta con 12 DCUs
(spark.driver.cores=4
,spark.executor.cores=4
,spark.executor.instances=2
)
durante 24 horas en la zona central1 (EE. UU.) y consume 25 GB de almacenamiento de shuffle, el
cálculo del precio es el siguiente:
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $25.632 + $0.03 = $25.662
Notas:
- En este ejemplo, se supone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la cuota mensual de almacenamiento de Shuffle se divide entre 30.
Ejemplo de estimación de precios
Cuando se completa una carga de trabajo por lotes, Dataproc Serverless para Spark calcula las UsageMetrics, que contienen una aproximación del total de recursos de almacenamiento, aceleración y shuffle de DCU que ha consumido la carga de trabajo completada. Después de ejecutar una carga de trabajo,
puedes ejecutar el comando gcloud dataproc batches describe BATCH_ID
para ver las métricas de uso de la carga de trabajo y así estimar el coste de ejecutarla.
Ejemplo:
Dataproc Serverless para Spark ejecuta una carga de trabajo en un clúster efímero con un nodo maestro y dos nodos de trabajo. Cada nodo consume 4 DCUs (el valor predeterminado es 4 DCUs por
núcleo; consulta spark.dataproc.driver.disk.size
) y 400 GB de almacenamiento Shuffle (el valor predeterminado es 100 GB por núcleo; consulta
spark.driver.cores
).
El tiempo de ejecución de la carga de trabajo es de 60 segundos. Además, cada trabajador tiene una GPU, por lo que el clúster tiene un total de 2.
El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION
para obtener métricas de uso. La salida del comando incluye el siguiente fragmento
(milliDcuSeconds
: 4 DCUs x 3 VMs x 60 seconds x 1000
=
720000
, milliAcceleratorSeconds
: 1 GPU x 2 VMs x 60 seconds x 1000
=
120000
y shuffleStorageGbSeconds
: 400GB x 3 VMs x 60 seconds
= 72000
):
runtimeInfo: approximateUsage: milliDcuSeconds: '720000' shuffleStorageGbSeconds: '72000' milliAcceleratorSeconds: '120000'
Uso de otros recursos de Google Cloud
Tu carga de trabajo de Dataproc Serverless para Spark puede utilizar, de forma opcional, los siguientes recursos (cada uno de los cuales cuenta con sus propios precios):
Siguientes pasos
- Lee la documentación de Dataproc Serverless.
- Empieza a usar Dataproc Serverless.
- Prueba la calculadora de precios.