Precios de Dataproc Serverless

Dataproc | Dataproc Serverless | Dataproc Metastore

Los precios de Dataproc Serverless para Spark se basan en el número de unidades de computación de datos (DCU), el número de aceleradores utilizados y la cantidad de almacenamiento de shuffle utilizada. Las DCUs, las aceleradoras y el almacenamiento Shuffle se facturan por segundo, con un cargo mínimo de 1 minuto para las DCUs y el almacenamiento Shuffle, y un cargo mínimo de 5 minutos para las aceleradoras.

Cada vCPU de Dataproc cuenta como 0,6 DCU. La RAM se cobra de forma diferente por debajo y por encima de 8 GB. Cada gigabyte de RAM por debajo de 8 GB por vCPU se considera 0,1 DCU, y cada gigabyte de RAM por encima de 8 GB por vCPU se considera 0,2 DCU. La memoria que usan los controladores y ejecutores de Spark, así como el uso de memoria del sistema, se tienen en cuenta a la hora de calcular el uso de DCU.

De forma predeterminada, cada trabajo por lotes e interactivo de Dataproc Serverless para Spark consume un mínimo de 12 DCUs durante la duración del trabajo: el controlador usa 4 vCPUs y 16 GB de RAM y consume 4 DCUs, y cada uno de los 2 ejecutores usa 4 vCPUs y 16 GB de RAM y consume 4 DCUs. Puedes personalizar el número de vCPUs y la cantidad de memoria por vCPU definiendo las propiedades de Spark. No se aplican cargos adicionales por las máquinas virtuales de Compute Engine ni por los discos persistentes.

Precios de las unidades de computación de datos (DCU)

La tarifa de DCU que se muestra a continuación es una tarifa por horas. Se prorratea y factura según segundo, con una carga mínima de un minuto. Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

La carga de trabajo interactiva de Dataproc Serverless para Spark se factura como Premium.

Precios de almacenamiento de Shuffle

La tarifa de almacenamiento de Shuffle que se muestra a continuación es una tarifa mensual. Se prorratea y factura según segundo, con una carga mínima de un minuto para el almacenamiento aleatorio estándar y de cinco minutos para el almacenamiento aleatorio Premium. El almacenamiento premium de Shuffle solo se puede usar con la unidad de computación premium.

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Precios de Acelerador

La frecuencia del acelerador que se muestra a continuación es una tarifa por horas. Se prorratea y factura según con una carga mínima de 5 minutos. Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Ejemplo de precios

Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCUs (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de shuffle, el cálculo del precio es el siguiente.

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $17.28 + $0.03 = $17.31

Notas:

En este ejemplo, se supone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la cuota mensual de almacenamiento de Shuffle se divide entre 30.

Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCUs y 2 GPUs L4 (spark.driver.cores=4,spark.executor.cores=4, spark.executor.instances=2,spark.dataproc.driver.compute.tier=premium, spark.dataproc.executor.compute.tier=premium, spark.dataproc.executor.disk.tier=premium, spark.dataproc.executor.resource.accelerator.type=l4) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de shuffle, el cálculo de precios es el siguiente.

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/30¹) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Notas:

En este ejemplo, se supone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la cuota mensual de almacenamiento de Shuffle se divide entre 30.

Si la carga de trabajo interactiva de Dataproc Serverless para Spark se ejecuta con 12 DCUs (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) durante 24 horas en la zona central1 (EE. UU.) y consume 25 GB de almacenamiento de shuffle, el cálculo del precio es el siguiente:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $25.632 + $0.03 = $25.662

Notas:

En este ejemplo, se supone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la cuota mensual de almacenamiento de Shuffle se divide entre 30.

Ejemplo de estimación de precios

Cuando se completa una carga de trabajo por lotes, Dataproc Serverless para Spark calcula las UsageMetrics, que contienen una aproximación del total de recursos de almacenamiento, aceleración y shuffle de DCU que ha consumido la carga de trabajo completada. Después de ejecutar una carga de trabajo, puedes ejecutar el comando gcloud dataproc batches describe BATCH_ID para ver las métricas de uso de la carga de trabajo y así estimar el coste de ejecutarla.

Ejemplo:

Dataproc Serverless para Spark ejecuta una carga de trabajo en un clúster efímero con un nodo maestro y dos nodos de trabajo. Cada nodo consume 4 DCUs (el valor predeterminado es 4 DCUs por núcleo; consulta spark.dataproc.driver.disk.size) y 400 GB de almacenamiento Shuffle (el valor predeterminado es 100 GB por núcleo; consulta spark.driver.cores). El tiempo de ejecución de la carga de trabajo es de 60 segundos. Además, cada trabajador tiene una GPU, por lo que el clúster tiene un total de 2.

El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION para obtener métricas de uso. La salida del comando incluye el siguiente fragmento (milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 = 720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 = 120000 y shuffleStorageGbSeconds: 400GB x 3 VMs x 60 seconds = 72000):

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Uso de otros recursos de Google Cloud

Tu carga de trabajo de Dataproc Serverless para Spark puede utilizar, de forma opcional, los siguientes recursos (cada uno de los cuales cuenta con sus propios precios):

Siguientes pasos

Lee la documentación de Dataproc Serverless.
Empieza a usar Dataproc Serverless.
Prueba la calculadora de precios.

Solicitar un presupuesto personalizado

Gracias al modelo de pago por uso de Google Cloud, solo pagas por los servicios que usas. Ponte en contacto con nuestro equipo de Ventas para solicitar un presupuesto personalizado para tu empresa.

Contactar con Ventas