Precios de Dataproc Serverless

Dataproc | Dataproc sin servidores | Dataproc Metastore

Los precios de Dataproc Serverless para Spark se basan en la cantidad de unidades de procesamiento de datos (DCU), la cantidad de aceleradores usados y la cantidad de almacenamiento aleatorio usado. Las DCU, los aceleradores y el almacenamiento de Shuffle se facturan por segundo, con un cargo mínimo de 1 minuto para las DCU y el almacenamiento de Shuffle, y un cargo mínimo de 5 minutos para los aceleradores.

Cada CPU virtual de Dataproc cuenta como 0.6 DCU. La carga de la RAM es diferente si es inferior o superior a 8 GB. Cada gigabyte de RAM por debajo de 8 gigabyte por CPU virtual cuenta como 0.1 DCU y cada gigabyte de RAM por encima de 8 gigabytes por CPU virtual cuenta como 0.2 DCU. La memoria que usan los controladores y ejecutores de Spark y el uso de memoria del sistema se cuentan en el uso de DCU.

De forma predeterminada, cada lote de Dataproc Serverless para Spark y carga de trabajo interactiva consume un mínimo de 12 DCU durante la carga de trabajo: el controlador usa 4 CPU virtuales y 16 GB de RAM y consume 4 DCU, y cada uno de los 2 ejecutores usa 4 CPU virtuales y 16 GB de RAM y consume 4 DCU. Puedes personalizar la cantidad de CPU virtuales y de memoria por CPU virtual si configuras las propiedades de Spark. No se aplican cargos adicionales de VMs de Compute Engine ni de Persistent Disk.

Precios de las unidades de procesamiento de datos (DCU)

La tarifa de DCU que se muestra a continuación es una tarifa por hora. Se prorratea y factura por segundo, con un cargo mínimo de 1 minuto si se usa Shuffle estándar y un cargo mínimo de 5 minutos si se usa el almacenamiento aleatorio Premium. Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

La carga de trabajo interactiva de Dataproc Serverless para Spark se cobra con Premium.

Precios de almacenamiento aleatorio

La tarifa de almacenamiento aleatorio que se muestra a continuación es una tarifa mensual. Se prorratea y factura por segundo, con un cargo mínimo de 1 minuto por el almacenamiento aleatorio estándar y un cargo mínimo de 5 minutos por el almacenamiento aleatorio de Premium. El almacenamiento aleatorio premium solo se puede usar con la unidad de procesamiento premium.

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

Precios de aceleradores

La tarifa del acelerador que se muestra a continuación es una por hora. Se prorratea y factura por segundo, con un cargo mínimo de 5 minutos. Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

Ejemplo de precios

Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCU (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento aleatorio, el cálculo del precio es el siguiente.

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $17.28 + $0.03 = $17.31

Notas:

En el ejemplo, se supone que el mes corresponde a 30 días. Como la duración de la carga de trabajo por lotes es de un día, la tarifa de almacenamiento aleatorio mensual se divide por 30.

Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCU y 2 GPU L4 (spark.driver.cores=4,spark.executor.cores=4, spark.executor.instances=2,spark.dataproc.driver.compute.tier=premium, spark.dataproc.executor.compute.tier=premium, spark.dataproc.executor.disk.tier=premium, spark.dataproc.executor.resource.accelerator.type=l4) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento aleatorio, el cálculo del precio se calcula de la siguiente manera:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/30¹) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Notas:

En el ejemplo, se supone que el mes corresponde a 30 días. Como la duración de la carga de trabajo por lotes es de un día, la tarifa de almacenamiento aleatorio mensual se divide por 30.

Si la carga de trabajo interactiva de Dataproc Serverless para Spark se ejecuta con 12 DCU (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento aleatorio, el cálculo del precio se calcula de la siguiente manera:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $25.632 + $0.03 = $25.662

Notas:

En el ejemplo, se supone que el mes corresponde a 30 días. Como la duración de la carga de trabajo por lotes es de un día, la tarifa de almacenamiento aleatorio mensual se divide por 30.

Ejemplo de estimación de precios

Cuando se completa una carga de trabajo por lotes, Dataproc Serverless para Spark calcula UsageMetrics, que contiene una aproximación de los recursos totales de DCU, acelerador y almacenamiento aleatorio que consume la carga de trabajo completada. Después de ejecutar una carga de trabajo, puedes ejecutar el comando gcloud dataproc batches describe BATCH_ID para ver las métricas de uso de la carga de trabajo que te ayudarán a estimar el costo de ejecución de la carga de trabajo.

Ejemplo:

Dataproc Serverless para Spark ejecuta una carga de trabajo en un clúster efímero con una instancia principal y dos trabajadores. Cada nodo consume 4 DCU (el valor predeterminado es 4 DCU por núcleo, consulta spark.dataproc.driver.disk.size) y 400 GB de almacenamiento aleatorio (el valor predeterminado es 100 GB por núcleo; consulta spark.driver.cores). El tiempo de ejecución de la carga de trabajo es de 60 segundos. Además, cada trabajador tiene 1 GPU para un total de 2 en todo el clúster.

El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION para obtener métricas de uso. El resultado del comando incluye el siguiente fragmento (milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 = 720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 = 120000 y shuffleStorageGbSeconds: 400GB x 3 VMs x 60 seconds = 72000):

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Uso de otros recursos de Google Cloud

De manera opcional, tu carga de trabajo de Dataproc Serverless para Spark puede usar los siguientes recursos, que se facturan según sus propios precios, incluidos, sin limitaciones, los siguientes:

¿Qué sigue?

Lee la documentación de Dataproc Serverless.
Comienza a usar Dataproc sin servidores.
Prueba la calculadora de precios.

Solicita una cotización personalizada

Con los precios de “pago por uso” de Google Cloud, solo pagas por los servicios que usas. Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para tu organización.

Comunicarse con Ventas