Precios de Dataproc Serverless

Los precios de Dataproc Serverless para Spark se basan en la cantidad de procesamiento de datos Unidades (DCU), la cantidad de aceleradores usados y la cantidad de almacenamiento aleatorio que se usan. Las DCU, los aceleradores y el almacenamiento aleatorio se facturan por segundo, con una Cargo mínimo de 1 minuto para el almacenamiento aleatorio y DCU, y un mínimo de 5 minutos cobra por los aceleradores.

Cada CPU virtual de Dataproc cuenta como 0.6 DCU. La RAM se carga de manera diferente por debajo y por encima de 8 GB. Cada gigabyte de RAM inferior a 8 GB por CPU virtual se cuenta como 0.1 DCU y cada gigabyte de RAM por encima de los 8 GB por CPU virtual cuenta como 0.2 DCU. Se cuentan la memoria que usan los controladores y ejecutores de Spark y el uso de memoria del sistema en cuanto al uso de DCU.

De forma predeterminada, cada carga de trabajo interactiva y por lotes de Dataproc sin servidores para Spark consume un mínimo de 12 DCUs durante la carga de trabajo: el controlador usa 4 CPU virtuales y 16 GB de RAM, y consume 4 DCU, cada uno de los 2 ejecutores usa 4 CPU virtuales y 16 GB de RAM, y consume 4 DCU. Puedes personalizar la cantidad de CPU virtuales y la cantidad de memoria por CPU virtual mediante la configuración Propiedades de Spark No se aplican cargos adicionales por VMs de Compute Engine ni por Persistent Disk.

Precios de las unidades de procesamiento de datos (DCU)

La tarifa de DCU que se muestra a continuación corresponde a una tarifa por hora. Se prorratea y se factura por segundo, con un cargo mínimo de 1 minuto. Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

La carga de trabajo interactiva de Dataproc Serverless para Spark se cobra a Premium.

Precios de almacenamiento de Shuffle

La tarifa de almacenamiento aleatorio que se muestra a continuación es una tarifa mensual. Se prorratea y de facturación por segundo, con un cargo mínimo de 1 minuto por Standard Shuffle y un cargo mínimo de 5 minutos por almacenamiento aleatorio Premium. Reproducción aleatoria premium el almacenamiento solo se puede usar con la unidad Premium de Compute.

Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

Precios del acelerador

La tarifa del acelerador que se muestra a continuación corresponde a una tarifa por hora. Se prorratea y se factura por segundo, con un cargo mínimo de 5 minutos. Si pagas en una moneda distinta del dólar estadounidense, los precios que aparecen en tu moneda en SKU de Cloud Platform aplicar. .

Ejemplo de precios

Si la carga de trabajo por lotes de Dataproc Serverless para Spark se ejecuta con 12 DCU (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) por 24 horas en la región us-central1 y consume 25 GB de almacenamiento de Shuffle, el el cálculo del precio es el siguiente.

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/301) = $0.03
------------------------------------------------
Total cost = $17.28 + $0.03 = $17.31

Notas:

  1. En este ejemplo, se supone que el mes tiene 30 días. Dado que la duración de la carga de trabajo por lotes es de uno día, la tarifa mensual de almacenamiento aleatorio se divide por 30.

Si la carga de trabajo por lotes Dataproc Serverless para Spark se ejecuta con 12 DCU y 2 GPU L4 (spark.driver.cores=4,spark.executor.cores=4, spark.executor.instances=2, spark.dataproc.driver.compute.tier=premium spark.dataproc.executor.compute.tier=premium, spark.dataproc.executor.disk.tier=premium, spark.dataproc.executor.resource.accelerator.type=l4) durante 24 horas en el us-central1 y consume 25 GB de almacenamiento en Shuffle, lo que permite calcular el precio es la siguiente.

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/301) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Notas:

  1. En este ejemplo, se supone que el mes tiene 30 días. Dado que la duración de la carga de trabajo por lotes es de uno día, la tarifa mensual de almacenamiento aleatorio se divide por 30.

Si la carga de trabajo interactiva de Dataproc Serverless para Spark se ejecuta con 12 DCU (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) por 24 horas en la región us-central1 y consume 25 GB de almacenamiento de Shuffle, el el cálculo del precio es el siguiente:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/301) = $0.03
------------------------------------------------
Total cost = $25.632 + $0.03 = $25.662

Notas:

  1. En este ejemplo, se supone que el mes tiene 30 días. Dado que la duración de la carga de trabajo por lotes es de uno día, la tarifa mensual de almacenamiento aleatorio se divide por 30.

Ejemplo de estimación de precios

Cuando se completa una carga de trabajo por lotes, Dataproc Serverless para Spark calcula UsageMetrics, que contienen una aproximación del total de DCU, acelerador y Shuffle de almacenamiento que consume la carga de trabajo completada. Después de ejecutar una carga de trabajo, puedes ejecutar gcloud dataproc batches describe BATCH_ID para ver las métricas de uso de las cargas de trabajo y ayudarte a estimar el costo de la ejecución la carga de trabajo.

Ejemplo:

Dataproc Serverless para Spark ejecuta una carga de trabajo en un clúster efímero con uno principal y dos trabajadores. Cada nodo consume 4 DCU (el valor predeterminado es 4 DCU por principal, consulta spark.dataproc.driver.disk.size) y 400 GB de almacenamiento aleatorio (el valor predeterminado es 100 GB por núcleo; consulta spark.driver.cores). El tiempo de ejecución de la carga de trabajo es de 60 segundos. Además, cada trabajador tiene 1 GPU en total de 2 en todo el clúster.

El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION. para obtener métricas de uso. El resultado del comando incluye el siguiente fragmento (milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 = 720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 = 120000 y shuffleStorageGbSeconds: 400GB x 3 VMs x 60 seconds = 72000):

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Uso de otros recursos de Google Cloud

Tu carga de trabajo de Dataproc Serverless para Spark puede usar los siguientes recursos, cada uno facturado según sus propios precios, incluidos, sin limitaciones, los siguientes:

¿Qué sigue?

Solicita una cotización personalizada

Con los precios de pago por uso de Google Cloud, solo pagas por los servicios que usas. Comunícate con nuestro equipo de Ventas y obtén una cotización personalizada para tu organización.
Comunicarse con Ventas