Precios de Dataproc sin servidor
Los precios de Dataproc sin servidor para Spark se basan en la cantidad de recursos de computación de datos Unidades (DCUs), el número de aceleradores utilizados y la cantidad de almacenamiento aleatorio utilizado. Las DCUs, los aceleradores y el almacenamiento aleatorio se facturan por segundo, con un Carga mínima de 1 minuto para DCUs y almacenamiento aleatorio, y un mínimo de 5 minutos a pagar por los aceleradores.
Cada vCPU de Dataproc cuenta como 0,6 DCU. La RAM se carga de otra forma por debajo o por encima de 8 GB. Cada gigabyte de RAM por debajo de 8 GB por vCPU se contabiliza como 0,1 DCU, y cada gigabyte de RAM por encima de 8 GB por vCPU cuenta como 0,2 DCU. Se contabiliza la memoria utilizada por los controladores y ejecutores de Spark, así como el uso de memoria del sistema. para el uso de DCU.
De forma predeterminada, las cargas de trabajo interactivas y por lotes de Dataproc Serverless para Spark consume un mínimo de 12 DCUs mientras dura la carga de trabajo: el controlador utiliza 4 vCPUs y 16 GB de RAM, y utiliza 4 DCUs y cada uno de los dos ejecutores utiliza 4 vCPUs y 16 GB de RAM, y consume 4 DCUs. Puedes personalizar el número de vCPUs y la cantidad de memoria por vCPU al configurar Propiedades de Spark. No se aplican cargos adicionales por las máquinas virtuales de Compute Engine ni los discos persistentes.
Precios de las unidades de computación de datos (DCU)
La tarifa de DCU que se muestra a continuación es una tarifa por horas. Se prorratea y factura según
segundo, con una carga mínima de un minuto.
El modelo sin servidor de Dataproc para las cargas de trabajo interactivas de Spark se cobra por el servicio Premium.
Precios de almacenamiento de Shuffle
La tasa de almacenamiento aleatorio que se muestra a continuación es una tarifa mensual. Se trata de un coste prorrateado y se factura por segundo, con un cargo mínimo de 1 minuto por el almacenamiento estándar de reproducción aleatoria y un cargo mínimo de 5 minutos por el almacenamiento aleatorio premium. Reproducción aleatoria premium de almacenamiento solo se puede usar con la unidad de computación premium.
Precios de Accelerator
La frecuencia del acelerador que se muestra a continuación es una tarifa por horas. Se prorratea y factura según
con una carga mínima de 5 minutos.
Ejemplo de precios
Si la carga de trabajo por lotes de Dataproc sin servidor para Spark se ejecuta con 12 DCUs
(spark.driver.cores=4
, spark.executor.cores=4
y spark.executor.instances=2
)
durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento aleatorio, el
A continuación se muestra el cálculo de precios.
Total compute cost = 12 * 24 * $0.060000 = $17.28 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $17.28 + $0.03 = $17.31
Notas:
- En el ejemplo se supone un mes de 30 días. Dado que la duración de la carga de trabajo por lotes es de uno día, la tarifa de almacenamiento aleatorio se divide entre 30.
Si la carga de trabajo por lotes de Dataproc sin servidor para Spark se ejecuta con 12 DCUs y 2
GPUs L4 (spark.driver.cores=4
,spark.executor.cores=4
,
spark.executor.instances=2
,spark.dataproc.driver.compute.tier=premium
,
spark.dataproc.executor.compute.tier=premium
,
spark.dataproc.executor.disk.tier=premium
,
spark.dataproc.executor.resource.accelerator.type=l4
) durante 24 horas en el
región us-central1 y consume 25 GB de almacenamiento aleatorio, el cálculo del precio
es la siguiente:
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.1/301) = $0.083 Total accelerator cost = 2 * 24 * $0.6720 = $48.39 ------------------------------------------------ Total cost = $25.632 + $0.083 + $48.39 = $74.105
Notas:
- En el ejemplo se supone un mes de 30 días. Dado que la duración de la carga de trabajo por lotes es de uno día, la tarifa de almacenamiento aleatorio se divide entre 30.
Si la carga de trabajo interactiva de Dataproc sin servidor para Spark se ejecuta con 12 DCUs
(spark.driver.cores=4
, spark.executor.cores=4
y spark.executor.instances=2
)
durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento aleatorio, el
El cálculo de precios es el siguiente:
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $25.632 + $0.03 = $25.662
Notas:
- En el ejemplo se supone un mes de 30 días. Dado que la duración de la carga de trabajo por lotes es de uno día, la tarifa de almacenamiento aleatorio se divide entre 30.
Ejemplo de estimación de precios
Cuando se completa una carga de trabajo por lotes, se calcula el valor de Dataproc Serverless para Spark
UsageMetrics y
que contienen una aproximación de las DCUs totales, el acelerador y las operaciones aleatorias
de almacenamiento consumidos por la carga de trabajo completada. Después de ejecutar una carga de trabajo,
puedes ejecutar la gcloud dataproc batches describe BATCH_ID
para ver las métricas de uso de las cargas de trabajo que te ayudarán a estimar el coste de ejecutar
la carga de trabajo.
Ejemplo:
Dataproc sin servidor para Spark ejecuta una carga de trabajo en un clúster efímero con
un maestro y dos trabajadores. Cada nodo consume 4 DCUs (el valor predeterminado es de 4 DCUs por
principal, consulta spark.dataproc.driver.disk.size
).
y 400 GB de almacenamiento en modo aleatorio
(el valor predeterminado es 100 GB por núcleo; consulta
spark.driver.cores
).
La carga de trabajo tiene un tiempo de ejecución de 60 segundos. Además, cada trabajador tiene una GPU, lo que supone un total de
de 2 en el clúster.
El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION
para obtener métricas de uso. El resultado de los comandos incluye el siguiente fragmento
(milliDcuSeconds
: 4 DCUs x 3 VMs x 60 seconds x 1000
=
720000
, milliAcceleratorSeconds
: 1 GPU x 2 VMs x 60 seconds x 1000
=
120000
y shuffleStorageGbSeconds
: 400GB x 3 VMs x 60 seconds
= 72000
):
runtimeInfo: approximateUsage: milliDcuSeconds: '720000' shuffleStorageGbSeconds: '72000' milliAcceleratorSeconds: '120000'
Uso de otros recursos de Google Cloud
Si lo prefieres, tus cargas de trabajo de Dataproc sin servidor para Spark pueden usar la recursos siguientes, cada uno con su propio precio, entre los que se incluyen:
Siguientes pasos
- Lee la documentación de Dataproc Serverless.
- Comienza a usar Dataproc Serverless.
- Prueba la calculadora de precios.