Precios de Dataproc
- Precios de Dataproc en Compute Engine
- Precios de Dataproc en GKE
- Precios de Serverless para Apache Spark
Precios de Dataproc en Compute Engine
Los precios de Dataproc en Compute Engine se basan en el tamaño de los clústeres de Dataproc y en el tiempo durante el que se ejecutan. El tamaño de un clúster se basa en el número total de CPU virtuales (vCPUs) de todo el clúster, incluidos el nodo maestro y los de trabajador. La duración del clúster es el tiempo comprendido entre su creación y su detención o eliminación.
Los precios de Dataproc se calculan según esta fórmula: $0.010 * # of vCPUs * hourly duration.
Aunque en la fórmula figura una tarifa por hora, en Dataproc se aplica la facturación por segundo. Todos los clústeres de este servicio se cobran en incrementos de un segundo y están sujetos a un cobro mínimo de un minuto. El uso se determina en horas fraccionarias (por ejemplo, 30 minutos son 0,5 horas) para poder aplicar los precios por hora al uso por segundo.
Los precios de Dataproc se suman al precio por instancia de Compute Engine de cada máquina virtual (consulta la sección Uso de otros recursos de Google Cloud).
Cargos acumulados
Las siguientes operaciones y situaciones de Dataproc generan cargos:
Escalado y autoescalado: cuando se añaden máquinas virtuales al clúster, se acumulan cargos mientras las máquinas virtuales están activas. Estos cargos acumulados se mantienen hasta que se eliminan las máquinas virtuales.
Clústeres en estado de error: cuando un clúster de Dataproc está en estado de error, las máquinas virtuales del clúster permanecen activas y se siguen acumulando cargos. Estos cargos acumulados se mantienen hasta que se elimina el clúster.
Ejemplo de precios
Imagina un clúster (con un nodo maestro y nodos de trabajador) que tiene la siguiente configuración:
| Elemento | Tipo de máquina | CPU virtuales | Disco persistente conectado | Número de nodos en el clúster |
|---|---|---|---|---|
| Nodo maestro | n1‑standard‑4 | 4 | 500 GB | 1 |
| Nodos de trabajador | n1‑standard‑4 | 4 | 500 GB | 5 |
Este clúster de Dataproc tiene 24 CPU virtuales, 4 para el nodo maestro y 20 distribuidas entre los nodos de trabajador. En la facturación de Dataproc, el precio del clúster se basaría en las 24 CPU virtuales y en el tiempo que ha estado ejecutándose (eso es, suponiendo que ningún nodo se ha escalado en horizontal ni se ha interrumpido temporalmente). Por lo tanto, si el clúster se ejecuta durante 2 horas, los precios de Dataproc se calcularían según esta fórmula:
Dataproc charge = # of vCPUs * hours * Dataproc price = 24 * 2 * $0.01 = $0.48
En este ejemplo, además de los cargos de Dataproc, se cobrarían también el uso de Compute Engine y el espacio aprovisionado de un disco persistente estándar (consulta la sección Uso de otros Google Cloud recursos). Se puede utilizar la calculadora de facturación para determinar los costes de los recursos Google Cloud por separado.
Uso de otros recursos de Google Cloud
Como Dataproc es una solución gestionada e integrada, se ha creado a partir de otras tecnologías de Google Cloud. Los clústeres de Dataproc consumen los siguientes recursos (cada uno con su propio precio):
- Compute Engine: todas las instancias de Compute Engine de un clúster de Dataproc tienen una tarifa mínima de un minuto y se facturan en incrementos de un segundo. Además, se aplican reglas de precios por compromiso de uso.
- Espacio aprovisionado de un disco persistente estándar.
- Cloud Monitoring: consulta la página de precios de observabilidad de Google Cloud.
Los clústeres de Dataproc también pueden utilizar, entre otros, los siguientes recursos (cada uno con su propio precio):
Precios de Dataproc en GKE
En esta sección se explican los cargos que se aplican solo al clúster de Dataproc virtual que se ejecuta en un clúster de GKE gestionado por el usuario. Consulta los precios de GKE para obtener más información sobre los cargos adicionales que se aplican al clúster de GKE gestionado por el usuario.
La fórmula de precios de Dataproc en GKE, $0.010 * # of vCPUs * hourly duration, es la misma que la de Dataproc en Compute Engine y se aplica al número total de CPUs virtuales que se ejecutan en instancias de máquinas virtuales en pools de nodos creados por Dataproc en el clúster. La duración de una instancia de máquina virtual es el tiempo que transcurre desde su creación hasta su eliminación. Al igual que Dataproc en Compute Engine, Dataproc en GKE se factura por segundo, con un cobro mínimo de 1 minuto por instancia de máquina virtual. Otros Google Cloud cargos
se aplican además de los cargos de Dataproc.
Los grupos de nodos creados por Dataproc siguen existiendo después de eliminar el clúster de Dataproc, ya que pueden compartirse entre varios clústeres. Si eliminas los grupos de nodos o reduces el número de instancias de los grupos de nodos a cero, no se te cobrará por el uso de Dataproc. Se te seguirán cobrando las VMs de los grupos de nodos que queden hasta que las elimines.
Precios de Serverless para Apache Spark
Consulta los precios de Serverless para Apache Spark.
Siguientes pasos
- Lee la documentación de Dataproc.
- Empieza a utilizar Dataproc.
- Prueba la calculadora de precios.
- Obtén más información sobre las soluciones y los casos prácticos de Dataproc.