Cuando habilitas el almacenamiento en caché del clúster de Dataproc, el clúster almacena en caché los datos de Cloud Storage a los que acceden tus trabajos de Spark con frecuencia.
Ventajas
- Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento del trabajo, ya que reduce la cantidad de tiempo dedicado a recuperar datos del almacenamiento.
- Reducción de costos de almacenamiento: Debido a que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API al almacenamiento para recuperar datos.
Limitaciones y requisitos
- El almacenamiento en caché se aplica solo a los trabajos de Spark de Dataproc.
- Solo se almacenan en caché los datos de Cloud Storage.
- El almacenamiento en caché solo se aplica a los clústeres que cumplen con los siguientes requisitos:
- El clúster tiene una instancia principal y
n
trabajadores (no se admiten clústeres de alta disponibilidad [HA] y de nodo único). - Esta función está disponible en las versiones con imágenes
2.0.72+ or 2.1.20+
de Dataproc en Compute Engine. - Cada nodo del clúster debe tener SSD locales conectados a la interfaz NVME (Memoria exprés no volátil) (los discos persistentes [PD] no son compatibles). Los datos se almacenan en caché solo en las SSD locales NVME.
- El clúster usa la cuenta de servicio de VM predeterminada para la autenticación. No se admiten las cuentas de servicio de VM personalizadas.
- El clúster tiene una instancia principal y
Habilitar el almacenamiento en caché del clúster
Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Dataproc con la consola de Google Cloud, Google Cloud CLI o la API de Dataproc.
Consola de Google Cloud
- Abre la página Create a cluster on Compute Engine de Dataproc en la consola de Google Cloud.
- Se selecciona el panel Configurar clúster. En la sección Mejoras de rendimiento de Spark, selecciona Habilitar el almacenamiento en caché en Google Cloud Storage.
- Después de confirmar y especificar los detalles del clúster en los paneles de creación de clústeres, haz clic en Crear.
gcloud CLI
Ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de terminal o en Cloud Shell mediante la propiedad del clúster dataproc:dataproc.cluster.caching.enabled=true
.
Ejemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API de REST
Configura SoftwareConfig.properties para incluir la propiedad del clúster "dataproc:dataproc.cluster.caching.enabled": "true"
como parte de una solicitud clusters.create.