Cuando habilitas el almacenamiento en caché del clúster de Dataproc, el clúster almacena en caché los datos de Cloud Storage a los que acceden con frecuencia tus trabajos de Spark.
Beneficios
- Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento de las tareas, ya que reduce la cantidad de tiempo que se dedica a recuperar datos del almacenamiento.
- Reducción de costos de almacenamiento: Debido a que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API al almacenamiento para recuperar datos.
Limitaciones y requisitos
- El almacenamiento en caché solo se aplica a los trabajos de Spark de Dataproc.
- Solo los datos de Cloud Storage se almacenan en caché.
- La caché solo se aplica a los clústeres que cumplen con los siguientes requisitos:
- El clúster tiene una instancia principal y
n
trabajadores No se admiten los clústeres de alta disponibilidad (HA) ni de nodo único. - Esta función está disponible en Dataproc en Compute Engine.
versiones de imágenes
2.0.72+ or 2.1.20+
- Cada nodo del clúster debe tener SSD locales que se adjunta con el NVME (Memoria exprés no volátil) (discos persistentes [PD] no son compatibles). Los datos solo se almacenan en caché en SSDs locales NVME.
- El clúster usa el cuenta de servicio de VM predeterminada para la autenticación. Cuentas de servicio de VM personalizadas no son compatibles.
- El clúster tiene una instancia principal y
Habilitar el almacenamiento en caché del clúster
Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Dataproc con la consola de Google Cloud, Google Cloud CLI o la API de Dataproc.
Consola de Google Cloud
- Abre la página de Dataproc Crea un clúster en Compute Engine en la consola de Google Cloud.
- Se selecciona el panel Configura clúster. En la sección Spark performance enhancements, selecciona Enable Google Cloud Storage caching.
- Después de confirmar y especificar los detalles del clúster, crea los paneles. Haz clic en Crear.
gcloud CLI
Ejecuta el comando gcloud dataproc clusters create
de forma local en una ventana de terminal o en
Cloud Shell
usando el dataproc:dataproc.cluster.caching.enabled=true
propiedad del clúster.
Ejemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API de REST
Configura SoftwareConfig.properties.
para incluir "dataproc:dataproc.cluster.caching.enabled": "true"
propiedad del clúster
como parte de una
clusters.create
para cada solicitud.