Almacenamiento en caché del clúster

Cuando habilitas el almacenamiento en caché del clúster de Dataproc, el clúster almacena en caché Datos de Cloud Storage a los que acceden tus trabajos de Spark con frecuencia.

Ventajas

  • Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento del trabajo reduciendo la cantidad. de tiempo dedicado a recuperar datos del almacenamiento.
  • Reducción de costos de almacenamiento: Debido a que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API al almacenamiento para recuperar datos.

Limitaciones y requisitos

Habilitar el almacenamiento en caché del clúster

Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Dataproc con la consola de Google Cloud, Google Cloud CLI o la API de Dataproc.

Consola de Google Cloud

  • Abre el panel de Dataproc. Crea un clúster en Compute Engine en la consola de Google Cloud.
  • Se selecciona el panel Configurar clúster. En la Mejoras en el rendimiento de Spark, selecciona Habilita el almacenamiento en caché de Google Cloud Storage.
  • Después de confirmar y especificar los detalles del clúster, crea los paneles. Haz clic en Crear.

gcloud CLI

Ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de terminal o en Cloud Shell usando el dataproc:dataproc.cluster.caching.enabled=true propiedad del clúster.

Ejemplo:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API de REST

Configura SoftwareConfig.properties. para incluir el "dataproc:dataproc.cluster.caching.enabled": "true" propiedad del clúster como parte de una clusters.create para cada solicitud.