Montare i bucket Cloud Storage come volumi effimeri CSI


Questa guida mostra come utilizzare i volumi effimeri CSI basati sui bucket Cloud Storage per gestire automaticamente le risorse di archiviazione per i pod o i job Kubernetes su Google Kubernetes Engine (GKE). I volumi temporanei CSI sono legati al ciclo di vita del pod o del job e non è necessario gestire manualmente gli oggetti PersistentVolume e PersistentVolumeClaim.

Questa guida è rivolta agli amministratori e agli operatori della piattaforma che vogliono semplificare la gestione dello spazio di archiviazione per le loro applicazioni GKE.

Prima di leggere questa pagina, assicurati di conoscere i volumi effimeri CSI, i pod e i job Kubernetes e i bucket Cloud Storage.

Se conosci già i volumi permanenti e vuoi mantenere la coerenza con i tuoi implementazioni esistenti che si basano su questo tipo di risorsa, consulta Montare i bucket Cloud Storage come volumi permanenti.

Prima di iniziare

Assicurati di aver completato i seguenti prerequisiti:

Come funziona lo spazio di archiviazione effimero CSI per i bucket Cloud Storage

I volumi effimeri CSI semplificano la gestione dello spazio di archiviazione per le tue applicazioni su GKE. Definisci i volumi effimeri CSI direttamente all'interno della specifica del pod o del job. L'utilizzo di volumi effimeri CSI elimina la necessità di oggetti PersistentVolume e PersistentVolumeClaim separati.

L'utilizzo di un volume effimero CSI prevede le seguenti operazioni:

  1. Definizione dello spazio di archiviazione: specifica lo spazio di archiviazione nel file YAML del pod o del job, incluso il driver CSI da utilizzare e gli eventuali parametri richiesti. Per il driver CSI di Cloud Storage FUSE, specifica il nome del bucket e altri dettagli pertinenti.

    Facoltativamente, puoi ottimizzare il rendimento del driver CSI utilizzando la funzionalità di cache dei file. La memorizzazione nella cache dei file può migliorare le prestazioni delle app GKE memorizzando nella cache i file Cloud Storage a cui si accede di frequente su un disco più veloce.

    Inoltre, puoi utilizzare la funzionalità di download parallelo per accelerare la lettura di file di grandi dimensioni da Cloud Storage per i download multithread. Puoi utilizzare questa funzionalità per migliorare i tempi di caricamento del modello, in particolare per le letture di dimensioni superiori a 1 GB.

  2. Richiesta del driver: quando crei il pod o il job, GKE rileva la richiesta di volume temporaneo e chiama il driver CSI Cloud Storage FUSE.

  3. Montaggio e attacco del volume: il driver CSI monta il volume effimero CSI (che punta al bucket Cloud Storage sottostante) e lo rende disponibile al pod o al job, rendendolo accessibile alla tua applicazione. Per perfezionare il modo in cui i bucket vengono montati nel file system, puoi utilizzare le opzioni di montaggio. Puoi anche utilizzare gli attributi del volume per configurare un comportamento specifico del driver CSI di Cloud Storage FUSE.

  4. Gestione del ciclo di vita: il volume temporaneo esiste per tutta la durata del pod o del job. Quando il pod viene eliminato o il job viene completato, il driver CSI gestisce automaticamente la pulizia e lo smontaggio del volume.

Collega il volume temporaneo CSI

Segui queste istruzioni, a seconda che tu voglia collegare il volume effimero CSI a un pod o a un job.

Pod

Per collegare il volume effimero CSI in un pod:

  1. Crea un manifest YAML del pod con la seguente specifica:

    apiVersion: v1
    kind: Pod
    metadata:
      name: gcs-fuse-csi-example-ephemeral 
      namespace: NAMESPACE
      annotations:
        gke-gcsfuse/volumes: "true" 
    spec:
      terminationGracePeriodSeconds: 60
      containers:
      - image: busybox
        name: busybox
        command: ["sleep"]
        args: ["infinity"] 
        volumeMounts:
        - name: gcs-fuse-csi-ephemeral
          mountPath: /data
          readOnly: true
      serviceAccountName: KSA_NAME
      volumes:
      - name: gcs-fuse-csi-ephemeral
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: true
          volumeAttributes:
            bucketName: BUCKET_NAME
            mountOptions: "implicit-dirs" 
    

    Sostituisci i seguenti valori:

    • NAMESPACE: lo spazio dei nomi Kubernetes in cui vuoi eseguire il deployment del pod.
    • KSA_NAME: il nome del servizio account Kubernetes specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
    • BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage. Puoi specificare un'underscore (_) per montare tutti i bucket a cui può accedere il servizio account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.

    Il file manifest di esempio mostra le seguenti impostazioni obbligatorie:

    • metadata.annotations: l'annotazione gke-gcsfuse/volumes: "true" è obbligatoria. Per le annotazioni facoltative, consulta Configurare il contenitore sidecar.
    • spec.volumes[n].csi.driver: utilizza gcsfuse.csi.storage.gke.io come nome del driver CSI.

    Se vuoi, puoi modificare le seguenti variabili:

    • spec.terminationGracePeriodSeconds: per impostazione predefinita, il valore è 30. Se devi scrivere file di grandi dimensioni nel bucket Cloud Storage, aumenta questo valore per assicurarti che Cloud Storage FUSE abbia tempo sufficiente per svuotare la cache dei dati dopo l'uscita dell'applicazione. Per scoprire di più, consulta le best practice di Kubernetes: terminazione senza problemi.
    • spec.volumes[n].csi.volumeAttributes.mountOptions: passa le opzioni di montaggio a Cloud Storage FUSE. Specifica i flag in una stringa separata da virgole, senza spazi.
    • spec.volumes[n].csi.volumeAttributes: passa attributi del volume aggiuntivi a Cloud Storage FUSE.
    • spec.volumes[n].csi.readOnly: specifica true se tutti i mount dei volumi sono di sola lettura.
    • spec.containers[n].volumeMounts[m].readOnly: specifica true se solo il montaggio di un volume specifico è in sola lettura.
  2. Esegui il comando seguente per applicare il manifest al cluster:

    kubectl apply -f FILE_PATH
    

    Sostituisci FILE_PATH con il percorso del file YAML.

Pod (memorizzazione nella cache dei file)

Per collegare il volume effimero CSI con la memorizzazione nella cache dei file in un pod:

  1. Crea un cluster o un pool di nodi con archiviazione temporanea basata su SSD locale seguendo i passaggi descritti in Creare un cluster o un pool di nodi con archiviazione temporanea basata su SSD locale.

  2. Crea un manifest YAML del pod con la seguente specifica:

    apiVersion: v1
    kind: Pod
    metadata:
      name: gcs-fuse-csi-file-cache-example 
      namespace: NAMESPACE
      annotations:
        gke-gcsfuse/volumes: "true"
        gke-gcsfuse/ephemeral-storage-limit: "50Gi" 
    spec:
      nodeSelector:
        cloud.google.com/gke-ephemeral-storage-local-ssd: "true"
      restartPolicy: Never
      initContainers:
      - name: data-loader
        image: gcr.io/google.com/cloudsdktool/google-cloud-cli:slim
        resources:
          limits:
            cpu: 500m
            memory: 1Gi
          requests:
            cpu: 500m
            memory: 1Gi
        command:
          - "/bin/sh"
          - "-c"
          - |
            mkdir -p /test_files
            for i in $(seq 1 1000); do dd if=/dev/zero of=/test_files/file_$i.txt bs=1024 count=64; done
            gcloud storage cp /test_files gs://BUCKET_NAME --recursive
      containers:
      - name: data-validator
        image: busybox
        resources:
          limits:
            cpu: 500m
            memory: 512Mi
          requests:
            cpu: 500m
            memory: 512Mi
        command:
          - "/bin/sh"
          - "-c"
          - |
            echo "first read with cache miss"
            time cat /data/test_files/file_* > /dev/null
    
            echo "second read from local cache"
            time cat /data/test_files/file_* > /dev/null 
        volumeMounts:
        - name: gcs-fuse-csi-ephemeral
          mountPath: /data
      serviceAccountName: KSA_NAME
      volumes:
      - name: gcs-fuse-csi-ephemeral
        csi:
          driver: gcsfuse.csi.storage.gke.io
          volumeAttributes:
            bucketName: BUCKET_NAME
            mountOptions: "implicit-dirs,file-cache:max-size-mb:-1"
    

    Sostituisci i seguenti valori:

    • NAMESPACE: lo spazio dei nomi Kubernetes in cui vuoi eseguire il deployment del pod.
    • KSA_NAME: il nome del servizio account Kubernetes specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
    • BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage. Puoi specificare un'underscore (_) per montare tutti i bucket a cui può accedere il servizio account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.

      Nel manifest di esempio, il caricatore di dati del contenitore iniziale genera 1000 file di dimensioni pari a 64 KB e li carica in un bucket Cloud Storage. Il contenitore principale data-validator legge tutti i file del bucket due volte e registra la durata.

  3. Esegui il comando seguente per applicare il manifest al cluster:

    kubectl apply -f FILE_PATH
    

    Sostituisci FILE_PATH con il percorso del file YAML.

  4. Per visualizzare l'output del log, esegui il seguente comando:

    kubectl logs -n NAMESPACE gcs-fuse-csi-file-cache-example -c data-validator
    

    Sostituisci NAMESPACE con lo spazio dei nomi del tuo carico di lavoro.

    L'output dovrebbe essere simile al seguente:

    first read with cache miss
    real    0m 54.68s
    ...
    second read from local cache
    real    0m 0.38s
    ...
    

    L'output mostra che la seconda lettura con la cache locale è molto più rapida rispetto alla prima lettura con un fallimento della cache.

Pod (download parallelo)

Per collegare il volume effimero CSI con il download parallelo in un pod:

  1. Crea un manifest YAML del pod con la seguente specifica:

    apiVersion: v1
    kind: Pod
    metadata:
      name: gcs-fuse-csi-example-ephemeral 
      namespace: NAMESPACE
      annotations:
        gke-gcsfuse/volumes: "true"
        gke-gcsfuse/ephemeral-storage-limit: "50Gi" 
    spec:
      containers:
      ...
      volumes:
      - name: gcs-fuse-csi-ephemeral 
        csi:
          driver: gcsfuse.csi.storage.gke.io
          volumeAttributes:
            bucketName: BUCKET_NAME
            mountOptions: "implicit-dirs,file-cache:enable-parallel-downloads:true,file-cache:max-size-mb:-1"
            fileCacheCapacity: "-1"
    

    Sostituisci i seguenti valori:

    • NAMESPACE: lo spazio dei nomi Kubernetes in cui vuoi eseguire il deployment del pod.
    • BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage. Puoi specificare un'underscore (_) per montare tutti i bucket a cui può accedere il servizio account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.
  2. Esegui il comando seguente per applicare il manifest al cluster:

    kubectl apply -f FILE_PATH
    

    Sostituisci FILE_PATH con il percorso del file YAML.

Job

Per collegare il volume effimero CSI in un job:

  1. Crea un manifest YAML del job con la seguente specifica:

    apiVersion: batch/v1
    kind: Job
    metadata:
      name: gcs-fuse-csi-job-example 
      namespace: NAMESPACE 
    spec:
      template:
        metadata: 
          annotations:
            gke-gcsfuse/volumes: "true"
        spec:
          serviceAccountName: KSA_NAME 
          containers:
          - name: writer
            image: busybox
            command:
              - "/bin/sh"
              - "-c"
              - touch /data/test && echo $(date) >> /data/test && sleep 10
            volumeMounts:
            - name: gcs-fuse-csi-ephemeral
              mountPath: /data
          - name: reader
            image: busybox
            command:
              - "/bin/sh"
              - "-c"
              - sleep 10 && cat /data/test 
            volumeMounts:
            - name: gcs-fuse-csi-ephemeral
              mountPath: /data
              readOnly: true
          volumes:
          - name: gcs-fuse-csi-ephemeral
            csi:
              driver: gcsfuse.csi.storage.gke.io
              volumeAttributes:
                bucketName: BUCKET_NAME
          restartPolicy: Never 
      backoffLimit: 1
    

    Sostituisci i seguenti valori:

    • NAMESPACE: lo spazio dei nomi Kubernetes in cui esegui il deployment del pod.
    • KSA_NAME: il nome del servizio account Kubernetes specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
    • BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage. Puoi specificare un'underscore (_) per montare tutti i bucket a cui può accedere il service account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.

    Il file manifest di esempio mostra le seguenti impostazioni obbligatorie:

    • metadata.annotations: l'annotazione gke-gcsfuse/volumes: "true" è obbligatoria. Per le annotazioni facoltative, consulta Configurare il contenitore sidecar.
    • spec.volumes[n].csi.driver: utilizza gcsfuse.csi.storage.gke.io come nome del driver CSI.

    Se vuoi, puoi modificare le seguenti variabili:

    • spec.volumes[n].csi.volumeAttributes.mountOptions: passa le opzioni di montaggio a Cloud Storage FUSE. Specifica i flag in una stringa separata da virgole, senza spazi.
    • spec.volumes[n].csi.volumeAttributes: passa attributi del volume aggiuntivi a Cloud Storage FUSE.
    • spec.volumes[n].csi.readOnly: specifica true se tutti i mount dei volumi sono in sola lettura.
    • spec.containers[n].volumeMounts[m].readOnly: specifica true se solo il montaggio di un volume specifico è in sola lettura.
  2. Esegui il comando seguente per applicare il manifest al cluster:

    kubectl apply -f FILE_PATH
    

    Sostituisci FILE_PATH con il percorso del file YAML.

Risoluzione dei problemi

Se devi risolvere i problemi di Cloud Storage FUSE, puoi impostare il flag log-severity su TRACE. Imposta il flag nella sezione args della specifica del contenitore del driver all'interno del file YAML del deployment. Di conseguenza, l'attributo volumegcsfuseLoggingSeverity viene impostato automaticamente su traccia.

Per ulteriori suggerimenti per la risoluzione dei problemi, consulta la Guida alla risoluzione dei problemi nella documentazione del progetto GitHub.

Passaggi successivi