Questa guida mostra come utilizzare i volumi effimeri CSI basati sui bucket Cloud Storage per gestire automaticamente le risorse di archiviazione per i pod o i job Kubernetes su Google Kubernetes Engine (GKE). I volumi temporanei CSI sono legati al ciclo di vita del pod o del job e non è necessario gestire manualmente gli oggetti PersistentVolume e PersistentVolumeClaim.
Questa guida è rivolta agli amministratori e agli operatori della piattaforma che vogliono semplificare la gestione dello spazio di archiviazione per le loro applicazioni GKE.
Prima di leggere questa pagina, assicurati di conoscere i volumi effimeri CSI, i pod e i job Kubernetes e i bucket Cloud Storage.
Se conosci già i volumi permanenti e vuoi mantenere la coerenza con i tuoi implementazioni esistenti che si basano su questo tipo di risorsa, consulta Montare i bucket Cloud Storage come volumi permanenti.
Prima di iniziare
Assicurati di aver completato i seguenti prerequisiti:
- Scopri i requisiti e le limitazioni del driver CSI di Cloud Storage FUSE.
- Crea il bucket Cloud Storage
- Abilita il driver CSI di Cloud Storage FUSE
- Configurare l'accesso ai bucket Cloud Storage
Come funziona lo spazio di archiviazione effimero CSI per i bucket Cloud Storage
I volumi effimeri CSI semplificano la gestione dello spazio di archiviazione per le tue applicazioni su GKE. Definisci i volumi effimeri CSI direttamente all'interno della specifica del pod o del job. L'utilizzo di volumi effimeri CSI elimina la necessità di oggetti PersistentVolume e PersistentVolumeClaim separati.
L'utilizzo di un volume effimero CSI prevede le seguenti operazioni:
Definizione dello spazio di archiviazione: specifica lo spazio di archiviazione nel file YAML del pod o del job, incluso il driver CSI da utilizzare e gli eventuali parametri richiesti. Per il driver CSI di Cloud Storage FUSE, specifica il nome del bucket e altri dettagli pertinenti.
Facoltativamente, puoi ottimizzare il rendimento del driver CSI utilizzando la funzionalità di cache dei file. La memorizzazione nella cache dei file può migliorare le prestazioni delle app GKE memorizzando nella cache i file Cloud Storage a cui si accede di frequente su un disco più veloce.
Inoltre, puoi utilizzare la funzionalità di download parallelo per accelerare la lettura di file di grandi dimensioni da Cloud Storage per i download multithread. Puoi utilizzare questa funzionalità per migliorare i tempi di caricamento del modello, in particolare per le letture di dimensioni superiori a 1 GB.
Richiesta del driver: quando crei il pod o il job, GKE rileva la richiesta di volume temporaneo e chiama il driver CSI Cloud Storage FUSE.
Montaggio e attacco del volume: il driver CSI monta il volume effimero CSI (che punta al bucket Cloud Storage sottostante) e lo rende disponibile al pod o al job, rendendolo accessibile alla tua applicazione. Per perfezionare il modo in cui i bucket vengono montati nel file system, puoi utilizzare le opzioni di montaggio. Puoi anche utilizzare gli attributi del volume per configurare un comportamento specifico del driver CSI di Cloud Storage FUSE.
Gestione del ciclo di vita: il volume temporaneo esiste per tutta la durata del pod o del job. Quando il pod viene eliminato o il job viene completato, il driver CSI gestisce automaticamente la pulizia e lo smontaggio del volume.
Collega il volume temporaneo CSI
Segui queste istruzioni, a seconda che tu voglia collegare il volume effimero CSI a un pod o a un job.
Pod
Per collegare il volume effimero CSI in un pod:
Crea un manifest YAML del pod con la seguente specifica:
apiVersion: v1 kind: Pod metadata: name: gcs-fuse-csi-example-ephemeral namespace: NAMESPACE annotations: gke-gcsfuse/volumes: "true" spec: terminationGracePeriodSeconds: 60 containers: - image: busybox name: busybox command: ["sleep"] args: ["infinity"] volumeMounts: - name: gcs-fuse-csi-ephemeral mountPath: /data readOnly: true serviceAccountName: KSA_NAME volumes: - name: gcs-fuse-csi-ephemeral csi: driver: gcsfuse.csi.storage.gke.io readOnly: true volumeAttributes: bucketName: BUCKET_NAME mountOptions: "implicit-dirs"
Sostituisci i seguenti valori:
- NAMESPACE: lo spazio dei nomi Kubernetes in cui vuoi eseguire il deployment del pod.
- KSA_NAME: il nome del servizio account Kubernetes specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
- BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
Puoi specificare un'underscore (
_
) per montare tutti i bucket a cui può accedere il servizio account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.
Il file manifest di esempio mostra le seguenti impostazioni obbligatorie:
metadata.annotations
: l'annotazionegke-gcsfuse/volumes: "true"
è obbligatoria. Per le annotazioni facoltative, consulta Configurare il contenitore sidecar.spec.volumes[n].csi.driver
: utilizzagcsfuse.csi.storage.gke.io
come nome del driver CSI.
Se vuoi, puoi modificare le seguenti variabili:
spec.terminationGracePeriodSeconds
: per impostazione predefinita, il valore è 30. Se devi scrivere file di grandi dimensioni nel bucket Cloud Storage, aumenta questo valore per assicurarti che Cloud Storage FUSE abbia tempo sufficiente per svuotare la cache dei dati dopo l'uscita dell'applicazione. Per scoprire di più, consulta le best practice di Kubernetes: terminazione senza problemi.spec.volumes[n].csi.volumeAttributes.mountOptions
: passa le opzioni di montaggio a Cloud Storage FUSE. Specifica i flag in una stringa separata da virgole, senza spazi.spec.volumes[n].csi.volumeAttributes
: passa attributi del volume aggiuntivi a Cloud Storage FUSE.spec.volumes[n].csi.readOnly
: specifica true se tutti i mount dei volumi sono di sola lettura.spec.containers[n].volumeMounts[m].readOnly
: specifica true se solo il montaggio di un volume specifico è in sola lettura.
Esegui il comando seguente per applicare il manifest al cluster:
kubectl apply -f FILE_PATH
Sostituisci FILE_PATH con il percorso del file YAML.
Pod (memorizzazione nella cache dei file)
Per collegare il volume effimero CSI con la memorizzazione nella cache dei file in un pod:
Crea un cluster o un pool di nodi con archiviazione temporanea basata su SSD locale seguendo i passaggi descritti in Creare un cluster o un pool di nodi con archiviazione temporanea basata su SSD locale.
Crea un manifest YAML del pod con la seguente specifica:
apiVersion: v1 kind: Pod metadata: name: gcs-fuse-csi-file-cache-example namespace: NAMESPACE annotations: gke-gcsfuse/volumes: "true" gke-gcsfuse/ephemeral-storage-limit: "50Gi" spec: nodeSelector: cloud.google.com/gke-ephemeral-storage-local-ssd: "true" restartPolicy: Never initContainers: - name: data-loader image: gcr.io/google.com/cloudsdktool/google-cloud-cli:slim resources: limits: cpu: 500m memory: 1Gi requests: cpu: 500m memory: 1Gi command: - "/bin/sh" - "-c" - | mkdir -p /test_files for i in $(seq 1 1000); do dd if=/dev/zero of=/test_files/file_$i.txt bs=1024 count=64; done gcloud storage cp /test_files gs://BUCKET_NAME --recursive containers: - name: data-validator image: busybox resources: limits: cpu: 500m memory: 512Mi requests: cpu: 500m memory: 512Mi command: - "/bin/sh" - "-c" - | echo "first read with cache miss" time cat /data/test_files/file_* > /dev/null echo "second read from local cache" time cat /data/test_files/file_* > /dev/null volumeMounts: - name: gcs-fuse-csi-ephemeral mountPath: /data serviceAccountName: KSA_NAME volumes: - name: gcs-fuse-csi-ephemeral csi: driver: gcsfuse.csi.storage.gke.io volumeAttributes: bucketName: BUCKET_NAME mountOptions: "implicit-dirs,file-cache:max-size-mb:-1"
Sostituisci i seguenti valori:
- NAMESPACE: lo spazio dei nomi Kubernetes in cui vuoi eseguire il deployment del pod.
- KSA_NAME: il nome del servizio account Kubernetes specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage. Puoi specificare un'underscore (
_
) per montare tutti i bucket a cui può accedere il servizio account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.Nel manifest di esempio, il caricatore di dati del contenitore iniziale genera 1000 file di dimensioni pari a 64 KB e li carica in un bucket Cloud Storage. Il contenitore principale
data-validator
legge tutti i file del bucket due volte e registra la durata.
Esegui il comando seguente per applicare il manifest al cluster:
kubectl apply -f FILE_PATH
Sostituisci FILE_PATH con il percorso del file YAML.
Per visualizzare l'output del log, esegui il seguente comando:
kubectl logs -n NAMESPACE gcs-fuse-csi-file-cache-example -c data-validator
Sostituisci NAMESPACE con lo spazio dei nomi del tuo carico di lavoro.
L'output dovrebbe essere simile al seguente:
first read with cache miss real 0m 54.68s ... second read from local cache real 0m 0.38s ...
L'output mostra che la seconda lettura con la cache locale è molto più rapida rispetto alla prima lettura con un fallimento della cache.
Pod (download parallelo)
Per collegare il volume effimero CSI con il download parallelo in un pod:
Crea un manifest YAML del pod con la seguente specifica:
apiVersion: v1 kind: Pod metadata: name: gcs-fuse-csi-example-ephemeral namespace: NAMESPACE annotations: gke-gcsfuse/volumes: "true" gke-gcsfuse/ephemeral-storage-limit: "50Gi" spec: containers: ... volumes: - name: gcs-fuse-csi-ephemeral csi: driver: gcsfuse.csi.storage.gke.io volumeAttributes: bucketName: BUCKET_NAME mountOptions: "implicit-dirs,file-cache:enable-parallel-downloads:true,file-cache:max-size-mb:-1" fileCacheCapacity: "-1"
Sostituisci i seguenti valori:
- NAMESPACE: lo spazio dei nomi Kubernetes in cui vuoi eseguire il deployment del pod.
- BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
Puoi specificare un'underscore (
_
) per montare tutti i bucket a cui può accedere il servizio account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.
Esegui il comando seguente per applicare il manifest al cluster:
kubectl apply -f FILE_PATH
Sostituisci FILE_PATH con il percorso del file YAML.
Job
Per collegare il volume effimero CSI in un job:
Crea un manifest YAML del job con la seguente specifica:
apiVersion: batch/v1 kind: Job metadata: name: gcs-fuse-csi-job-example namespace: NAMESPACE spec: template: metadata: annotations: gke-gcsfuse/volumes: "true" spec: serviceAccountName: KSA_NAME containers: - name: writer image: busybox command: - "/bin/sh" - "-c" - touch /data/test && echo $(date) >> /data/test && sleep 10 volumeMounts: - name: gcs-fuse-csi-ephemeral mountPath: /data - name: reader image: busybox command: - "/bin/sh" - "-c" - sleep 10 && cat /data/test volumeMounts: - name: gcs-fuse-csi-ephemeral mountPath: /data readOnly: true volumes: - name: gcs-fuse-csi-ephemeral csi: driver: gcsfuse.csi.storage.gke.io volumeAttributes: bucketName: BUCKET_NAME restartPolicy: Never backoffLimit: 1
Sostituisci i seguenti valori:
- NAMESPACE: lo spazio dei nomi Kubernetes in cui esegui il deployment del pod.
- KSA_NAME: il nome del servizio account Kubernetes specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
- BUCKET_NAME: il nome del bucket Cloud Storage specificato durante la configurazione dell'accesso ai bucket Cloud Storage.
Puoi specificare un'underscore (
_
) per montare tutti i bucket a cui può accedere il service account Kubernetes. Per scoprire di più, consulta Montaggio dinamico nella documentazione di Cloud Storage FUSE.
Il file manifest di esempio mostra le seguenti impostazioni obbligatorie:
metadata.annotations
: l'annotazionegke-gcsfuse/volumes: "true"
è obbligatoria. Per le annotazioni facoltative, consulta Configurare il contenitore sidecar.spec.volumes[n].csi.drive
r: utilizzagcsfuse.csi.storage.gke.io
come nome del driver CSI.
Se vuoi, puoi modificare le seguenti variabili:
spec.volumes[n].csi.volumeAttributes.mountOptions
: passa le opzioni di montaggio a Cloud Storage FUSE. Specifica i flag in una stringa separata da virgole, senza spazi.spec.volumes[n].csi.volumeAttributes
: passa attributi del volume aggiuntivi a Cloud Storage FUSE.spec.volumes[n].csi.readOnly
: specifica true se tutti i mount dei volumi sono in sola lettura.spec.containers[n].volumeMounts[m].readOnly
: specifica true se solo il montaggio di un volume specifico è in sola lettura.
Esegui il comando seguente per applicare il manifest al cluster:
kubectl apply -f FILE_PATH
Sostituisci
FILE_PATH
con il percorso del file YAML.
Risoluzione dei problemi
Se devi risolvere i problemi di Cloud Storage FUSE, puoi impostare il flag log-severity
su TRACE
. Imposta il flag nella sezione args
della specifica del contenitore del driver all'interno del file YAML del deployment. Di conseguenza, l'attributo volumegcsfuseLoggingSeverity
viene impostato automaticamente su traccia.
Per ulteriori suggerimenti per la risoluzione dei problemi, consulta la Guida alla risoluzione dei problemi nella documentazione del progetto GitHub.
Passaggi successivi
- Scopri come ottimizzare le prestazioni per il driver CSI di Cloud Storage FUSE.
- Esplora altri esempi per l'utilizzo del driver CSI su GitHub.
- Scopri di più su Cloud Storage FUSE.