En esta guía, se muestra cómo resolver problemas comunes que surgen cuando se transfieren datos a clústeres de GKE con GKE Volume Populator. Te guía para depurar los problemas relacionados con la creación de PersistentVolumeClaim (PVC) y PersistentVolume (PV), el rendimiento del disco y la ejecución del trabajo de transferencia de datos.
Inspecciona recursos temporales de Kubernetes
A continuación, se explica cómo el propagador de volúmenes de GKE usa recursos temporales:
- Se crea una PVC temporal en el espacio de nombres
gke-managed-volumepopulator
. - Para cada zona involucrada en la transferencia, se crean un trabajo de transferencia, PV y PVC en el espacio de nombres de tu PVC.
- Una vez finalizada la transferencia de datos, GKE Volume Populator quita automáticamente todos estos recursos temporales.
Para inspeccionar los recursos temporales, sigue estos pasos:
Almacena las variables de entorno:
export PVC_NAME=PVC_NAME export NAMESPACE=NAMESPACE
Reemplaza los siguientes valores:
PVC_NAME
: Es el nombre de tu recursoPersistentVolumeClaim
.NAMESPACE
: Es el espacio de nombres en el que se ejecutan tus cargas de trabajo.
Verifica el estado:
export PVC_UID=$(kubectl get pvc ${PVC_NAME} -n ${NAMESPACE} -o jsonpath='{.metadata.uid}') export TEMP_PVC=prime-${PVC_UID} echo ${TEMP_PVC}
Inspecciona el PVC temporal en el espacio de nombres
gke-managed-volumepopulator
:kubectl describe pvc ${TEMP_PVC} -n gke-managed-volumepopulator
Obtén los nombres de los PVC temporales en tu espacio de nombres:
export TEMP_PVC_LIST=($(kubectl get pvc -n "$NAMESPACE" -o json | grep -Eo "\"name\":\s*\"$TEMP_PVC[^\"]*\"" | awk -F'"' '{print $4}')) for pvc in "${TEMP_PVC_LIST[@]}"; do echo "$pvc" done
Inspecciona los PVC temporales:
kubectl describe pvc "${TEMP_PVC_LIST[0]}" -n $NAMESPACE
El Volume Populator de GKE crea un trabajo de transferencia en cada zona (uno en el caso de un volumen de Hyperdisk ML de una sola zona y varios en el caso de volúmenes de Hyperdisk ML multizona). Obtén el nombre del trabajo de transferencia con el siguiente comando:
export TRANSFER_JOB=$(kubectl get pvc "${TEMP_PVC_LIST[0]}" -n "$NAMESPACE" -o "jsonpath={.metadata.annotations['volume-populator\.datalayer\.gke\.io/pd-transfer-requestid']}") echo $TRANSFER_JOB
Inspecciona el trabajo de transferencia:
kubectl describe job $TRANSFER_JOB -n $NAMESPACE
Obtén el nombre del Pod del trabajo de transferencia:
export TRANSFER_POD=$(kubectl get pods -n "$NAMESPACE" -l "job-name=$TRANSFER_JOB" -o jsonpath='{.items[0].metadata.name}') echo $TRANSFER_POD
Inspecciona el Pod:
kubectl describe pod $TRANSFER_POD -n $NAMESPACE
Si creas una PVC en varias zonas, el propagador de volúmenes de GKE crea PVC temporales distintas y recursos de trabajo de transferencia para cada zona especificada. Para inspeccionar los recursos de cada zona involucrada en la transferencia, reemplaza el
0
del índice deTEMP_PVC_LIST
por otros números.
Verifica si la federación de identidades para cargas de trabajo está habilitada
La federación de Workload Identity permite que los Pods de transferencia accedan de forma segura a los servicios de Google Cloud . Si los Pods de transferencia no pueden autenticarse en Google Cloud, verifica que Workload Identity Federation for GKE esté habilitada en tu clúster.
Para verificar si
workloadIdentityConfig
está habilitado en tu clúster, ejecuta el siguiente comando:gcloud container clusters describe CLUSTER_NAME --location=LOCATION \ --project=PROJECT_ID \ --format="value(workloadIdentityConfig)"
Reemplaza lo siguiente:
CLUSTER_NAME
: El nombre de tu clúster.LOCATION
: Es la región o zona de procesamiento del clúster.PROJECT_ID
: El ID de tu proyecto de Google Cloud .
Busca el siguiente resultado en el comando:
PROJECT_ID.svc.id.goog
Si falta
workloadIdentityConfig
en el resultado, habilita la federación de identidades para cargas de trabajo para GKE.
Ruta de transferencia no válida
Si encuentras un error similar al siguiente, significa que la ruta de transferencia especificada en el recurso GCPDatasource
es incorrecta y la transferencia fallará.
ERROR: (gcloud.storage.cp) The following URLs matched no objects or files:
gs://datasets-pd/llama2-7b-hfa/
Para resolver este problema, borra el recurso GCPDatasource
, actualiza el campo uri
con el valor correcto y vuelve a crear el recurso.
No tienes permisos suficientes para acceder al bucket
Si la cuenta de servicio de Kubernetes no tiene acceso al URI del bucket especificado en el recurso GCPDatasource
, fallará el trabajo de transferencia. El error puede verse de la siguiente manera:
ERROR: (gcloud.storage.cp) [test-gke-dev.svc.id.goog] does not have permission to access b instance [small-bucket-7] (or it may not exist): Caller does not have storage.objects.list access to the Google Cloud Storage bucket. Permission 'storage.objects.list' denied on resource (or it may not exist). This command is authenticated as test-gke-dev.svc.id.goog which is the active account specified by the [core/account] property.
Para resolver el problema, otorga los permisos necesarios para transferir datos del bucket al disco.
gcloud storage buckets \
add-iam-policy-binding gs://GCS_BUCKET \
--member "principal://iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/PROJECT_ID.svc.id.goog/subject/ns/NAMESPACE/sa/KSA_NAME" \
--role "ROLE"
Reemplaza lo siguiente:
GCS_BUCKET
: el nombre de tu bucket de Cloud Storage.PROJECT_NUMBER
: Es el número de tu proyecto de Google Cloud .PROJECT_ID
: El ID de tu proyecto de Google Cloud .NAMESPACE
: Es el espacio de nombres en el que se ejecutan tus cargas de trabajo.KSA_NAME
: Es el nombre de tu cuenta de servicio de Kubernetes.ROLE
: El rol de IAM que proporciona los permisos necesarios para acceder al bucket. Por ejemplo, usaroles/storage.objectViewer
para otorgar acceso de solo lectura al bucket.
Error: error generating accessibility requirements
Es posible que veas el siguiente error transitorio cuando revises el PVC en el espacio de nombres gke-managed-volumepopulator
:
Error: error generating accessibility requirements: no available topology found.
Si usas un clúster de GKE Autopilot o un clúster de Standard con el aprovisionamiento automático de nodos habilitado, este error puede ocurrir porque es posible que no haya nodos Ready
en tu clúster. El error debería resolverse en unos minutos después de que el aprovisionamiento automático de nodos escale verticalmente un nodo nuevo.
El Pod de transferencia está programando Pending
durante mucho tiempo
Es posible que tu evento de PVC muestre que el estado del Pod de transferencia es Pending
durante mucho tiempo.
Para verificar los eventos del trabajo de transferencia y comprobar si falló la programación del trabajo, sigue estos pasos:
Describe el PVC:
kubectl describe pvc $PVC_NAME -n $NAMESPACE
El resultado es similar a este:
Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal TransferInProgress 1s (x2 over 2s) gkevolumepopulator-populator populateCompleteFn: For PVC pd-pvc79 in namespace default, job with request ID populator-job-0b93fec4-5490-4e02-af32-15b16435d559 is still active with pod status as - Phase: Pending
Para inspeccionar el Pod de transferencia, sigue los pasos que se indican en Inspecciona recursos temporales de Kubernetes.
El resultado es similar a este:
Events: Type Reason Age From Message ---- ------ ---- ---- ------- Warning FailedScheduling 2m50s default-scheduler 0/3 nodes are available: 1 Insufficient cpu, 2 node(s) had volume node affinity conflict. preemption: 0/3 nodes are available: 1 No preemption victims found for incoming pod, 2 Preemption is not helpful for scheduling. Warning FailedScheduling 37s (x2 over 39s) default-scheduler 0/3 nodes are available: 1 Insufficient cpu, 2 node(s) had volume node affinity conflict. preemption: 0/3 nodes are available: 1 No preemption victims found for incoming pod, 2 Preemption is not helpful for scheduling. Normal NotTriggerScaleUp 2m40s cluster-autoscaler pod didn't trigger scale-up:
Si ves el mensaje
NotTriggerScaleUp
, verifica si tu clúster tiene habilitado el aprovisionamiento automático de nodos:gcloud container clusters describe CLUSTER_NAME \ --location=LOCATION \ --format="value(autoscaling.enableNodeAutoprovisioning)"
Reemplaza lo siguiente:
CLUSTER_NAME
: El nombre de tu clúster.LOCATION
: Es la región o zona de procesamiento del clúster.
Si el resultado muestra "False", habilita el aprovisionamiento automático de nodos con el siguiente comando:
gcloud container clusters update CLUSTER_NAME \ --enable-autoprovisioning \ --location=LOCATION \ --project=PROJECT_ID \ --min-cpu MINIMUM_CPU \ --min-memory MINIMUM_MEMORY \ --max-cpu MAXIMUM_CPU \ --max-memory MAXIMUM_MEMORY \ --autoprovisioning-scopes=https://www.googleapis.com/auth/logging.write,https://www.googleapis.com/auth/monitoring,https://www.googleapis.com/auth/devstorage.read_only
Reemplaza lo siguiente:
CLUSTER_NAME
: Es el nombre del clúster que estás actualizando para habilitar el aprovisionamiento automático de nodos.LOCATION
: Es la zona o región de procesamiento del clúster. Por ejemplo,us-central1-a
ous-central1
.PROJECT_ID
: El ID de tu proyecto de Google Cloud .MINIMUM_CPU
: Es la cantidad mínima de CPU virtuales que se aprovisionan automáticamente. Por ejemplo,10
MINIMUM_MEMORY
: Es la cantidad mínima de memoria en GiB que se puede aprovisionar automáticamente. Por ejemplo,200
MAXIMUM_CPU
: Es la cantidad máxima de CPU virtuales que se pueden aprovisionar automáticamente. Por ejemplo,100
Este límite es el total de los recursos de CPU en todos los grupos de nodos existentes creados manualmente y en todos los grupos de nodos que GKE podría crear automáticamente.MAXIMUM_MEMORY
: Es la cantidad máxima de memoria que se puede aprovisionar automáticamente. Por ejemplo,1000
Este límite es el total de los recursos de memoria en todos los grupos de nodos existentes creados manualmente y en todos los grupos de nodos que GKE podría crear automáticamente.
Si el aprovisionamiento automático de nodos está habilitado, verifica que el aprovisionamiento automático de nodos tenga suficiente ajuste de escala automático
resourceLimits
para aumentar la escala del trabajo de transferencia. De forma predeterminada, el trabajo de transferencia usa 24 CPU virtuales.gcloud container clusters describe CLUSTER_NAME \ --location=LOCATION \ --format="value(autoscaling.resourceLimits)"
Reemplaza lo siguiente:
CLUSTER_NAME
: El nombre de tu clúster.LOCATION
: Es la región o zona de procesamiento del clúster.
El resultado es similar a este:
{'maximum': '1000000000', 'resourceType': 'cpu'};{'maximum': '1000000000', 'resourceType': 'memory'};
Si el aprovisionamiento automático de nodos no tiene límites de ajuste de escala automático suficientes, actualiza el clúster con la configuración correcta.
gcloud container clusters update CLUSTER_NAME \ --location=LOCATION \ --project=PROJECT_ID \ --max-cpu MAXIMUM_CPU \ --max-memory MAXIMUM_MEMORY
Reemplaza lo siguiente:
CLUSTER_NAME
: Es el nombre del clúster que estás actualizando para habilitar el aprovisionamiento automático de nodos.LOCATION
: Es la zona o región de procesamiento del clúster. Por ejemplo,us-central1-a
ous-central1
.PROJECT_ID
: El ID de tu proyecto de Google Cloud .MAXIMUM_CPU
: Es la cantidad máxima de CPU virtuales que se pueden aprovisionar automáticamente. Por ejemplo,100
Este límite es el total de los recursos de CPU en todos los grupos de nodos existentes creados manualmente y en todos los grupos de nodos que GKE podría crear automáticamente.MAXIMUM_MEMORY
: Es la cantidad máxima de memoria que se puede aprovisionar automáticamente. Por ejemplo,1000
Este límite es el total de los recursos de memoria en todos los grupos de nodos existentes creados manualmente y en todos los grupos de nodos que GKE podría crear automáticamente.
En el caso de los clústeres estándar sin aprovisionamiento automático de nodos habilitado, verifica que el nodo que creaste para el trabajo de transferencia tenga la etiqueta de clase de procesamiento requerida:
kubectl get node -l cloud.google.com/compute-class=gcs-to-hdml-compute-class
Si el resultado no incluye el nodo que creaste para el trabajo de transferencia, agrega la etiqueta de clase de procesamiento
gcs-to-hdml-compute-class
al nodo:kubectl label node NODE_NAME cloud.google.com/compute-class=gcs-to-hdml-compute-class
Reemplaza
NODE_NAME
por el nombre del nodo en el que deseas agregar la etiqueta de clase de procesamiento.
GCE quota exceeded
error
Es posible que aparezca un mensaje de error similar al siguiente cuando revises el Pod del trabajo de transferencia:
Node scale up in zones us-west1-b associated with this pod failed: GCE quota exceeded. Pod is at risk of not being scheduled.
Para inspeccionar el Pod de transferencia, sigue los pasos que se indican en Inspecciona recursos temporales de Kubernetes.
Para resolver el error, aumenta la cuota o borra los recursos existentes que podrían impedir el aumento de escala. Si deseas obtener más información, consulta Soluciona errores de cuota.
Error de Hyperdisk ML HDML_TOTAL_THROUGHPUT
excedido
Si el PVC temporal en el espacio de nombres gke-managed-volumepopulator
no puede aprovisionar el volumen de Hyperdisk ML, es posible que se haya excedido la cuota regional para crear el nuevo volumen de Hyperdisk ML para tu transferencia de datos.
Para confirmar que el aprovisionamiento del volumen de Hyperdisk ML falló debido a un problema de cuota regional, inspecciona los registros de eventos asociados con el PVC temporal que creó el Volume Populator de GKE. Lleva a cabo los pasos siguientes:
Almacena las variables de entorno pertinentes:
export PVC_NAME=PVC_NAME export NAMESPACE=NAMESPACE
Reemplaza los siguientes valores:
PVC_NAME
: Es el nombre de tu recursoPersistentVolumeClaim
.NAMESPACE
: Es el espacio de nombres en el que se ejecutan tus cargas de trabajo.
Verifica el estado del PVC temporal:
export PVC_UID=$(kubectl get pvc ${PVC_NAME} -n ${NAMESPACE} -o jsonpath='{.metadata.uid}') export TEMP_PVC=prime-$PVC_UID echo $TEMP_PVC kubectl describe pvc $TEMP_PVC -n gke-managed-volumepopulator
Verifica los eventos del PVC para encontrar el
QUOTA_EXCEEDED error
, que es similar al siguiente:Events: Type Reason Age From Message ---- ------ ---- ---- ------- Warning ProvisioningFailed 105s pd.csi.storage.gke.io_gke-3ef909a7688d424b94a2-d0d9-b185-vm_6a77d057-54e3-415a-8b39-82b666516b6b failed to provision volume with StorageClass "pd-sc": rpc error: code = Unavailable desc = CreateVolume failed: rpc error: code = Unavailable desc = CreateVolume failed to create single zonal disk pvc-73c69fa8-d23f-4dcb-a244-bcd120a3c221: failed to insert zonal disk: unknown error when polling the operation: rpc error: code = ResourceExhausted desc = operation operation-1739194889804-62dc9dd9a1cae-9d24a5ad-938e5299 failed (QUOTA_EXCEEDED): Quota 'HDML_TOTAL_THROUGHPUT' exceeded. Limit: 30720.0 in region us-central1
Para solucionar este problema, sigue estos pasos:
- Solicita cuota adicional para crear volúmenes nuevos de Hyperdisk ML en tu proyecto.
- Borra los discos de Hyperdisk ML sin usar de tu proyecto.
No queda espacio en el dispositivo
Si ves el mensaje de error No space left on device
en tu PVC, significa que el volumen de Hyperdisk ML está lleno y no se pueden escribir más datos en él. El error puede verse de la siguiente manera:
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Warning TransferContainerFailed 57m gkevolumepopulator-populator populateCompleteFn: For PVC vp-pvc in namespace default, job with request ID populator-job-c2a2a377-6168-4ff1-afc8-c4ca713c43e2 for zone us-central1-c has a failed pod container with message: on device
ERROR: Failed to download one or more components of sliced download.
ERROR: [Errno 28] No space left on device
Para resolver este problema, borra tu PVC, aumenta el valor del campo spec.resources.requests.storage
en el manifiesto del PVC y vuelve a crear el PVC para reiniciar el proceso de transferencia.
¿Qué sigue?
- Si no encuentras una solución a tu problema en la documentación, consulta Obtener asistencia.