Risoluzione dei problemi di Vertex AI

Questa pagina descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi nell'utilizzo di Vertex AI.

I passaggi per la risoluzione dei problemi di alcuni componenti di Vertex AI sono elencati separatamente. Consulta quanto segue:

Per filtrare i contenuti di questa pagina, fai clic su un argomento:

Questa sezione descrive i passaggi per la risoluzione dei problemi che potresti trovare utili se riscontri problemi con AutoML.

Etichette mancanti nel set di test, convalida o addestramento

Problema

Quando utilizzi la suddivisione dei dati predefinita per l'addestramento di un modello di classificazione AutoML, Vertex AI potrebbe assegnare un numero troppo ridotto di istanze di una classe a un determinato set (di test, convalida o addestramento), causando un errore durante l'addestramento. Questo problema si verifica più di frequente quando i gruppi sono sbilanciati o quando la quantità di dati di addestramento è ridotta.

Soluzione:

Per risolvere il problema, aggiungi altri dati di addestramento, suddividi manualmente i dati per assegnare un numero sufficiente di classi a ogni set o rimuovi le etichette che si verificano con meno frequenza dal set di dati. Per ulteriori informazioni, consulta Informazioni sulle suddivisioni di dati per i modelli AutoML.

Vertex AI Studio

Quando utilizzi Vertex AI Studio, potresti ricevere i seguenti errori:

Il tentativo di ottimizzare un modello restituisce Internal error encountered

Problema

Si verifica un errore Internal error encountered durante il tentativo di ottimizzare un modello.

Soluzione:

Esegui il seguente comando curl per creare un set di dati Vertex AI vuoto. Assicurati di configurare l'ID progetto nel comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Al termine del comando, attendi cinque minuti e riprova a ottimizzare il modello.

Codice di errore: 429

Problema

Viene visualizzato il seguente errore:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Soluzione:

Riprova più tardi con il backoff. Se continui a riscontrare errori, contatta l'assistenza di Vertex AI.

Codice di errore: 410

Problema

Viene visualizzato il seguente errore:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Soluzione:

Per saperne di più, consulta la Panoramica dell'autenticazione.

Codice di errore: 403

Problema

Viene visualizzato il seguente errore:

403: Permission denied.

Soluzione:

Assicurati che l'account che accede all'API abbia le autorizzazioni corrette.

Vertex AI Pipelines

Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi con Vertex AI Pipelines.

Non disponi dell'autorizzazione per agire come account di servizio

Problema

Quando esegui il flusso di lavoro di Vertex AI Pipelines, potresti visualizzare il seguente messaggio di errore:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Soluzione:

Questo errore indica che l'account di servizio che esegue il flusso di lavoro non ha accesso alle risorse di cui deve utilizzare.

Per risolvere il problema, prova una delle seguenti soluzioni:

  • Aggiungi il ruolo Vertex AI Service Agent all'account di servizio.
  • Concedi all'utente l'autorizzazione iam.serviceAccounts.actAs nell'account di servizio.

Errore Internal error happened

Problema

Se la pipeline non va a buon fine con un messaggio Internal error happened, controlla Esplora log e cerca il nome della pipeline. Potresti visualizzare un messaggio di errore simile al seguente:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Ciò significa che il peering VPC per Vertex AI include un intervallo IP che è stato eliminato.

Soluzione:

Per risolvere il problema, aggiorna il peering VPC utilizzando il comando update e includi intervalli IP validi.

Ambito OAuth o segmento di pubblico dell'ID token non valido specificato

Problema

Quando esegui il flusso di lavoro di Vertex AI Pipelines, viene visualizzato il seguente messaggio di errore:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Soluzione:

Ciò significa che non hai fornito le credenziali in uno dei componenti della pipeline o non hai utilizzato ai_platform.init() per impostarle.

Per risolvere il problema, imposta le credenziali per il componente della pipeline pertinente o le credenziali dell'ambiente e utilizza ai_platform.init() all'inizio del codice.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

I componenti di Vertex AI Pipelines richiedono più spazio su disco di 100 GB

Problema

Lo spazio su disco predefinito allocato ai componenti di Vertex AI Pipelines è di 100 GB e l'aumento dello spazio su disco non è supportato. Per informazioni su questo problema, consulta il tracker dei problemi pubblico.

Soluzione:

Affinché un componente utilizzi più di 100 GB di spazio su disco, convertilo in un job personalizzato utilizzando il metodo components. Con questo operatore, puoi assegnare il tipo di macchina e la dimensione del disco utilizzati dal componente.

Per un esempio di come utilizzare questo operatore, consulta Vertex AI Pipelines: addestramento personalizzato con componenti Google Cloud

Problemi di rete di Vertex AI

Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi di rete per Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

I carichi di lavoro non possono accedere agli endpoint nella rete VPC quando utilizzi intervalli di IP pubblici utilizzati privatamente per Vertex AI

Problema

Gli intervalli IP pubblici utilizzati privatamente non vengono importati per impostazione predefinita.

Soluzione:

Per utilizzare intervalli di IP pubblici utilizzati privatamente, devi abilitare l'importazione di intervalli di IP pubblici utilizzati privatamente.

com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project

Problema

Ricevi errori di tipo com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project durante l'esecuzione dei workload o il deployment degli endpoint.

Ciò si verifica quando modifichi le prenotazioni per l'accesso ai servizi privati per i tuoi carichi di lavoro. Gli intervalli eliminati potrebbero non essere stati registrati con l'API Vertex AI.

Soluzione:

Esegui gcloud services vpc-peerings update per servicenetworking dopo aver aggiornato le allocazioni di accesso privato ai servizi.

La pipeline o il job non può accedere agli endpoint all'interno della rete VPC in peering

Problema

La pipeline Vertex AI scade quando tenta di connettersi alle risorse nella tua rete VPC.

Soluzione:

Prova a risolvere il problema procedendo nel seguente modo:

  • Assicurati di aver completato tutti i passaggi descritti in Configurare il peering di rete VPC.
  • Controlla la configurazione della rete VPC associata. Assicurati che la rete importi le route dall'intervallo di rete del servizio corretto durante l'esecuzione del job.

    Vai a Peering di rete VPC

  • Assicurati di avere una regola firewall che consenta le connessioni da questo intervallo alla destinazione nella tua rete.

  • Se la connessione di peering non importa alcuna route durante l'esecuzione del job, significa che la configurazione di rete del servizio non viene utilizzata. Ciò è probabilmente dovuto al fatto che hai completato la configurazione del peering con una rete diversa da quella predefinita. In questo caso, assicurati di specificare la tua rete quando avvii un job. Utilizza il nome della rete completo nel seguente formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

    Per ulteriori informazioni, consulta la panoramica dei percorsi.

La pipeline o il job non può accedere per raggiungere endpoint in altre reti oltre alla tua

Problema

La pipeline o il job non è in grado di accedere agli endpoint in reti diverse dalla tua.

Soluzione:

Per impostazione predefinita, la configurazione del peering esporta solo le route per le subnet locali nel VPC.

Inoltre, il peering transitivo non è supportato e solo le reti in peering diretto possono comunicare.

  • Per consentire a Vertex AI di connettersi tramite la tua rete e raggiungere endpoint in altre reti, devi esportare le route della rete nella connessione in peering. Modifica la configurazione della rete VPC connessa in peering e attiva Export custom routes.

Vai a Peering di rete VPC

Poiché il peering transitivo non è supportato, Vertex AI non apprende i route per altre reti e servizi connessi in peering, anche con Export Custom Routes abilitato. Per informazioni sulle soluzioni alternative, consulta Estendere la raggiungibilità della rete di Vertex AI Pipelines.

No route to host senza conflitti di route evidenti nella console Google Cloud

Problema

Gli unici percorsi che puoi vedere nella console Google Cloud sono quelli noti al tuo VPC nonché gli intervalli riservati quando completi la configurazione del peering di rete VPC.

In rare occasioni, un job Vertex AI potrebbe generare un no route to host reclamo quando tenta di raggiungere un indirizzo IP che il tuo VPC esporta nella rete Vertex AI.

Questo potrebbe essere dovuto al fatto che i job Vertex AI vengono eseguiti in uno spazio dei nomi di rete in un cluster GKE gestito il cui intervallo IP è in conflitto con l'IP target. Per ulteriori informazioni, consulta Concetti di base del networking di GKE.

In queste condizioni, il carico di lavoro tenta di connettersi all'IP all'interno del proprio spazio dei nomi di rete e genera l'errore se non riesce a raggiungerlo.

Soluzione:

Crea il tuo carico di lavoro in modo che restituisca gli indirizzi IP del suo spazio dei nomi locale e verifica che non sia in conflitto con le route che stai esportando tramite la connessione di peering. In caso di conflitto, passa un elenco di reservedIpRanges[] nei parametri del job che non si sovrappongono ad alcun intervallo nella rete VPC. Il job utilizza questi intervalli per gli indirizzi IP interni del carico di lavoro.

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Problema

Gli errori di tipo RANGES_EXHAUSTED, RANGES_NOT_RESERVED e RANGES_DELETED_LATER indicano un problema con la configurazione di peering di rete VPC sottostante. Si tratta di errori di rete e non di errori del servizio Vertex AI stesso.

Soluzione:

Quando si verifica un errore RANGES_EXHAUSTED, devi prima valutare se il reclamo è valido.

  • Visita Network Analyzer nella console Cloud e cerca gli approfondimenti del modulo "Riepilogo dell'allocazione degli indirizzi IP" nella rete VPC. Se questi valori indicano che l'allocazione è pari o superiore al 100%, puoi aggiungere un nuovo intervallo alla prenotazione.
  • Prendi in considerazione anche il numero massimo di job in parallelo che possono essere eseguiti con una prenotazione di una determinata dimensione.

Per saperne di più, consulta Errori di convalida dell'infrastruttura di servizio

Se l'errore persiste, contatta l'assistenza.

Router status is temporarily unavailable

Problema

Quando avvii Vertex AI Pipelines, ricevi un messaggio di errore simile al seguente:

Router status is temporarily unavailable. Please try again later

Soluzione:

Il messaggio di errore indica che si tratta di una condizione temporanea. Prova a riavviare Vertex AI Pipelines.

Se l'errore persiste, contatta l'assistenza.

Previsione di Vertex AI

Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi con la previsione di Vertex AI.

Errore di tentativi superati

Problema

Quando esegui job di previsione in batch, viene visualizzato un errore come il seguente, che indica che la macchina che esegue il modello personalizzato potrebbe non essere in grado di completare le previsioni entro il limite di tempo.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Questo può accadere quando il servizio di previsione Vertex AI si registra con il servizio front-end di Google, che esegue il proxy delle connessioni dal client all'API di previsione Vertex AI.

Il servizio Google Front End scade la connessione e restituisce un codice di risposta HTTP 500 al client se non riceve una risposta dall'API entro 10 minuti.

Soluzione:

Per risolvere il problema, prova una delle seguenti opzioni:

  • Aumenta i nodi di calcolo o cambia il tipo di macchina.
  • Crea il contenitore di previsione in modo che invii periodicamente codici di risposta HTTP 102. In questo modo, viene reimpostato il timer di 10 minuti sul servizio Google Front End (GFE).

Progetto già collegato alla VPC

Problema

Quando esegui il deployment di un endpoint, potresti visualizzare un messaggio di errore come quello riportato di seguito, che indica che gli endpoint Vertex AI hanno precedentemente utilizzato una rete Virtual Private Cloud e le risorse non sono state pulite correttamente.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Soluzione:

Per risolvere il problema, prova a eseguire questo comando in Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

In questo modo, la vecchia rete VPC viene disconnessa manualmente dalla rete VPC Service Networking.

Errore di deployment imprevisto o eliminazione dell'endpoint

Problema

Il deployment di un modello non riesce in modo imprevisto, un endpoint viene eliminato o un modello di cui è stato eseguito il deployment in precedenza viene annullato.

Il tuo account di fatturazione potrebbe non essere valido. Se rimane non valido per molto tempo, alcune risorse potrebbero essere rimosse dai progetti associati al tuo account. Ad esempio, i tuoi endpoint e modelli potrebbero essere eliminati. Le risorse rimosse non sono recuperabili.

Soluzione:

Per risolvere il problema, puoi provare quanto segue:

Per ulteriori informazioni, consulta la pagina Domande sulla fatturazione.

Problemi relativi all'account di servizio personalizzato Vertex AI

Questa sezione descrive i passaggi per la risoluzione dei problemi che potresti trovare utili se riscontri problemi con gli account di servizio.

Il deployment del modello non riesce con l'errore dell'account di servizio serviceAccountAdmin

Problema

Il deployment del modello non va a buon fine con un errore come il seguente:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Soluzione:

Questo errore indica che il tuo account di servizio personalizzato potrebbe non essere stato configurato correttamente. Per creare un account di servizio personalizzato con le autorizzazioni IAM corrette, consulta Utilizzare un account di servizio personalizzato.

Impossibile recuperare il token di identità quando si utilizza un account di servizio personalizzato

Problema

Quando utilizzi un account di servizio personalizzato, i job di addestramento eseguiti su una singola replica non sono in grado di raggiungere il servizio di metadati di Compute Engine necessario per recuperare un token.

Viene visualizzato un errore simile al seguente:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Soluzione:

Per recuperare il token di identità con un account di servizio personalizzato, devi utilizzare iamcredentials.googleapis.com.

Modelli con addestramento personalizzato

Questa sezione descrive i passaggi per la risoluzione dei problemi che potresti trovare utili se riscontri problemi con i modelli addestrati in base alle esigenze.

Problemi di addestramento personalizzato

Durante l'addestramento personalizzato possono verificarsi i seguenti problemi. I problemi si applicano alle risorse CustomJob e HyperparameterTuningJob, incluse quelle create dalle risorse TrainingPipeline.

Codice di errore: 400

Problema

Viene visualizzato il seguente errore:

400 Machine type MACHINE_TYPE is not supported.

Questo messaggio di errore potrebbe essere visualizzato se il tipo di macchina selezionato non è supportato per l'addestramento di Vertex AI o se una risorsa specifica non è disponibile nella regione selezionata.

Soluzione:

Utilizza solo i tipi di macchine disponibili nelle regioni appropriate.

La replica è uscita con un codice di stato diverso da zero

Problema

Durante l'addestramento distribuito, un errore di qualsiasi worker causa il fallimento dell'addestramento.

Soluzione:

Per controllare la analisi dello stack del worker, visualizza i log di addestramento personalizzato nella console Google Cloud.

Visualizza gli altri argomenti sulla risoluzione dei problemi per correggere gli errori comuni, quindi crea una nuova risorsa CustomJob, HyperparameterTuningJob o TrainingPipeline. In molti casi, i codici di errore sono causati da problemi nel codice di addestramento, non dal servizio Vertex AI. Per determinare se è così, puoi eseguire il codice di addestramento sulla tua macchina locale o su Compute Engine.

La replica ha esaurito la memoria

Problema

Può verificarsi un errore se un'istanza di una macchina virtuale (VM) di addestramento esaurisce la memoria durante l'addestramento.

Soluzione:

Puoi visualizzare l'utilizzo della memoria delle VM di addestramento nella console Google Cloud.

Anche quando ricevi questo errore, potresti non visualizzare il 100% di utilizzo della memoria sulla VM, perché anche i servizi diversi dall'applicazione di addestramento in esecuzione sulla VM consumano risorse. Per i tipi di macchine con meno memoria, altri servizi potrebbero consumare una percentuale relativamente elevata di memoria. Ad esempio, su una VM n1-standard-4, i servizi possono consumare fino al 40% della memoria.

Puoi ottimizzare il consumo di memoria dell'applicazione di addestramento o scegliere un tipo di macchina più grande con più memoria.

Risorse insufficienti in una regione

Problema

Si verifica un problema di esaurimento scorte in una regione.

Soluzione:

Vertex AI addestra i modelli utilizzando le risorse Compute Engine. Vertex AI non può pianificare il tuo carico di lavoro se Compute Engine ha raggiunto la capacità per una determinata CPU o GPU in una regione. Questo problema non riguarda la quota di progetti.

Quando viene raggiunta la capacità di Compute Engine, Vertex AI ritenta automaticamente il tuo CustomJob o HyperparameterTuningJob fino a tre volte. Il job non riesce se tutti i nuovi tentativi non vanno a buon fine.

Un esaurimento delle scorte si verifica in genere quando utilizzi le GPU. Se riscontri questo errore quando utilizzi le GPU, prova a passare a un tipo di GPU diverso. Se puoi utilizzare un'altra regione, prova a eseguire l'addestramento in un'altra regione.

Errore di autorizzazione durante l'accesso a un altro Google Cloud servizio

Se riscontri un errore di autorizzazione quando accedi a un altro Google Cloud servizio dal codice di addestramento (ad esempio: google.api_core.exceptions.PermissionDenied: 403), potresti avere uno tra i seguenti problemi:

Errore interno

Problema

L'addestramento non è riuscito a causa di un errore di sistema.

Soluzione:

Il problema potrebbe essere temporaneo. Prova a inviare nuovamente CustomJob, HyperparameterTuningJob o TrainingPipeline. Se l'errore persiste, contatta l'assistenza.

Codice di errore 500 quando si utilizza un'immagine del contenitore del cliente

Problema

Nei log viene visualizzato un errore 500.

Soluzione:

È probabile che questo tipo di errore sia un problema con l'immagine del contenitore personalizzato e non un errore di Vertex AI.

L'account di servizio non può accedere al bucket Cloud Storage durante il deployment in un endpoint

Problema

Quando provi a eseguire il deployment di un modello in un endpoint e il tuo account di servizio non ha accesso storage.objects.list al bucket Cloud Storage correlato, potresti visualizzare il seguente errore:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

Per impostazione predefinita, il contenitore personalizzato che esegue il deployment del modello utilizza un account di servizio che non ha accesso al bucket Cloud Storage.

Soluzione:

Per risolvere il problema, prova una delle seguenti soluzioni:

  • Copia il file a cui stai tentando di accedere dal contenitore negli elementi del modello quando carichi il modello. Vertex AI lo copierà in una posizione a cui ha accesso l'account di servizio predefinito, come per tutti gli altri artefatti del modello.

  • Copia il file nel contenitore durante il processo di compilazione del contenitore.

  • Specifica un account di servizio personalizzato.

Ricerca di architetture neurali

Problemi noti

  • Dopo l'annullamento del job NAS, il job principale (principale) si arresta, ma alcune delle prove secondarie continuano a mostrare uno stato In esecuzione. In questo caso, ignora lo stato della prova secondaria che mostra In esecuzione. Le prove sono state interrotte, ma la UI continua a mostrare lo stato In esecuzione. Se il job principale è stato interrotto, non ti verrà addebitato alcun costo aggiuntivo.
  • Dopo aver registrato i premi nell'addestratore, attendi (sleep) 10 minuti prima che i job di prova escano.
  • Quando utilizzi Cloud Shell per eseguire TensorBoard, il link all'output generato potrebbe non funzionare. In questo caso, annota il numero di porta, utilizza lo strumento Anteprima web e seleziona il numero di porta corretto per visualizzare i grafici.

    Per accedere allo strumento Web Preview:

    Un grafico di attribuzione delle funzionalità per una durata prevista della corsa in bicicletta.

  • Se nei log dell'app di allenamento vengono visualizzati messaggi di errore come i seguenti:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    Utilizza una macchina con più RAM, perché questo errore è causato da una condizione di OOM.

  • Se l'addestratore personalizzato non riesce a trovare la directory dei job job-dir FLAG, importa job_dir con un'underscore anziché un trattino. Una nota in tutorial-1 lo spiega.

  • Errore NAN durante l'addestramento Nel job di addestramento potrebbero verificarsi errori NAN come NaN : Tensor had NaN values. Il tasso di apprendimento potrebbe essere troppo elevato per l'architettura suggerita. Per ulteriori informazioni, consulta Errori relativi a OOM (out-of-memory) e alla frequenza di apprendimento.

  • Errore OOM durante l'addestramento Nel job di addestramento potrebbero verificarsi errori OOM (out of memory). La dimensione del batch potrebbe essere troppo grande per la memoria dell'acceleratore. Per ulteriori informazioni, consulta Errori relativi a OOM (out-of-memory) e alla frequenza di apprendimento.

  • Il job di controllo della selezione del modello di attività proxy non va a buon fine Nel raro caso in cui il job di controllo della selezione del modello di attività proxy non vada a buon fine, puoi riprenderlo seguendo questi passaggi.

  • Il job del controller di ricerca delle attività proxy non va a buon fine Nel raro caso in cui il job del controller di ricerca delle attività proxy non vada a buon fine, puoi riprenderlo seguendo questi passaggi.

  • L'account di servizio non dispone dell'autorizzazione per accedere ad Artifact Registry o al bucket. Se ricevi un errore come Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas o un errore simile per l'accesso al bucket, assegna a questo account di servizio un ruolo editor dello spazio di archiviazione nel progetto.

Vertex AI Feature Store

Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi con Vertex AI Feature Store.

Errore Resource not found durante l'invio di una richiesta di importazione di flussi di dati o di pubblicazione online

Problema

Dopo aver configurato un featurestore, un tipo di entità o risorse di funzionalità, si verifica un ritardo prima che queste risorse vengano propagate al servizio FeaturestoreOnlineServingService. A volte questa propagazione ritardata potrebbe causare un errore resource not found quando invii una richiesta di importazione o di pubblicazione online tramite streaming immediatamente dopo aver creato una risorsa.

Soluzione:

Se visualizzi questo errore, attendi qualche minuto e riprova a inviare la richiesta.

L'importazione in batch è riuscita per le funzionalità appena create, ma la richiesta di pubblicazione online restituisce valori vuoti

Problema

Solo per le funzionalità appena create, è previsto un ritardo prima che vengano propagate al servizio FeaturestoreOnlineServingService. Le funzionalità e i valori esistono, ma la loro propagazione richiede tempo. Ciò potrebbe comportare che la richiesta di pubblicazione online restituisca valori vuoti.

Soluzione:

Se noti questa incoerenza, attendi qualche minuto e riprova a inviare la richiesta di pubblicazione online.

L'utilizzo della CPU è elevato per un nodo di pubblicazione online

Problema

L'utilizzo della CPU per un nodo di pubblicazione online è elevato.

Soluzione:

Per attenuare il problema, puoi aumentare il numero di nodi di pubblicazione online aumentando manualmente il numero di nodi o attivando la scalabilità automatica. Tieni presente che, anche se la scalabilità automatica è abilitata, Vertex AI Feature Store ha bisogno di tempo per riequilibrare i dati quando i nodi vengono aggiunti o rimossi. Per informazioni su come visualizzare le metriche relative alla distribuzione dei valori delle funzionalità nel tempo, consulta Visualizzare le metriche relative ai valori delle funzionalità.

L'utilizzo della CPU è elevato per il nodo di pubblicazione online più attivo

Problema

Se l'utilizzo della CPU è elevato per il nodo più attivo, puoi aumentare il numero di nodi di pubblicazione o modificare il pattern di accesso alle entità in pseudo-casuale.

Soluzione:

L'impostazione del pattern di accesso alle entità su pseudo-casuale riduce l'utilizzo elevato della CPU derivante dall'accesso frequente a entità vicine nel feature store. Se nessuna delle due soluzioni è efficace, implementa una cache lato client per evitare di accedere ripetutamente alle stesse entità.

La latenza della pubblicazione online è elevata quando il QPS è basso

Problema

Il periodo di inattività o di attività ridotta a QPS ridotto potrebbe comportare la scadenza di alcune cache lato server. Ciò può comportare una latenza elevata quando il traffico verso i nodi di pubblicazione online riprende a un QPS regolare o superiore.

Soluzione:

Per mitigare il problema, devi mantenere attiva la connessione inviando al feature store traffico artificiale di almeno 5 QPS.

Il job di importazione batch non riesce dopo sei ore

Problema

Il job di importazione in batch può non riuscire perché la sessione di lettura scade dopo sei ore.

Soluzione:

Per evitare il timeout, aumenta il numero di worker per completare il job di importazione entro il limite di tempo di sei ore.

Errore Resource exceeded durante l'esportazione dei valori delle caratteristiche

Problema

L'esportazione di un volume elevato di dati può non riuscire con un errore di risorse superate se il job di esportazione supera la quota interna.

Soluzione:

Per evitare questo errore, puoi configurare i parametri dell'intervallo di tempo start_time e end_time per elaborare quantità minori di dati alla volta. Per informazioni sull'esportazione completa, vedi Esportazione completa.

Vertex AI Vizier

Quando utilizzi Vertex AI Vizier, potresti riscontrare i seguenti problemi.

Errore interno

Problema

L'errore interno si verifica in caso di errore di sistema.

Soluzione:

Potrebbe trattarsi di un problema temporaneo. Prova a inviare nuovamente la richiesta e, se l'errore persiste, contatta l'assistenza.