Auf dieser Seite werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit Vertex AI hilfreich sein können.
Die Schritte zur Fehlerbehebung für verschiedene Vertex AI-Komponenten sind separat aufgeführt. Weitere Informationen finden Sie hier:
Klicken Sie auf ein Thema, um die Inhalte dieser Seite zu filtern:
AutoML-Modelle
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit AutoML hilfreich sein können.
Fehlende Labels im Test-, Validierungs- oder Trainings-Dataset
Problem
Wenn Sie beim Trainieren eines AutoML-Klassifizierungsmodells die Standard-Datenaufteilung verwenden, kann es sein, dass Vertex AI einem bestimmten Satz (Test, Validierung oder Training) zu wenige Instanzen einer Klasse zuweist. Dies führt zu einem Fehler während des Trainings. Dieses Problem tritt häufiger auf, wenn Sie unausgeglichene Klassen oder eine kleine Menge von Trainingsdaten haben.
Lösung
Um dieses Problem zu beheben, fügen Sie weitere Trainingsdaten hinzu, teilen Sie Ihre Daten manuell auf, um jedem Satz genügend Klassen zuzuweisen, oder entfernen Sie die seltener auftretenden Labels aus Ihrem Dataset. Weitere Informationen finden Sie unter Datenaufteilungen für AutoML-Modelle.
Vertex AI Studio
Bei der Arbeit mit Vertex AI Studio können folgende Fehler auftreten:
Bei dem Versuch, ein Modell zu optimieren, wird Internal error encountered
zurückgegeben.
Internal error encountered
zurückgegeben.Problem
Beim Optimieren eines Modells tritt der Fehler Internal error encountered
auf.
Lösung
Führen Sie folgenden curl-Befehl aus, um ein leeres Vertex AI-Dataset zu erstellen. Achten Sie darauf, dass Sie Ihre Projekt-ID im Befehl konfigurieren.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Warten Sie nach Abschluss des Befehls fünf Minuten und wiederholen Sie dann die Modellabstimmung.
Fehlercode: 429
Problem
Der folgende Fehler tritt auf:
429: The online prediction request quota is exceeded forPUBLIC_BASE_MODEL_NAME .
Lösung
Versuchen Sie es später noch einmal nach dem Backoff. Wenn weiterhin Fehler auftreten, wenden Sie sich an den Support von Vertex AI.
Fehlercode: 410
Problem
Der folgende Fehler tritt auf:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Lösung
Weitere Informationen finden Sie unter Übersicht: Authentifizierung.
Fehlercode: 403
Problem
Der folgende Fehler tritt auf:
403: Permission denied.
Lösung
Prüfen Sie, ob das Konto, das auf die API zugreift, über die erforderlichen Berechtigungen verfügt.
Vertex AI Pipelines
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit Vertex AI Pipelines hilfreich sein können.
Sie sind nicht berechtigt, als Dienstkonto zu fungieren
Problem
Wenn Sie Ihren Vertex AI Pipelines-Workflow ausführen, kann folgende Fehlermeldung angezeigt werden:
You do not have permission to act as service account: SERVICE_ACCOUNT . (or it may not exist).
Lösung
Dieser Fehler bedeutet, dass das Dienstkonto, mit dem Ihr Workflow ausgeführt wird, keinen Zugriff auf die erforderlichen Ressourcen hat.
Führen Sie einen der folgenden Schritte aus, um dieses Problem zu beheben:
- Fügen Sie dem Dienstkonto die Rolle
Vertex AI Service Agent
hinzu. - Gewähren Sie dem Nutzer die
iam.serviceAccounts.actAs
-Berechtigung für das Dienstkonto.
Fehler Internal error happened
Problem
Wenn Ihre Pipeline mit einer Internal error happened
-Meldung fehlschlägt, suchen Sie im Log-Explorer nach dem Namen der Pipeline. Möglicherweise wird ein Fehler wie der folgende angezeigt:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID /global/networks/VPC_NETWORK .APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: ' RANGE_NAME ' not found for consumer project: 'PROJECT_ID ' network: 'VPC_NETWORK '. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME ' not found for consumer project
Dies bedeutet, dass das VPC-Peering für Vertex AI einen IP-Bereich enthält, der gelöscht wurde.
Lösung
Aktualisieren Sie das VPC-Peering mit dem Befehl „update“ und geben Sie gültige IP-Bereiche an, um dieses Problem zu beheben.
Ungültiger OAuth-Bereich oder ID-Token-Zielgruppe angegeben
Problem
Wenn Sie Ihren Vertex AI Pipelines-Workflow ausführen, erhalten Sie die folgende Fehlermeldung:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Lösung
Dies bedeutet, dass Sie in einer der Komponenten der Pipeline keine Anmeldedaten angegeben oder ai_platform.init()
nicht zum Festlegen von Anmeldedaten verwendet haben.
Um dieses Problem zu beheben, legen Sie die Anmeldedaten für die entsprechende Pipelinekomponente fest oder legen Sie die Umgebungsanmeldedaten fest und verwenden Sie ai_platform.init()
am Anfang Ihres Codes.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] =PATH_TO_JSON_KEY
Vertex AI Pipelines-Komponenten benötigen mehr Speicherplatz als 100 GB
Problem
Der Standardspeicherplatz, der Vertex AI Pipelines-Komponenten zugewiesen ist, beträgt 100 GB. Das Vergrößern des Speicherplatzes wird nicht unterstützt. Informationen zu diesem Problem finden Sie im öffentlichen Issue Tracker.
Lösung
Damit eine Komponente mehr als 100 GB Speicherplatz verwendet, konvertieren Sie die Komponente mithilfe der Komponentenmethode in einen benutzerdefinierten Job. Mit diesem Operator können Sie den Maschinentyp und die Laufwerksgröße zuweisen, die die Komponente verwendet.
Ein Beispiel für die Verwendung dieses Operators finden Sie unter Vertex AI Pipelines: Benutzerdefiniertes Training mit vordefinierten Google Cloud Pipeline-Komponenten im Abschnitt Komponente in einen benutzerdefinierten Vertex AI-Job umwandeln.
Vertex AI-Netzwerkprobleme
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit Netzwerken für Vertex AI hilfreich sein können.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
Arbeitslasten können nicht auf Endpunkte in Ihrem VPC-Netzwerk zugreifen, wenn privat verwendete öffentliche IP-Bereiche für Vertex AI verwendet werden
Problem
Privat genutzte öffentliche IP-Bereiche werden standardmäßig nicht importiert.
Lösung
Wenn Sie privat verwendete öffentliche IP-Bereiche verwenden möchten, müssen Sie den Import von privat verwendeten öffentlichen IP-Bereichen aktivieren.
com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project
Problem
Sie erhalten Fehler vom Typ com.google.api.tenant.error.TenantManagerException:
Reserved range: xxx not found for consumer project
, wenn Sie Arbeitslasten ausführen oder Endpunkte bereitstellen.
Das passiert, wenn Sie die Reservierungen für den Zugriff auf private Dienste für Ihre Arbeitslasten ändern. Gelöschte Bereiche wurden möglicherweise nicht bei der Vertex AI API registriert.
Lösung
Führen Sie nach dem Aktualisieren der Zuweisungen für den Zugriff auf private Dienste gcloud services vpc-peerings update
für servicenetworking
aus.
Pipeline oder Job kann nicht auf Endpunkte in Ihrem Peering-VPC-Netzwerk zugreifen
Problem
Bei Ihrer Vertex AI-Pipeline tritt eine Zeitüberschreitung auf, wenn sie versucht, eine Verbindung zu Ressourcen in Ihrem VPC-Netzwerk herzustellen.
Lösung
Versuche, das Problem mit den folgenden Schritten zu beheben:
- Prüfen Sie, ob Sie alle Schritte unter VPC-Netzwerk-Peering einrichten ausgeführt haben.
Prüfen Sie die Konfiguration Ihres Peering-VPC-Netzwerks. Achten Sie darauf, dass Ihr Netzwerk Routen aus dem richtigen Dienstnetzwerkbereich importiert, während Ihr Job ausgeführt wird.
Achten Sie darauf, dass Sie eine Firewallregel haben, die Verbindungen von diesem Bereich zum Ziel in Ihrem Netzwerk zulässt.
Wenn über die Peering-Verbindung keine Routen importiert werden, während der Job ausgeführt wird, wird die Netzwerkkonfiguration des Dienstes nicht verwendet. Dies liegt wahrscheinlich daran, dass Sie die Peering-Konfiguration mit einem anderen Netzwerk als dem Standardnetzwerk abgeschlossen haben. Achten Sie in diesem Fall darauf, dass Sie Ihr Netzwerk beim Starten eines Jobs angeben. Verwenden Sie den vollständig qualifizierten Netzwerknamen im folgenden Format:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME
.Weitere Informationen finden Sie in der Routenübersicht.
Pipeline oder Job kann nicht auf Endpunkte in anderen Netzwerken außerhalb Ihres Netzwerks zugreifen
Problem
Ihre Pipeline oder Ihr Job kann nicht auf Endpunkte in Netzwerken außerhalb Ihres Netzwerks zugreifen.
Lösung
Standardmäßig exportiert Ihre Peering-Konfiguration nur Routen zu den lokalen Subnetzen in Ihrer VPC.
Darüber hinaus wird transitives Peering nicht unterstützt und nur direkt verbundene Peering-Netzwerke können miteinander kommunizieren.
- Damit Vertex AI eine Verbindung über Ihr Netzwerk herstellen und Endpunkte in anderen Netzwerken erreichen kann, müssen Sie die Netzwerkrouten an die Peering-Verbindung exportieren. Bearbeiten Sie die Konfiguration Ihres Peering-VPC-Netzwerks und aktivieren Sie
Export custom routes
.
Da transitives Peering nicht unterstützt wird, lernt die Vertex AI keine Routen zu anderen Peering-Netzwerken und -Diensten, selbst wenn Export Custom Routes
aktiviert ist. Informationen zu Problemumgehungen finden Sie unter Netzwerkerreichbarkeit von Vertex AI Pipelines erweitern.
No route to host
ohne in der Google Cloud Console angezeigte Routenkonflikte
Problem
In der Google Cloud Console werden nur die Routen angezeigt, die Ihrer eigenen VPC bekannt sind sowie die Bereiche, die reserviert werden, wenn Sie die VPC-Netzwerk-Peerings Konfiguration beenden.
In seltenen Fällen kann ein Vertex AI-Job eine no route to host
-Beschwerde auslösen, wenn versucht wird, eine IP-Adresse zu erreichen, die Ihre VPC in das Vertex AI-Netzwerk exportiert.
Dies kann daran liegen, dass Vertex AI-Jobs in einem Netzwerk-Namespace in einem verwalteten GKE-Cluster ausgeführt werden, dessen IP-Bereich mit der Ziel-IP in Konflikt steht. Weitere Informationen finden Sie unter Grundlagen von GKE-Netzwerken.
Unter diesen Bedingungen versucht die Arbeitslast, eine Verbindung zur IP-Adresse innerhalb ihres eigenen Netzwerk-Namespace herzustellen, und gibt einen Fehler aus, wenn sie diese nicht erreichen kann.
Lösung
Gestalten Sie Ihre Arbeitslast so, dass sie ihre lokalen Namespace-IP-Adressen zurückgeben, und prüfen Sie, ob dies mit Routen in Konflikt steht, die Sie über die Peering-Verbindung exportieren.
Übergeben Sie im Fall eines Konflikts eine Liste der reservedIpRanges[]
in den Jobparametern, die sich nicht mit Bereichen im VPC-Netzwerk überschneiden.
Der Job verwendet diese Bereiche für die internen IP-Adressen der Arbeitslast.
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
Problem
Fehler vom Typ RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
und RANGES_DELETED_LATER
weisen auf ein Problem mit der zugrunde liegenden VPC-Netzwerk-Peering-Konfiguration hin. Dies sind Netzwerkfehler, keine Fehler vom Vertex AI-Dienst selbst.
Lösung
Wenn Sie einen RANGES_EXHAUSTED
-Fehler erhalten, sollten Sie zuerst prüfen, ob die Beschwerde berechtigt ist.
- Rufen Sie in der Cloud Console den Netzwerkanalysator auf und suchen Sie im VPC-Netzwerk nach Informationen vom Typ „Zusammenfassung der IP‑Adresszuweisung“. Wenn diese Werte darauf hinweisen, dass die Zuweisung bei 100 % oder fast bei 100 % liegt, können Sie der Reservierung einen neuen Bereich hinzufügen.
- Berücksichtigen Sie auch die maximale Anzahl paralleler Jobs, die mit einer Reservierung einer bestimmten Größe ausgeführt werden können.
Weitere Informationen finden Sie unter Validierungsfehler in der Dienst Infrastructure.
Wenn der Fehler weiterhin auftritt, wenden Sie sich bitte an den Support.
Router status is temporarily unavailable
Problem
Wenn Sie Vertex AI Pipelines starten, erhalten Sie eine Fehlermeldung ähnlich der folgenden:
Router status is temporarily unavailable. Please try again later
Lösung
Die Fehlermeldung gibt an, dass es sich um einen vorübergehenden Zustand handelt. Starten Sie Vertex AI Pipelines noch einmal.
Wenn der Fehler weiterhin auftritt, wenden Sie sich bitte an den Support.
Vertex AI Prediction
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit Vertex AI-Vorhersagen hilfreich sein können.
Fehler bei überschrittener Wiederholung
Problem
Wenn Sie Batchvorhersagejobs ausführen, erhalten Sie einen Fehler wie den folgenden. Die Maschine, auf der das benutzerdefinierte Modell ausgeführt wird, kann die Vorhersagen möglicherweise nicht innerhalb des Zeitlimits abschließen.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Das kann passieren, wenn sich der Vertex AI-Vorhersagedienst beim Google Front End-Dienst registriert, der Verbindungen vom Client zur Vertex AI Prediction API weiterleitet.
Der Google-Front-End-Dienst löst eine Zeitüberschreitung für die Verbindung aus und gibt dem Client den HTTP-Antwortcode 500 zurück, wenn er innerhalb von 10 Minuten keine Antwort von der API erhält.
Lösung
Sie haben folgende Möglichkeiten, dieses Problem zu beheben:
- Erhöhen Sie die Anzahl der Rechenknoten oder ändern Sie den Maschinentyp.
- Gestalten Sie Ihren Vorhersagecontainer so, dass er regelmäßige 102-HTTP-Antwortcodes sendet. Dadurch wird der 10-minütige Timer im Google Front End-Dienst zurückgesetzt.
Projekt bereits mit VPC verknüpft
Problem
Beim Bereitstellen eines Endpunkts wird möglicherweise eine Fehlermeldung wie die folgende angezeigt, die darauf hinweist, dass Ihre Vertex AI-Endpunkte zuvor ein Virtual Private Cloud-Netzwerk verwendet haben und die Ressourcen nicht entsprechend bereinigt wurden.
Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT /global/networks/YOUR_SHARED_VPC_NETWORK ".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.
Lösung
Führen Sie den Befehl in Cloud Shell aus, um dieses Problem zu beheben.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
Dadurch wird Ihr altes VPC-Netzwerk manuell vom Service Networking-VPC getrennt.
Unerwarteter Bereitstellungsfehler oder Endpunktlöschung
Problem
Eine Modellbereitstellung schlägt unerwartet fehl, ein Endpunkt wurde gelöscht oder ein zuvor bereitgestelltes Modell wurde nicht mehr bereitgestellt.
Ihr Rechnungskonto ist möglicherweise ungültig. Wenn es über einen längeren Zeitraum ungültig bleibt, werden möglicherweise Ressourcen aus den Projekten entfernt, die mit Ihrem Konto verknüpft sind. So können beispielsweise Ihre Endpunkte und Modelle gelöscht werden. Entfernte Ressourcen können nicht wiederhergestellt werden.
Lösung
Versuchen Sie Folgendes, um dieses Problem zu beheben:
- Prüfen Sie den Abrechnungsstatus Ihrer Projekte.
- Wenn Sie Hilfe bei Fragen zur Abrechnung benötigen, wenden Sie sich an den Cloud Billing-Support.
Weitere Informationen finden Sie unter Fragen zur Abrechnung.
Probleme mit benutzerdefiniertem Vertex AI-Dienstkonto
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit Dienstkonten hilfreich sein können.
Modellbereitstellung schlägt mit einem Dienstkonto-serviceAccountAdmin
-Fehler fehl
Problem
Ihre Modellbereitstellung schlägt mit einem Fehler wie dem folgenden fehl:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Lösung
Dieser Fehler bedeutet, dass Ihr benutzerdefiniertes Dienstkonto möglicherweise nicht richtig konfiguriert wurde. Informationen zum Erstellen eines benutzerdefinierten Dienstkontos mit den richtigen IAM-Berechtigungen finden Sie unter Benutzerdefiniertes Dienstkonto verwenden.
Bei Verwendung eines benutzerdefinierten Dienstkontos kann kein Identitätstoken abgerufen werden
Problem
Wenn Sie ein benutzerdefiniertes Dienstkonto verwenden, können Trainingsjobs, die auf einem einzelnen Replikat ausgeführt werden, den Compute Engine-Metadatendienst nicht erreichen, der zum Abrufen eines Tokens erforderlich ist.
Es kann ein Fehler wie der folgende angezeigt werden:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Lösung
Zum Abrufen des Identitätstokens mit einem benutzerdefinierten Dienstkonto müssen Sie iamcredentials.googleapis.com verwenden.
Benutzerdefinierte Modelle
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit benutzerdefiniert trainierten Modellen hilfreich sein können.
Probleme bei benutzerdefinierten Trainings
Die folgenden Probleme können während des benutzerdefinierten Trainings auftreten. Die Probleme gelten für CustomJob
- und HyperparameterTuningJob
-Ressourcen, einschließlich der von TrainingPipeline
-Ressourcen erstellten Ressourcen.
Fehlercode 400
Problem
Der folgende Fehler tritt auf:
400 Machine type MACHINE_TYPE is not supported.
Diese Fehlermeldung kann angezeigt werden, wenn der ausgewählte Maschinentyp für das Vertex AI-Training nicht unterstützt wird oder eine bestimmte Ressource in der ausgewählten Region nicht verfügbar ist.
Lösung
Verwenden Sie nur verfügbare Maschinentypen in den entsprechenden Regionen.
Replikat wurde mit einem Statuscode ungleich Null beendet
Problem
Während des verteilten Trainings tritt ein Fehler eines Workers auf, durch den das Training fehlschlägt.
Lösung
Sehen Sie sich die benutzerdefinierten Trainingslogs in der Google Cloud Console an, um den Stacktrace für den Worker zu prüfen.
Rufen Sie die anderen Themen zur Fehlerbehebung auf, um häufige Fehler zu beheben, und erstellen Sie dann eine neue Ressource CustomJob
, HyperparameterTuningJob
oder TrainingPipeline
. In vielen Fällen werden die Fehlercodes durch Probleme in Ihrem Trainingscode verursacht und nicht durch den Vertex AI-Dienst. Um festzustellen, ob dies der Fall ist, können Sie Ihren Trainingscode auf Ihrem lokalen Computer oder in Compute Engine ausführen.
Replikat hat zu wenig Arbeitsspeicher
Problem
Wenn eine Trainings-VM-Instanz während des Trainings nicht genügend Arbeitsspeicher hat, kann ein Fehler auftreten.
Lösung
Sie können sich die Arbeitsspeichernutzung Ihrer Trainings-VMs in der Google Cloud Console ansehen.
Selbst wenn dieser Fehler auftritt, sehen Sie möglicherweise keine 100 %-Speichernutzung auf der VM, da andere Dienste außer der auf der VM ausgeführten Trainingsanwendung auch Ressourcen verbrauchen. Bei Maschinentypen mit weniger Arbeitsspeicher nutzen andere Dienste möglicherweise einen relativ hohen Anteil am Arbeitsspeicher.
Auf einer n1-standard-4
-VM können Dienste beispielsweise bis zu 40 % des Arbeitsspeichers verbrauchen.
Sie können den Speicherverbrauch der Trainingsanwendung optimieren oder einen größeren Maschinentyp mit mehr Arbeitsspeicher auswählen.
Unzureichende Ressourcen in einer Region
Problem
Sie stoßen in einer Region auf ein Lagerbestandsproblem.
Lösung
Vertex AI trainiert Ihre Modelle mithilfe von Compute Engine-Ressourcen. Vertex AI kann Ihre Arbeitslast nicht planen, wenn Compute Engine für eine bestimmte CPU oder GPU in einer Region ausgelastet ist. Dieses Problem hängt nicht mit Ihrem Projektkontingent zusammen.
Wenn die Compute Engine-Kapazität erschöpft ist, wiederholt Vertex AI automatisch Ihren CustomJob
oder HyperparameterTuningJob
bis zu dreimal. Der Job schlägt fehl, wenn alle Wiederholungen fehlschlagen.
Eine Bestandslücke tritt normalerweise auf, wenn Sie GPUs verwenden. Sollte dieser Fehler bei der Verwendung von GPUs auftreten, versuchen Sie, zu einem anderen GPU-Typ zu wechseln. Wenn Sie eine andere Region verwenden können, versuchen Sie, das Modell in einer anderen Region zu trainieren.
Berechtigungsfehler beim Zugriff auf einen anderen Google Cloud Dienst
Wenn beim Zugriff auf einen anderen Dienst über Ihren Trainingscode (z. B. google.api_core.exceptions.PermissionDenied: 403
) ein Berechtigungsfehler auftritt, kann dies folgende Gründe haben: Google Cloud
-
Problem
Der Dienst-Agent oder das Dienstkonto, das Ihren Code ausführt (entweder der Dienst-Agent für benutzerdefinierten Vertex AI-Code für Ihr Projekt oder ein benutzerdefiniertes Dienstkonto), hat nicht die erforderliche Berechtigung.
Lösung
Siehe Berechtigungen für den Dienst-Agent für benutzerdefinierten Vertex AI-Code gewähren oder Benutzerdefiniertes Dienstkonto mit den erforderlichen Berechtigungen konfigurieren.
-
Problem
Der Dienst-Agent oder das Dienstkonto, in dem Ihr Code ausgeführt wird, hat die erforderliche Berechtigung, aber Ihr Code versucht, auf eine Ressource im falschen Projekt zuzugreifen. Dies ist wahrscheinlich das Problem, wenn die Fehlermeldung auf eine Projekt-ID verweist, die mit
-tp
endet.Lösung
Aufgrund der Art und Weise, wie Vertex AI Ihren Trainingscode ausführt, kann dieses Problem versehentlich auftreten, wenn Sie in Ihrem Code nicht explizit eine Projekt-ID oder Projektnummer angeben.
Siehe Projekt-ID oder Projektnummer angeben, um das Problem zu beheben.
Interner Fehler
Problem
Das Training ist aufgrund eines Systemfehlers fehlgeschlagen.
Lösung
Das Problem kann vorübergehend sein. Versuchen Sie, den CustomJob
, den HyperparameterTuningJob
oder die TrainingPipeline
noch einmal zu senden. Wenn der Fehler weiterhin auftritt, wenden Sie sich bitte an den Support.
Fehlercode 500 bei Verwendung eines Container-Images eines Kunden
Problem
In Ihren Logs wird der Fehler 500 angezeigt.
Lösung
Dieser Fehlertyp ist wahrscheinlich ein Problem mit Ihrem benutzerdefinierten Container-Image und kein Vertex AI-Fehler.
Dienstkonto kann bei der Bereitstellung auf einem Endpunkt nicht auf den Cloud Storage-Bucket zugreifen
Problem
Wenn Sie versuchen, ein Modell auf einem Endpunkt bereitzustellen und Ihr Dienstkonto keinen storage.objects.list
-Zugriff auf den zugehörigen Cloud Storage-Bucket hat, kann folgende Fehlermeldung enthalten:
custom-online-prediction@TENANT_PROJECT_ID .iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
Standardmäßig verwendet der benutzerdefinierte Container, der Ihr Modell bereitstellt, ein Dienstkonto, das keinen Zugriff auf Ihren Cloud Storage-Bucket hat.
Lösung
Führen Sie einen der folgenden Schritte aus, um dieses Problem zu beheben:
Kopieren Sie die Datei, auf die Sie vom Container zugreifen möchten, beim Hochladen des Modells in Modellartefakte. Vertex AI kopiert sie an einen Speicherort, auf den das Standarddienstkonto Zugriff hat, ähnlich wie bei allen anderen Modellartefakten.
Kopieren Sie die Datei im Rahmen des Container-Build-Prozesses in den Container.
Geben Sie ein benutzerdefiniertes Dienstkonto an.
Suchfunktion auf Basis einer neuronalen Architektur
Bekannte Probleme
- Nachdem der NAS-Job abgebrochen wurde, wird der Hauptjob (das übergeordnete Element) beendet, aber einige der untergeordneten Tests haben weiterhin den Status Wird ausgeführt. Ignorieren Sie den Status des untergeordneten Tests, der in diesem Fall Wird ausgeführt lautet. Die Tests wurden beendet, in der Benutzeroberfläche wird jedoch weiterhin der Status Wird ausgeführt angezeigt. Solange der Hauptjob angehalten wird, werden Ihnen keine zusätzlichen Kosten in Rechnung gestellt.
- Nachdem Sie Prämien im Trainer gemeldet haben, müssen Sie zehn Minuten warten, bevor die Testjobs beendet werden.
Wenn Sie Cloud Shell zum Ausführen von
TensorBoard
verwenden, funktioniert der generierte Ausgabelink möglicherweise nicht. Notieren Sie sich in diesem Fall die Portnummer. Verwenden Sie dazu das Webvorschau-Tool und wählen Sie die erforderliche Portnummer, um die Diagramme anzeigen zu lassen.So greifen Sie auf das Tool
Web Preview
zu:Wenn in den Trainerlogs Fehlermeldungen wie diese angezeigt werden:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
Verwenden Sie eine Maschine mit mehr RAM, da dieser Fehler durch eine OOM-Bedingung verursacht wird.
Wenn Ihr benutzerdefinierter Trainer das Jobverzeichnis
job-dir
FLAG nicht finden kann, importieren Siejob_dir
mit einem Unterstrich anstelle eines Bindestrichs. In der Anmerkung zu tutorial-1 wird dies erklärt.NAN-Fehler während des Trainings Es kann NaN-Fehler im Trainingsjob geben, z. B.
NaN : Tensor had NaN values
. Die Lernrate ist möglicherweise zu hoch für die vorgeschlagene Architektur. Weitere Informationen finden Sie unter Fehler aufgrund fehlenden Speichers (OOM, Out-of-memory) und Fehler in Relation zur Lernrate.OOM-Fehler während des Trainings Es kann OOM-Fehler (Out-of-Memory) im Trainingsjob geben. Die Batchgröße ist möglicherweise zu groß für den Beschleunigerspeicher. Weitere Informationen finden Sie unter Fehler aufgrund fehlenden Speichers (OOM, Out-of-memory) und Fehler in Relation zur Lernrate.
Controller-Job zur Proxy-Aufgaben-Modellauswahl bricht ab In dem seltenen Fall, dass der Controller-Job zur Proxy-Aufgaben-Modellauswahl abstürzt, können Sie den Job über diese Schritte fortsetzen.
Controller-Job zur Suche nach Proxy-Aufgaben bricht ab In dem seltenen Fall, dass der Controller-Job zur Suche nach Proxy-Aufgaben abstürzt, können Sie den Job über diese Schritte fortsetzen.
Das Dienstkonto hat keine Berechtigung für den Zugriff auf Artifact Registry oder den Bucket. Wenn ein Fehler wie
Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas
oder ein ähnlicher Fehler für den Bucket-Zugriff angezeigt wird, weisen Sie diesem Dienstkonto in Ihrem Projekt eine Speicherbearbeiter-Rolle zu.
Vertex AI Feature Store
In diesem Abschnitt werden Schritte zur Fehlerbehebung beschrieben, die bei Problemen mit Vertex AI Feature Store hilfreich sein können.
Resource not found
-Fehler beim Senden einer Anfrage zur Streamingaufnahme oder Onlinebereitstellung
Problem
Nachdem Sie einen Featurestore, einen Entitätstyp oder Featureressourcen eingerichtet haben, kommt es zu einer Verzögerung, bevor diese Ressourcen an den Dienst FeaturestoreOnlineServingService
weitergegeben werden. Manchmal kann diese verzögerte Weitergabe zu einem resource not found
-Fehler führen, wenn Sie eine Anfrage zur Streamingaufnahme oder Onlinebereitstellung sofort nach der Ressourcenerstellung senden.
Lösung
Wenn Sie diese Fehlermeldung erhalten, warten Sie ein paar Minuten und wiederholen Sie dann die Anfrage.
Die Batchaufnahme für neu erstellte Features war erfolgreich, bei einer Anfrage zur Onlinebereitstellung werden jedoch leere Werte zurückgegeben
Problem
Nur bei neu erstellten Features gibt es eine Verzögerung, bis diese Features an den FeaturestoreOnlineServingService
weitergegeben werden. Die Features und Werte sind vorhanden, aber es dauert einige Zeit, bis sie wirksam werden. Dies kann dazu führen, dass Ihre Anfrage für die Onlinebereitstellung leere Werte zurückgibt.
Lösung
Wenn Sie diese Inkonsistenz feststellen, warten Sie einige Minuten und wiederholen Sie dann die Anfrage zur Onlinebereitstellung.
Die CPU-Auslastung ist für einen Online-Bereitstellungsknoten hoch
Problem
Die CPU-Auslastung eines Online-Bereitstellungsknotens ist hoch.
Lösung
Zur Behebung dieses Problems können Sie die Anzahl der Onlinebereitstellungsknoten entweder manuell erhöhen oder Autoscaling aktivieren. Beachten Sie, dass Vertex AI Feature Store Zeit benötigt, um Daten neu auszubalancieren, wenn Knoten hinzugefügt oder entfernt werden – auch wenn das Autoscaling aktiviert ist. Informationen zur Anzeige der Verteilungsmesswerte von Featurewerten im Zeitablauf finden Sie unter Featuremesswerte aufrufen.
Die CPU-Auslastung ist für den am stärksten genutzten Onlinebereitstellungsknoten hoch
Problem
Wenn die CPU-Auslastung für den am stärksten genutzten Knoten hoch ist, können Sie entweder die Anzahl der Bereitstellungsknoten erhöhen oder das Zugriffsmuster der Entität auf „Pseudozufall“ ändern.
Lösung
Das Festlegen des Zugriffsmusters der Entität auf „Pseudozufall“ verringert die hohe CPU-Auslastung, die sich aus dem häufigem Zugriff auf im Feature Store nahe beieinander lokalisierten Entitäten ergibt. Ist keine der beiden Lösungen wirksam, implementieren Sie einen clientseitigen Cache, damit nicht wiederholt auf dieselben Entitäten zugegriffen wird.
Die Latenz für die Onlinebereitstellung ist hoch, obwohl die Abfragen pro Sekunde niedrig sind
Problem
Der Zeitraum der Inaktivität oder der geringen Aktivität bei einer geringen Anzahl an Abfragen pro Sekunde kann dazu führen, dass einige serverseitige Caches ablaufen. Dies kann zu einer hohen Latenz führen, wenn der Traffic zu Onlinebereitstellungsknoten bei regulären oder höheren Abfragen pro Sekunde fortgesetzt wird.
Lösung
Um dieses Problem zu beheben, müssen Sie die Verbindung aktiv halten. Dazu senden Sie künstlichen Traffic von mindestens 5 Abfragen pro Sekunde an den Feature Store.
Batchaufnahmejob schlägt nach sechs Stunden fehl
Problem
Der Batchaufnahmejob kann fehlschlagen, wenn die Lesesitzung nach sechs Stunden abläuft.
Lösung
Erhöhen Sie die Anzahl der Worker, um den Aufnahmejob innerhalb des Zeitlimits von sechs Stunden abzuschließen, um so im Zeitlimit zu bleiben.
Resource exceeded
-Fehler beim Exportieren von Featurewerten
Problem
Der Export eines großen Datenvolumens kann fehlschlagen, wenn die Ressource das interne Kontingent durch den Exportjob überschreitet.
Lösung
Zur Vermeidung dieses Fehlers können Sie die Zeitraumparameter start_time
und end_time
so konfigurieren, dass kleinere Datenmengen gleichzeitig verarbeitet werden. Informationen zum vollständigen Export finden Sie unter Vollständiger Export.
Vertex AI Vizier
Wenn Sie Vertex Vizier verwenden, können folgende Probleme auftreten.
Interner Fehler
Problem
Der interne Fehler tritt auf, wenn ein Systemfehler vorliegt.
Lösung
Er ist möglicherweise nur temporär. Versuchen Sie, die Anfrage noch einmal zu senden. Wenn der Fehler weiterhin besteht, wenden Sie sich an den Support.