Bevor Sie einen Index abfragen können, sind einige Schritte erforderlich:
- Erstellen Sie bei Bedarf einen
IndexEndpoint
oder verwenden Sie einen vorhandenenIndexEndpoint
. - Rufen Sie die ID
IndexEndpoint
ab. - Stellen Sie den Index auf dem
IndexEndpoint
bereit.
IndexEndpoint
erstellen
gcloud
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- INDEX_ENDPOINT_NAME: Der Anzeigename des Indexendpunkts
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints create \ --display-name=INDEX_ENDPOINT_NAME \ --public-endpoint-enabled \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints create ` --display-name=INDEX_ENDPOINT_NAME ` --public-endpoint-enabled ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints create ^ --display-name=INDEX_ENDPOINT_NAME ^ --public-endpoint-enabled ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- INDEX_ENDPOINT_NAME: Der Anzeigename des Indexendpunkts
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints
JSON-Text anfordern:
{ "display_name": "INDEX_ENDPOINT_NAME", "publicEndpointEnabled": "true" }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateIndexEndpointOperationMetadata", "genericMetadata": { "createTime": "2022-01-13T04:09:56.641107Z", "updateTime": "2022-01-13T04:09:56.641107Z" } } }
"done": true
angegeben wird.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Console
Folgen Sie dieser Anleitung, um einen Indexendpunkt zu erstellen.
- Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche aus.
- Eine Liste Ihrer aktiven Indexe wird angezeigt.
- Wählen Sie oben auf der Seite den Tab Indexendpunkte aus. Ihre Indexendpunkte werden angezeigt.
- Klicken Sie auf Neuen Indexendpunkt erstellen. Der Bereich "Neuen Indexendpunkt erstellen" wird geöffnet.
- Geben Sie einen Anzeigenamen für den Indexendpunkt ein.
- Wählen Sie im Feld Region eine Region aus dem Drop-down-Menü aus.
- Wählen Sie im Feld Zugriff die Option Standard aus.
- Klicken Sie auf Erstellen.
Index auf einem Endpunkt bereitstellen
gcloud
In diesem Beispiel wird der Befehl gcloud ai index-endpoints deploy-index
verwendet.
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- DEPLOYED_INDEX_ENDPOINT_NAME: Der Anzeigename des bereitgestellten Indexendpunkts
- INDEX_ID: Die ID des Index.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID \ --deployed-index-id=DEPLOYED_INDEX_ID \ --display-name=DEPLOYED_INDEX_ENDPOINT_NAME \ --index=INDEX_ID \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ` --deployed-index-id=DEPLOYED_INDEX_ID ` --display-name=DEPLOYED_INDEX_ENDPOINT_NAME ` --index=INDEX_ID ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ^ --deployed-index-id=DEPLOYED_INDEX_ID ^ --display-name=DEPLOYED_INDEX_ENDPOINT_NAME ^ --index=INDEX_ID ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- DEPLOYED_INDEX_ENDPOINT_NAME: Der Anzeigename des bereitgestellten Indexendpunkts
- INDEX_ID: Die ID des Index.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex
JSON-Text anfordern:
{ "deployedIndex": { "id": "DEPLOYED_INDEX_ID", "index": "projects/PROJECT_ID/locations/LOCATION/indexes/INDEX_ID", "displayName": "DEPLOYED_INDEX_ENDPOINT_NAME" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata", "genericMetadata": { "createTime": "2022-10-19T17:53:16.502088Z", "updateTime": "2022-10-19T17:53:16.502088Z" }, "deployedIndexId": "DEPLOYED_INDEX_ID" } }
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Console
Folgen Sie dieser Anleitung, um Ihren Index auf einem Endpunkt bereitzustellen.
- Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche aus.
- Eine Liste Ihrer aktiven Indexe wird angezeigt.
- Wählen Sie den Namen des Index aus, den Sie bereitstellen möchten. Die Seite mit den Indexdetails wird geöffnet.
- Klicken Sie auf der Seite mit den Indexdetails auf Auf Endpunkt bereitstellen. Das Feld für die Indexbereitstellung wird geöffnet.
- Geben Sie einen Anzeigenamen ein. Dieser Name dient als ID und kann nicht aktualisiert werden.
- Wählen Sie im Drop-down-Menü Endpunkt den Endpunkt aus, auf dem Sie diesen Index bereitstellen möchten. Hinweis: Der Endpunkt ist nicht verfügbar, wenn der Index bereits auf ihm bereitgestellt ist.
- Optional: Wählen Sie im Feld Maschinentyp entweder „Standard“ oder „Großer Speicher“ aus.
- Optional. Wählen Sie Autoscaling aktivieren aus, um die Anzahl der Knoten automatisch an die Anforderungen Ihrer Arbeitslasten anzupassen. Die Standardanzahl von Replikaten ist 2, wenn Autoscaling deaktiviert ist.
- Klicken Sie auf Bereitstellen, um Ihren Index auf dem Endpunkt bereitzustellen. Hinweis: Die Bereitstellung dauert ungefähr 30 Minuten.
Indexdomainnamen abrufen
Nachdem der Index bereitgestellt wurde, benötigen Sie den Domainnamen, der für eine Onlineabfrage verwendet werden kann. Der Wert ist unter publicEndpointDomainName
verfügbar.
curl -H "Content-Type: application/json" -H "Authorization: Bearer `gcloud auth print-access-token`" ${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${REGION}/indexEndpoints/${INDEX_ENDPOINT_ID}
Beispielantwort
{
"name": "projects/181224308459/locations/us-central1/indexEndpoints/3370566089086861312",
"displayName": "public-endpoint-test1",
"deployedIndexes": [
{
"id": "test_index_public1",
"index": "projects/181224308459/locations/us-central1/indexes/7733428228102029312",
"displayName": "test_index_public1",
"createTime": "2023-02-08T23:19:58.026843Z",
"indexSyncTime": "2023-02-09T05:26:19.309417Z",
"automaticResources": {
"minReplicaCount": 2,
"maxReplicaCount": 2
},
"deploymentGroup": "default"
}
],
"etag": "AMEw9yNkXQcSke8iqW9SYxfhj_hT9GCwPt1XlxVwJRSCxiXOYnG4CKrZM_X0oH-XN8tR",
"createTime": "2023-02-08T22:44:20.285382Z",
"updateTime": "2023-02-08T22:44:26.515162Z",
"publicEndpointDomainName": "1957880287.us-central1-181224308459.vdb.vertexai.goog"
}
Automatische Skalierung aktivieren
Die Vektorsuche unterstützt Autoscaling, mit dem die Anzahl der Knoten automatisch an die Anforderungen Ihrer Arbeitslasten angepasst werden kann. Bei hoher Nachfrage werden Knoten dem Knotenpool hinzugefügt, überschreiten aber die von Ihnen festgelegte maximale Größe nicht. Bei geringer Nachfrage wird der Knotenpool wieder auf eine von Ihnen festgelegte Mindestgröße herunterskaliert. Sie können die tatsächlich verwendeten Knoten und die Änderungen prüfen, wenn Sie die aktuellen Replikate überwachen.
Um das Autoscaling zu aktivieren, geben Sie beim Bereitstellen des Index maxReplicaCount
und minReplicaCount
an:
gcloud
Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints deploy-index
verwendet:
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- DEPLOYED_INDEX_NAME: Der Anzeigename des bereitgestellten Index
- INDEX_ID: Die ID des Index.
- MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
- MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID \ --deployed-index-id=DEPLOYED_INDEX_ID \ --display-name=DEPLOYED_INDEX_NAME \ --index=INDEX_ID \ --min-replica-count=MIN_REPLICA_COUNT \ --max-replica-count=MAX_REPLICA_COUNT \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ` --deployed-index-id=DEPLOYED_INDEX_ID ` --display-name=DEPLOYED_INDEX_NAME ` --index=INDEX_ID ` --min-replica-count=MIN_REPLICA_COUNT ` --max-replica-count=MAX_REPLICA_COUNT ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ^ --deployed-index-id=DEPLOYED_INDEX_ID ^ --display-name=DEPLOYED_INDEX_NAME ^ --index=INDEX_ID ^ --min-replica-count=MIN_REPLICA_COUNT ^ --max-replica-count=MAX_REPLICA_COUNT ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- DEPLOYED_INDEX_NAME: Der Anzeigename des bereitgestellten Index
- INDEX_ID: Die ID des Index.
- MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
- MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex
JSON-Text anfordern:
{ "deployedIndex": { "id": "DEPLOYED_INDEX_ID", "index": "projects/PROJECT_NUMBER/locations/LOCATION/indexes/INDEX_ID", "displayName": "DEPLOYED_INDEX_NAME", "automaticResources": { "minReplicaCount": MIN_REPLICA_COUNT, "maxReplicaCount": MAX_REPLICA_COUNT } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata", "genericMetadata": { "createTime": "2023-10-19T17:53:16.502088Z", "updateTime": "2023-10-19T17:53:16.502088Z" }, "deployedIndexId": "DEPLOYED_INDEX_ID" } }
Console
Sie können Autoscaling nur über die Console während der Indexbereitstellung aktivieren.
- Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche aus.
- Eine Liste Ihrer aktiven Indexe wird angezeigt.
- Wählen Sie den Namen des Index aus, den Sie bereitstellen möchten. Die Seite mit den Indexdetails wird geöffnet.
- Klicken Sie auf der Seite mit den Indexdetails auf Auf Endpunkt bereitstellen. Das Feld für die Indexbereitstellung wird geöffnet.
- Geben Sie einen Anzeigenamen ein. Dieser Name dient als ID und kann nicht aktualisiert werden.
- Wählen Sie im Drop-down-Menü Endpunkt den Endpunkt aus, auf dem Sie diesen Index bereitstellen möchten. Hinweis: Der Endpunkt ist nicht verfügbar, wenn der Index bereits auf ihm bereitgestellt ist.
- Optional: Wählen Sie im Feld Maschinentyp entweder „Standard“ oder „Großer Speicher“ aus.
- Optional. Wählen Sie Autoscaling aktivieren aus, um die Anzahl der Knoten automatisch an die Anforderungen Ihrer Arbeitslasten anzupassen. Die Standardanzahl von Replikaten ist 2, wenn Autoscaling deaktiviert ist.
- Wenn sowohl
minReplicaCount
als auchmaxReplicaCount
nicht festgelegt sind, werden sie standardmäßig auf 2 gesetzt. - Wenn nur
maxReplicaCount
festgelegt ist, istminReplicaCount
standardmäßig auf 2 gesetzt. - Wenn nur
minReplicaCount
festgelegt ist, istmaxReplicaCount
gleichminReplicaCount
.
DeployedIndex
mutieren
Sie können die MutateDeployedIndex
API verwenden, um die Bereitstellungsressourcen (z. B. minReplicaCount
und maxReplicaCount
) eines bereits bereitgestellten Index zu aktualisieren.
- Nutzer dürfen den
machineType
nach der Bereitstellung des Index nicht mehr ändern. - Wenn
maxReplicaCount
nicht in der Anfrage angegeben ist, verwendetDeployedIndex
weiterhin den vorhandenenmaxReplicaCount
.
gcloud
Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints mutate-deployed-index
verwendet:
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
- MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID \ --deployed-index-id=DEPLOYED_INDEX_ID \ --min-replica-count=MIN_REPLICA_COUNT \ --max-replica-count=MAX_REPLICA_COUNT \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID ` --deployed-index-id=DEPLOYED_INDEX_ID ` --min-replica-count=MIN_REPLICA_COUNT ` --max-replica-count=MAX_REPLICA_COUNT ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID ^ --deployed-index-id=DEPLOYED_INDEX_ID ^ --min-replica-count=MIN_REPLICA_COUNT ^ --max-replica-count=MAX_REPLICA_COUNT ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
- MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:mutateDeployedIndex
JSON-Text anfordern:
{ "deployedIndex": { "id": "DEPLOYED_INDEX_ID", "index": "projects/PROJECT_ID/locations/LOCATION/indexes/INDEX_ID", "displayName": "DEPLOYED_INDEX_NAME" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata", "genericMetadata": { "createTime": "2020-10-19T17:53:16.502088Z", "updateTime": "2020-10-19T17:53:16.502088Z" }, "deployedIndexId": "DEPLOYED_INDEX_ID" } }
Bereitstellungseinstellungen, die sich auf die Leistung auswirken
Die folgenden Bereitstellungseinstellungen können sich bei der Verwendung der Vektorsuche auf Latenz, Verfügbarkeit und Kosten auswirken. Diese Empfehlung gilt in den meisten Fällen. Testen Sie jedoch immer mit Ihren Konfigurationen, ob sie sich für Ihren Anwendungsfall eignen.
Einstellung | Auswirkungen auf die Leistung |
---|---|
Maschinentyp |
Die Hardwareauswahl interagiert direkt mit der ausgewählten Shard-Größe. Je nachdem, welche Shard-Auswahl Sie bei der Indexerstellung festgelegt haben, bietet jeder Maschinentyp einen Kompromiss zwischen Leistung und Kosten. Auf der Preisseite können Sie die verfügbare Hardware und die Preise ermitteln. Im Allgemeinen steigt die Leistung in der folgenden Reihenfolge an:
|
Mindestanzahl der Replikate |
Wenn die Arbeitslasten auf niedrige Werte fallen und dann schnell auf höhere Werte ansteigen, sollten Sie |
Maximale Anzahl der Replikate |
Mit maxReplicaCount können Sie hauptsächlich die Nutzungskosten steuern. Sie können verhindern, dass die Kosten über einen bestimmten Schwellenwert hinausgehen. Dabei müssen Sie jedoch die Latenz erhöhen und die Verfügbarkeit reduzieren.
|
IndexEndpoints
auflisten
Führen Sie den folgenden Code aus, um Ihre IndexEndpoint
-Ressourcen aufzulisten und die Informationen zu den zugehörigen DeployedIndex
-Instanzen aufzurufen:
gcloud
Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints list
verwendet:
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints list \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints list ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints list ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "indexEndpoints": [ { "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID", "displayName": "INDEX_ENDPOINT_DISPLAY_NAME", "deployedIndexes": [ { "id": "DEPLOYED_INDEX_ID", "index": "projects/PROJECT_NUMBER/locations/LOCATION/indexes/INDEX_ID", "displayName": "DEPLOYED_INDEX_DISPLAY_NAME", "createTime": "2021-06-04T02:23:40.178286Z", "privateEndpoints": { "matchGrpcAddress": "GRPC_ADDRESS" }, "indexSyncTime": "2022-01-13T04:22:00.151916Z", "automaticResources": { "minReplicaCount": 2, "maxReplicaCount": 10 } } ], "etag": "AMEw9yP367UitPkLo-khZ1OQvqIK8Q0vLAzZVF7QjdZ5O3l7Zow-mzBo2l6xmiuuMljV", "createTime": "2021-03-17T04:47:28.460373Z", "updateTime": "2021-06-04T02:23:40.930513Z", "network": "VPC_NETWORK_NAME" } ] }
Console
Verwenden Sie diese Anleitung, um eine Liste Ihrer Indexendpunkte aufzurufen.
- Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche aus.
- Wählen Sie oben auf der Seite den Tab Indexendpunkt aus.
- Alle vorhandenen Indexendpunkte werden angezeigt.
Weitere Informationen finden Sie in der Referenzdokumentation zu IndexEndpoint
.
Bereitstellung eines Index aufheben
Führen Sie den folgenden Code aus, um die Bereitstellung eines Index am Endpunkt aufzuheben:
gcloud
Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints undeploy-index
verwendet:
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID \ --deployed-index-id=DEPLOYED_INDEX_ID \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID ` --deployed-index-id=DEPLOYED_INDEX_ID ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID ^ --deployed-index-id=DEPLOYED_INDEX_ID ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:undeployIndex
JSON-Text anfordern:
{ "deployed_index_id": "DEPLOYED_INDEX_ID" }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.UndeployIndexOperationMetadata", "genericMetadata": { "createTime": "2022-01-13T04:09:56.641107Z", "updateTime": "2022-01-13T04:09:56.641107Z" } } }
Console
Folgen Sie dieser Anleitung, um die Bereitstellung eines Index von einem Endpunkt aufzuheben.
- Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche aus.
- Eine Liste Ihrer aktiven Indexe wird angezeigt.
- Wählen Sie den Index aus, dessen Bereitstellung Sie aufheben möchten. Die Seite mit den Indexdetails wird geöffnet.
- Identifizieren Sie im Abschnitt Bereitgestellte Indexe die Indexversion, deren Bereitstellung Sie aufheben möchten.
- Klicken Sie auf das -Optionsmenü, das sich in derselben Zeile wie der Index befindet, und wählen Sie Bereitstellung aufheben aus.
- Ein Bestätigungsbildschirm wird geöffnet. Klicken Sie auf Undeploy. Hinweis: Es kann bis zu 30 Minuten dauern, bis die Bereitstellung aufgehoben ist.
IndexEndpoint
löschen
Bevor Sie einen IndexEndpoint
löschen, müssen Sie die Bereitstellung der Indexe, die am Endpunkt bereitgestellt werden, aufheben.
gcloud
Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints delete
verwendet:
Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
Führen Sie folgenden Befehl aus:
Linux, macOS oder Cloud Shell
gcloud ai index-endpoints delete INDEX_ENDPOINT_ID \ --region=LOCATION \ --project=PROJECT_ID
Windows (PowerShell)
gcloud ai index-endpoints delete INDEX_ENDPOINT_ID ` --region=LOCATION ` --project=PROJECT_ID
Windows (cmd.exe)
gcloud ai index-endpoints delete INDEX_ENDPOINT_ID ^ --region=LOCATION ^ --project=PROJECT_ID
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
- LOCATION: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
DELETE https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeleteOperationMetadata", "genericMetadata": { "createTime": "2022-01-13T04:36:19.142203Z", "updateTime": "2022-01-13T04:36:19.142203Z" } }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Console
Folgen Sie dieser Anleitung, um einen Indexendpunkt zu löschen.
- Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche aus.
- Wählen Sie oben auf der Seite den Tab Indexendpunkt aus.
- Alle vorhandenen Indexendpunkte werden angezeigt.
- Klicken Sie auf das -Optionsmenü, das sich in derselben Zeile wie der zu löschende Index befindet, und wählen Sie Löschen aus.
- Ein Bestätigungsbildschirm wird geöffnet. Klicken Sie auf Löschen. Der Indexendpunkt wurde gelöscht.