Indexendpunkte in einem VPC-Netzwerk bereitstellen und verwalten

Die Bereitstellung eines Index auf einem Endpunkt umfasst die folgenden drei Aufgaben:

  1. Erstellen Sie bei Bedarf einen IndexEndpoint oder verwenden Sie einen vorhandenen IndexEndpoint.
  2. Rufen Sie die ID IndexEndpoint ab.
  3. Stellen Sie den Index auf dem IndexEndpoint bereit.

Erstellen Sie einen IndexEndpoint in Ihrem VPC-Netzwerk.

Wenn Sie einen Index in einem vorhandenen IndexEndpoint bereitstellen, können Sie diesen Schritt überspringen.

Bevor Sie einen Index zum Bereitstellen von Onlineabfragen für den Vektorabgleich verwenden können, müssen Sie den Index auf einem IndexEndpoint innerhalb Ihres VPC-Netzwerk-Peering-Netzwerks bereitstellen. Im ersten Schritt erstellen Sie einen IndexEndpoint. Sie können mehr als einen Index auf einem IndexEndpoint bereitstellen, der dasselbe VPC-Netzwerk verwendet.

gcloud

Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints create verwendet:

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • INDEX_ENDPOINT_NAME: Der Anzeigename des Indexendpunkts
  • VPC_NETWORK_NAME: Der Google Compute Engine-Netzwerkname, mit dem ein Indexendpunkt-Peering erfolgen soll.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints create \
    --display-name=INDEX_ENDPOINT_NAME \
    --network=VPC_NETWORK_NAME \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints create `
    --display-name=INDEX_ENDPOINT_NAME `
    --network=VPC_NETWORK_NAME `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints create ^
    --display-name=INDEX_ENDPOINT_NAME ^
    --network=VPC_NETWORK_NAME ^
    --region=LOCATION ^
    --project=PROJECT_ID

Sie sollten eine Antwort ähnlich der folgenden erhalten:

The Google Cloud CLI tool might take a few minutes to create the IndexEndpoint.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • INDEX_ENDPOINT_NAME: Der Anzeigename des Indexendpunkts
  • VPC_NETWORK_NAME: Der Google Compute Engine-Netzwerkname, mit dem ein Indexendpunkt-Peering erfolgen soll.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints

JSON-Text anfordern:

{
  "display_name": "INDEX_ENDPOINT_NAME",
  "network": "VPC_NETWORK_NAME"
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateIndexEndpointOperationMetadata",
    "genericMetadata": {
      "createTime": "2022-01-13T04:09:56.641107Z",
      "updateTime": "2022-01-13T04:09:56.641107Z"
    }
  }
}

Sie können den Status des Vorgangs abfragen, bis in der Antwort "done": true angegeben wird.

Console

Folgen Sie dieser Anleitung, um einen Indexendpunkt zu erstellen.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche

    Zur Vektorsuche

  2. Eine Liste Ihrer aktiven Indexe wird angezeigt.
  3. Wählen Sie oben auf der Seite den Tab Indexendpunkte aus. Ihre Indexendpunkte werden angezeigt.
  4. Klicken Sie auf Neuen Indexendpunkt erstellen. Der Bereich „Neuen Indexendpunkt erstellen“ wird geöffnet.
  5. Geben Sie einen Anzeigenamen für den Indexendpunkt ein.
  6. Wählen Sie im Feld Region eine Region aus dem Drop-down-Menü aus.
  7. Wählen Sie im Feld Zugriff die Option Privat aus.
  8. Geben Sie die Details zum Peering-VPC-Netzwerk ein. Geben Sie den vollständigen Namen des Compute Engine-Netzwerks ein, mit dem ein Job-Peering ausgeführt werden soll. Das Format sollte projects/{project_num}/global/networks/{network_id} sein.
  9. Klicken Sie auf Erstellen.

Index bereitstellen

gcloud

In diesem Beispiel wird der Befehl gcloud ai index-endpoints deploy-index verwendet.

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • DEPLOYED_INDEX_ENDPOINT_NAME: Der Anzeigename des bereitgestellten Indexendpunkts
  • INDEX_ID: Die ID des Index.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --display-name=DEPLOYED_INDEX_ENDPOINT_NAME \
    --index=INDEX_ID \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --display-name=DEPLOYED_INDEX_ENDPOINT_NAME `
    --index=INDEX_ID `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --display-name=DEPLOYED_INDEX_ENDPOINT_NAME ^
    --index=INDEX_ID ^
    --region=LOCATION ^
    --project=PROJECT_ID

Sie sollten eine Antwort ähnlich der folgenden erhalten:

The Google Cloud CLI tool might take a few minutes to create the IndexEndpoint.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • DEPLOYED_INDEX_ENDPOINT_NAME: Der Anzeigename des bereitgestellten Indexendpunkts
  • INDEX_ID: Die ID des Index.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex

JSON-Text anfordern:

{
 "deployedIndex": {
   "id": "DEPLOYED_INDEX_ID",
   "index": "projects/PROJECT_ID/locations/LOCATION/indexes/INDEX_ID",
   "displayName": "DEPLOYED_INDEX_ENDPOINT_NAME"
 }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata",
   "genericMetadata": {
     "createTime": "2022-10-19T17:53:16.502088Z",
     "updateTime": "2022-10-19T17:53:16.502088Z"
   },
   "deployedIndexId": "DEPLOYED_INDEX_ID"
 }
}

Console

Folgen Sie dieser Anleitung, um Ihren Index auf einem Endpunkt bereitzustellen.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche

    Zur Vektorsuche

  2. Eine Liste Ihrer aktiven Indexe wird angezeigt.
  3. Wählen Sie den Namen des Index aus, den Sie bereitstellen möchten. Die Seite mit den Indexdetails wird geöffnet.
  4. Klicken Sie auf der Seite mit den Indexdetails auf Auf Endpunkt bereitstellen Das Feld für die Indexbereitstellung wird geöffnet.
  5. Geben Sie einen Anzeigenamen ein. Dieser Name dient als ID und kann nicht aktualisiert werden.
  6. Wählen Sie im Drop-down-Menü Endpunkt den Endpunkt aus, auf dem Sie diesen Index bereitstellen möchten. Hinweis: Der Endpunkt ist nicht verfügbar, wenn der Index bereits auf ihm bereitgestellt ist.
  7. Optional: Wählen Sie im Feld Maschinentyp entweder „Standard“ oder „Großer Speicher“ aus.
  8. Optional. Wählen Sie Autoscaling aktivieren aus, um die Anzahl der Knoten automatisch an die Anforderungen Ihrer Arbeitslasten anzupassen. Die Standardanzahl von Replikaten ist 2, wenn Autoscaling deaktiviert ist.
  9. Klicken Sie auf Bereitstellen, um Ihren Index auf dem Endpunkt bereitzustellen. Hinweis: Die Bereitstellung dauert ungefähr 30 Minuten.

Automatische Skalierung aktivieren

Die Vektorsuche unterstützt Autoscaling, mit dem die Anzahl der Knoten automatisch an die Anforderungen Ihrer Arbeitslasten angepasst werden kann. Bei hoher Nachfrage werden Knoten dem Knotenpool hinzugefügt, überschreiten aber die von Ihnen festgelegte maximale Größe nicht. Bei geringer Nachfrage wird der Knotenpool wieder auf eine von Ihnen festgelegte Mindestgröße herunterskaliert. Sie können die tatsächlich verwendeten Knoten und die Änderungen prüfen, wenn Sie die aktuellen Replikate überwachen.

Um das Autoscaling zu aktivieren, geben Sie beim Bereitstellen des Index maxReplicaCount und minReplicaCount an:

gcloud

Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints deploy-index verwendet:

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • DEPLOYED_INDEX_NAME: Der Anzeigename des bereitgestellten Index
  • INDEX_ID: Die ID des Index.
  • MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
  • MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --display-name=DEPLOYED_INDEX_NAME \
    --index=INDEX_ID \
    --min-replica-count=MIN_REPLICA_COUNT \
    --max-replica-count=MAX_REPLICA_COUNT \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --display-name=DEPLOYED_INDEX_NAME `
    --index=INDEX_ID `
    --min-replica-count=MIN_REPLICA_COUNT `
    --max-replica-count=MAX_REPLICA_COUNT `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints deploy-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --display-name=DEPLOYED_INDEX_NAME ^
    --index=INDEX_ID ^
    --min-replica-count=MIN_REPLICA_COUNT ^
    --max-replica-count=MAX_REPLICA_COUNT ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • DEPLOYED_INDEX_NAME: Der Anzeigename des bereitgestellten Index
  • INDEX_ID: Die ID des Index.
  • MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
  • MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:deployIndex

JSON-Text anfordern:

{
 "deployedIndex": {
   "id": "DEPLOYED_INDEX_ID",
   "index": "projects/PROJECT_NUMBER/locations/LOCATION/indexes/INDEX_ID",
   "displayName": "DEPLOYED_INDEX_NAME",
   "automaticResources": {
     "minReplicaCount": MIN_REPLICA_COUNT,
     "maxReplicaCount": MAX_REPLICA_COUNT
   }
 }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata",
   "genericMetadata": {
     "createTime": "2023-10-19T17:53:16.502088Z",
     "updateTime": "2023-10-19T17:53:16.502088Z"
   },
   "deployedIndexId": "DEPLOYED_INDEX_ID"
 }
}

Console

Sie können das Autoscaling nur während der Indexbereitstellung über die Console aktivieren.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche

    Zur Vektorsuche

  2. Eine Liste Ihrer aktiven Indexe wird angezeigt.
  3. Wählen Sie den Namen des Index aus, den Sie bereitstellen möchten. Die Seite mit den Indexdetails wird geöffnet.
  4. Klicken Sie auf der Seite mit den Indexdetails auf Auf Endpunkt bereitstellen Das Feld für die Indexbereitstellung wird geöffnet.
  5. Geben Sie einen Anzeigenamen ein. Dieser Name dient als ID und kann nicht aktualisiert werden.
  6. Wählen Sie im Drop-down-Menü Endpunkt den Endpunkt aus, auf dem Sie diesen Index bereitstellen möchten. Hinweis: Der Endpunkt ist nicht verfügbar, wenn der Index bereits auf ihm bereitgestellt ist.
  7. Optional: Wählen Sie im Feld Maschinentyp entweder „Standard“ oder „Großer Speicher“ aus.
  8. Optional. Wählen Sie Autoscaling aktivieren aus, um die Anzahl der Knoten automatisch an die Anforderungen Ihrer Arbeitslasten anzupassen. Die Standardanzahl von Replikaten ist 2, wenn Autoscaling deaktiviert ist.
  • Wenn sowohl minReplicaCount als auch maxReplicaCount nicht festgelegt sind, werden sie standardmäßig auf 2 gesetzt.
  • Wenn nur maxReplicaCount festgelegt ist, ist minReplicaCount standardmäßig auf 2 gesetzt.
  • Wenn nur minReplicaCount festgelegt ist, ist maxReplicaCount gleich minReplicaCount.

DeployedIndex mutieren

Sie können die MutateDeployedIndex API verwenden, um die Bereitstellungsressourcen (z. B. minReplicaCount und maxReplicaCount) eines bereits bereitgestellten Index zu aktualisieren.

  • Nutzer dürfen den machineType nach der Bereitstellung des Index nicht mehr ändern.
  • Wenn maxReplicaCount nicht in der Anfrage angegeben ist, verwendet DeployedIndex weiterhin den vorhandenen maxReplicaCount.

gcloud

Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints mutate-deployed-index verwendet:

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
  • MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --min-replica-count=MIN_REPLICA_COUNT \
    --max-replica-count=MAX_REPLICA_COUNT \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --min-replica-count=MIN_REPLICA_COUNT `
    --max-replica-count=MAX_REPLICA_COUNT `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints mutate-deployed-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --min-replica-count=MIN_REPLICA_COUNT ^
    --max-replica-count=MAX_REPLICA_COUNT ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • MIN_REPLICA_COUNT: Die Mindestanzahl an Maschinenreplikaten, auf denen der bereitgestellte Index immer bereitgestellt wird. Falls der Wert angegeben wird, muss er gleich oder größer als 1 sein.
  • MAX_REPLICA_COUNT: Die maximale Anzahl an Maschinenreplikaten, auf denen der bereitgestellte Index bereitgestellt werden kann.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:mutateDeployedIndex

JSON-Text anfordern:

{
"deployedIndex": {
  "id": "DEPLOYED_INDEX_ID",
  "index": "projects/PROJECT_ID/locations/LOCATION/indexes/INDEX_ID",
  "displayName": "DEPLOYED_INDEX_NAME"
}
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
"metadata": {
  "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployIndexOperationMetadata",
  "genericMetadata": {
    "createTime": "2020-10-19T17:53:16.502088Z",
    "updateTime": "2020-10-19T17:53:16.502088Z"
  },
  "deployedIndexId": "DEPLOYED_INDEX_ID"
}
}

Bereitstellungseinstellungen, die sich auf die Leistung auswirken

Die folgenden Bereitstellungseinstellungen können sich bei der Verwendung der Vektorsuche auf Latenz, Verfügbarkeit und Kosten auswirken. Diese Empfehlung gilt in den meisten Fällen. Testen Sie jedoch immer mit Ihren Konfigurationen, ob sie sich für Ihren Anwendungsfall eignen.

Einstellung Auswirkungen auf die Leistung
Maschinentyp

Die Hardwareauswahl hat eine direkte Interaktion mit der ausgewählten Shard-Größe. Abhängig von den Shard-Optionen, die Sie bei der Indexerstellung festgelegt haben, bietet jeder Maschinentyp einen Kompromiss zwischen Leistung und Kosten.

Auf der Preisseite finden Sie die verfügbare Hardware und die Preise. Die Leistung steigt im Allgemeinen in folgender Reihenfolge:

  • E2-Standard
  • E2 highmem
  • N1-Standard
  • N2D-Standard
Mindestanzahl der Replikate

minReplicaCount reserviert eine Mindestkapazität für Verfügbarkeit und Latenz, damit das System keine Kaltstartprobleme hat, wenn der Traffic schnell von niedrigen Leveln hochskaliert wird.

Wenn Ihre Arbeitslasten auf niedriges Niveau fallen und dann schnell auf höhere Ebenen ansteigen, sollten Sie vielleicht minReplicaCount auf einen Wert festlegen, der die ersten Traffic-Bursts bewältigen kann.

Maximale Anzahl der Replikate Mit maxReplicaCount können Sie in erster Linie die Nutzungskosten steuern. Sie können verhindern, dass die Kosten über einen bestimmten Schwellenwert hinausgehen. Dabei müssen Sie jedoch die erhöhte Latenz zulassen und die Verfügbarkeit reduzieren.

IndexEndpoints auflisten

Führen Sie den folgenden Code aus, um Ihre IndexEndpoint-Ressourcen aufzulisten und die Informationen zu den zugehörigen DeployedIndex-Instanzen aufzurufen:

gcloud

Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints list verwendet:

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints list \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints list `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints list ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
 "indexEndpoints": [
   {
     "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID",
     "displayName": "INDEX_ENDPOINT_DISPLAY_NAME",
     "deployedIndexes": [
       {
         "id": "DEPLOYED_INDEX_ID",
         "index": "projects/PROJECT_NUMBER/locations/LOCATION/indexes/INDEX_ID",
         "displayName": "DEPLOYED_INDEX_DISPLAY_NAME",
         "createTime": "2021-06-04T02:23:40.178286Z",
         "privateEndpoints": {
           "matchGrpcAddress": "GRPC_ADDRESS"
         },
         "indexSyncTime": "2022-01-13T04:22:00.151916Z",
         "automaticResources": {
           "minReplicaCount": 2,
           "maxReplicaCount": 10
         }
       }
     ],
     "etag": "AMEw9yP367UitPkLo-khZ1OQvqIK8Q0vLAzZVF7QjdZ5O3l7Zow-mzBo2l6xmiuuMljV",
     "createTime": "2021-03-17T04:47:28.460373Z",
     "updateTime": "2021-06-04T02:23:40.930513Z",
     "network": "VPC_NETWORK_NAME"
   }
 ]
}

Console

Verwenden Sie diese Anleitung, um eine Liste Ihrer Indexendpunkte aufzurufen.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche

    Zur Vektorsuche

  2. Wählen Sie oben auf der Seite den Tab Indexendpunkt aus.
  3. Alle vorhandenen Indexendpunkte werden angezeigt.

Weitere Informationen finden Sie in der Referenzdokumentation zu IndexEndpoint.

Bereitstellung eines Index aufheben

Führen Sie den folgenden Code aus, um die Bereitstellung eines Index aufzuheben:

gcloud

Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints undeploy-index verwendet:

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID \
    --deployed-index-id=DEPLOYED_INDEX_ID \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID `
    --deployed-index-id=DEPLOYED_INDEX_ID `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints undeploy-index INDEX_ENDPOINT_ID ^
    --deployed-index-id=DEPLOYED_INDEX_ID ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • DEPLOYED_INDEX_ID: Ein vom Nutzer angegebener String zur eindeutigen Identifizierung des bereitgestellten Index. Er muss mit einem Buchstaben beginnen und darf nur Buchstaben, Zahlen oder Unterstriche enthalten. Formatrichtlinien finden Sie im Artikel zu DeployedIndex.id.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID:undeployIndex

JSON-Text anfordern:

{
 "deployed_index_id": "DEPLOYED_INDEX_ID"
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.UndeployIndexOperationMetadata",
   "genericMetadata": {
     "createTime": "2022-01-13T04:09:56.641107Z",
     "updateTime": "2022-01-13T04:09:56.641107Z"
   }
 }
}

Console

Folgen Sie dieser Anleitung, um die Bereitstellung eines Index aufzuheben.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche

    Zur Vektorsuche

  2. Eine Liste Ihrer aktiven Indexe wird angezeigt.
  3. Wählen Sie den Index aus, dessen Bereitstellung Sie aufheben möchten. Die Seite mit den Indexdetails wird geöffnet.
  4. Identifizieren Sie im Abschnitt Bereitgestellte Indexe den Indexendpunkt, dessen Bereitstellung Sie aufheben möchten.
  5. Klicken Sie auf das -Optionsmenü, das sich in derselben Zeile wie der Indexendpunkt befindet, und wählen Sie Bereitstellung aufheben aus.
  6. Ein Bestätigungsbildschirm wird geöffnet. Klicken Sie auf Bereitstellung aufheben. Hinweis: Es kann bis zu 30 Minuten dauern, bis die Bereitstellung aufgehoben ist.

IndexEndpoint löschen

Bevor Sie einen IndexEndpoint löschen, müssen Sie alle Indexbereitstellungen auf dem Endpunkt aufheben.

gcloud

Im folgenden Beispiel wird der Befehl gcloud ai index-endpoints delete verwendet:

Ersetzen Sie folgende Werte, bevor sie einen der Befehlsdaten verwenden:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.

Führen Sie folgenden Befehl aus:

Linux, macOS oder Cloud Shell

gcloud ai index-endpoints delete INDEX_ENDPOINT_ID \
    --region=LOCATION \
    --project=PROJECT_ID

Windows (PowerShell)

gcloud ai index-endpoints delete INDEX_ENDPOINT_ID `
    --region=LOCATION `
    --project=PROJECT_ID

Windows (cmd.exe)

gcloud ai index-endpoints delete INDEX_ENDPOINT_ID ^
    --region=LOCATION ^
    --project=PROJECT_ID

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • INDEX_ENDPOINT_ID: Die ID des Indexendpunkts.
  • LOCATION: Die Region, in der Sie Vertex AI verwenden.
  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

DELETE https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
 "name": "projects/PROJECT_NUMBER/locations/LOCATION/indexEndpoints/INDEX_ENDPOINT_ID/operations/OPERATION_ID",
 "metadata": {
   "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeleteOperationMetadata",
   "genericMetadata": {
     "createTime": "2022-01-13T04:36:19.142203Z",
     "updateTime": "2022-01-13T04:36:19.142203Z"
   }
 },
 "done": true,
 "response": {
   "@type": "type.googleapis.com/google.protobuf.Empty"
 }
}

Console

Folgen Sie dieser Anleitung, um einen Indexendpunkt zu löschen.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche

    Zur Vektorsuche

  2. Wählen Sie oben auf der Seite den Tab Indexendpunkte aus.
  3. Alle vorhandenen Indexendpunkte werden angezeigt.
  4. Klicken Sie auf das -Optionsmenü, das sich in derselben Zeile wie der zu löschende Indexendpunkt befindet, und wählen Sie Löschen aus.
  5. Ein Bestätigungsbildschirm wird geöffnet. Klicken Sie auf Löschen. Der Indexendpunkt wurde jetzt gelöscht.