Webseiten mithilfe von Sitemaps indexieren und aktualisieren

Wenn die erweiterte Websiteindexierung in Ihrem Datenspeicher aktiviert ist, können Sie Sitemaps einreichen und verwenden, um die Webseiten in Ihrem Datenspeicher zu indexieren und zu aktualisieren. Diese Funktion unterstützt nur XML-Sitemaps und Sitemap-Indexe.

Auf dieser Seite wird beschrieben, wie Sie eine Sitemap oder einen Sitemap-Index einreichen, um eine sitemapbasierte Indexierung und Aktualisierung auszulösen. Informationen zur automatischen und manuellen Aktualisierung ohne Sitemap finden Sie unter Webseiten aktualisieren.

Außerdem wird auf dieser Seite beschrieben, wie Sie die Sitemaps in Ihrem Datenspeicher aufrufen oder eine Sitemap löschen.

Sitemap-basierte Aktualisierungskonzepte

Hier sind einige wichtige Konzepte und Begriffe, die Ihnen den Einstieg erleichtern:

  • Sitemap-Protokoll: Alle Sitemaps und Sitemap-Indexe, die von Vertex AI Search unterstützt werden, müssen dem Sitemap-Protokoll entsprechen.

  • Sitemap: Eine Sitemap ist eine UTF-8-codierte XML-Datei, die eine Liste der URLs der Webseiten und Dateien auf Ihrer Website mit anderen wichtigen, aber optionalen Informationen enthält, z. B. das Datum der letzten Änderung der Webseite und die Priorität der Webseite für einen Crawler im Vergleich zu anderen Webseiten auf Ihrer Website. Gemäß dem Sitemap-Protokoll kann eine einzelne Sitemap maximal 50.000 URLs enthalten und darf maximal 50 MB groß sein.

  • Sitemap-Index: Wenn Ihre Sitemap die maximale Anzahl von URLs oder die maximale Größe überschreitet, können Sie mehrere Sitemaps erstellen und diese in einer Sitemap-Indexdatei auflisten. Gemäß dem Sitemap-Protokoll können in einem einzelnen Sitemap-Index maximal 50.000 Sitemaps verschachtelt sein. Die maximale Größe beträgt 50 MB.

Sie können eine oder mehrere Sitemaps, einen oder mehrere Sitemap-Indexe oder eine Kombination aus Sitemaps und Sitemap-Indexen in die Vertex AI Search einreichen.

Wenn Sie Ihre Sitemap oder Ihren Sitemap-Index an den Vertex AI Search-Datenspeicher senden, werden die folgenden Aktionen ausgelöst:

  • Indexierung der enthaltenen URLs im Datenspeicherindex.

    • Bei einer reinen Sitemap-Aktualisierung enthält diese Liste nur die URLs in der Sitemap oder im Sitemap-Index, die dem URL-Muster in Ihrem Datenspeicher entsprechen.
    • Bei einer kombinierten Aktualisierung enthält diese Liste alle URLs, die beim automatischen Aktualisierungsprozess gefunden werden.

    Weitere Informationen zu diesen beiden Aktualisierungsverfahren finden Sie unter Methoden zum Aktualisieren von Website-Datenspeichern und Nur Sitemap aktualisieren.

  • Tägliche Aktualisierung der enthaltenen URLs

Methoden zum Aktualisieren des Website-Datenspeichers

Sie haben folgende Möglichkeiten, die sitemapbasierte Aktualisierung in Ihren Datenspeicher einzubinden:

  • Nur Sitemap-Aktualisierung: Wenn Sie ausschließlich die Sitemap-basierte Aktualisierung verwenden möchten, deaktivieren Sie die initiale Indexierung und die automatische Aktualisierung.
  • Kombinierte Aktualisierung: Verwenden Sie die sitemapbasierte Aktualisierung mit der anfänglichen Indexierung und der automatischen Aktualisierung.

Sie können bestimmte Webseiten in Ihrem Datenspeicherindex jederzeit manuell aktualisieren, unabhängig von der gewählten Aktualisierungsmethode.

Aktualisierung nur über Sitemap

Wenn Sie einen Website-Datenspeicher erstellen, müssen Sie URL-Muster für die Webseiten angeben, die in den Index Ihres Datenspeichers aufgenommen werden sollen. Wenn Sie einen Websitedatenspeicher erstellt haben, generiert Vertex AI Search standardmäßig einen ersten Index für die darin enthaltenen Webseiten.

Bei Websitedatenspeichern mit erweiterter Websiteindexierung ist die anfängliche Indexierung Teil der automatischen Aktualisierung. Bei der ersten Indexierung werden alle enthaltenen URLs indexiert, die in der Google Suche verfügbar sind. Die anfängliche Aktualität dieser URLs entspricht der Aktualität in der Google Suche. Nach der Erstindexierung werden beim automatischen Aktualisierungsprozess neue Seiten gefunden und auf Best-Effort-Basis aktualisiert. Das kann zu relativ veralteten Seiten und einem umfangreicheren Index führen, da bei diesem Prozess URLs gefunden werden, die möglicherweise nicht erforderlich sind.

Stattdessen können Sie eine Aktualisierung nur für die Sitemap ausführen. Das ist in den folgenden Fällen sinnvoll:

  • Sie haben eine gut gepflegte und aktuelle Sitemap.
  • Sie haben eine große Website und möchten genauer festlegen, welche Webseiten indexiert werden. Das Ergebnis ist ein schlankerer, überschaubarer Index.
  • Sie müssen Ihre indexierten Seiten täglich aktualisieren. Dies führt zu einem aktuelleren Index.

In der folgenden Tabelle werden die verschiedenen Methoden zum Aktualisieren des Datenspeicherindexes verglichen:

Aktualisierungsmethode Precision Manuelle Intervention Häufigkeit Discovery
Sitemap-basierte Aktualisierung Genau. Es werden nur die URLs in den Sitemaps indexiert. Nach dem Einreichen der Sitemap oder des Sitemap-Indexes nicht erforderlich Täglich Sie dürfen nicht über die in der Sitemap angegebenen hinausgehen.
Manuelle Aktualisierung (auch als erneutes Crawling bezeichnet) Genau. Es werden nur die URLs indexiert, die in der Anfrage für den erneuten Crawling angegeben sind. Erforderlich On demand Nein.
Automatische Aktualisierung Nicht ganz. Der Datenspeicher wird bestmöglich aktualisiert. Nicht erforderlich Zufällig und auf Best-Effort-Basis Ja. Ermöglicht die Suche nach URLs, die nicht in der Google Suche verfügbar sind.

Hinweise

Bevor Sie eine Sitemap oder einen Sitemap-Index an den Vertex AI Search-Datenspeicher senden, müssen Sie Folgendes tun:

  • Erstellen Sie eine XML-Sitemap oder einen Sitemap-Index, der gemäß dem Sitemap-Protokoll auf alle Sitemaps Ihrer Website verweist.
  • Um eine Sitemap oder einen Sitemap-Index in den Vertex AI Search-Datenspeicher einzureichen, ist es nicht erforderlich, dass die Sitemap in der Google Suche gecrawlt wird.
  • Alle URLs in Ihrer Sitemap, die indexiert werden sollen, müssen zu öffentlichen Domains gehören, die in Ihrem Datenspeicher bestätigt sind. Weitere Informationen finden Sie unter Websitedomains bestätigen.
  • Der Sitemap-URI oder der Sitemap-Index-URI mit den verschachtelten Sitemap-URIs muss öffentlich zugänglich sein.

Sitemap oder Sitemap-Index in einem Datenspeicher einreichen

So lösen Sie die Indexierung und Aktualisierung der enthaltenen Webseiten in Ihrem Datenspeicher aus:

  1. Entscheiden Sie, ob Sie nur die Sitemap aktualisieren oder eine Kombination aus Sitemap und anderen Methoden verwenden möchten.

  2. Wenn Sie nur die Sitemap aktualisieren möchten, führen Sie diesen Schritt aus. Andernfalls fahren Sie mit dem nächsten Schritt fort.

    Sie können keinen vorhandenen Datenspeicher verwenden, der bereits initial indexiert und aktualisiert wurde. Sie müssen einen neuen Datenspeicher erstellen, indem Sie die Erstindexierung und die automatische Aktualisierung über die AdvancedSiteSearchConfig-Konfiguration deaktivieren.

    REST

    Erstellen Sie einen Datenspeicher, in dem nur die Sitemap-Aktualisierung aktiviert ist. Dazu deaktivieren Sie den Index und die automatische Aktualisierung.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
    • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Die ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: Der Anzeigename des Vertex AI Search-Datenspeichers, den Sie erstellen möchten.

  3. Aktualisieren Sie die URL-Muster der Websites, die in Ihrem Datenspeicher ein- und ausgeschlossen werden sollen. Weitere Informationen finden Sie unter Datenspeicher mit Websitecontent erstellen.

  4. Bestätigen Sie die Domains der Webseiten, die in Ihrem Datenspeicher enthalten sind.

  5. Unabhängig davon, ob Sie nur die Sitemap oder eine Kombination aus Sitemap und Index aktualisieren möchten, reichen Sie mit der Methode sitemaps.create einen Sitemap- oder Sitemap-Index-URI in einem Datenspeicher ein.

    REST

    Reichen Sie eine Sitemap oder einen Sitemap-Index ein.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
    • DATA_STORE_ID: die ID des Vertex AI Search-Datenspeichers.
    • SITEMAP_URI: Der öffentliche URI für die einzelne Sitemap oder den Sitemap-Index, den Sie einreichen möchten. Wenn Sie einen Sitemap-Index einreichen, reicht es aus, den URI des Sitemap-Indexes einzureichen. Die Vertex AI Search indexiert automatisch die enthaltenen URLs in allen Sitemaps, die im Sitemap-Index verschachtelt sind.

    Nachdem Sie die Sitemap oder den Sitemap-Index an den Datenspeicher gesendet haben, löst Vertex AI Search Folgendes aus:

    • Indexierung der infrage kommenden URLs in der Sitemap, die in Ihrem Datenspeicher enthalten sind. Dieser Vorgang kann einige Stunden dauern. Bei größeren Sitemaps kann die Indexierung länger dauern.
    • Die Webseiten mit infrage kommenden URLs werden täglich aktualisiert.

    Wie sich Änderungen an der Sitemap oder dem Sitemap-Index auf die Aktualisierung auswirken, erfahren Sie unter Änderungen an der Sitemap und dem Sitemap-Index.

  6. Sehen Sie sich die Sitemaps in Ihrem Datenspeicher an.

Änderungen an der Sitemap und dem Sitemap-Index

Nach der ersten Einreichung erkennt die Vertex AI Search täglich Änderungen an Ihrer Sitemap oder Ihrem Sitemap-Index und verarbeitet diese Änderungen so:

  • Änderungen an einer Sitemap:
    • Wenn Sie URLs hinzufügen: URLs, die dem Muster der eingeschlossenen URLs für den Datenspeicher entsprechen, werden dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie URLs entfernen: Wenn die entfernten URLs im Index sind, werden sie daraus entfernt und nicht mehr aktualisiert.
    • Wenn Sie die vorhandenen URLs aktualisieren, z. B. das Feld lastmod für eine URL in der Sitemap, werden alle aktualisierten URLs, die dem Muster für die eingeschlossenen URLs für den Datenspeicher entsprechen, aktualisiert. Die Aktualisierung erfolgt in der Regel innerhalb von 24 Stunden nach dem Update.
  • Änderungen an einem Sitemap-Index:
    • Wenn Sie eine Sitemap hinzufügen: URLs in der neuen Sitemap, die mit dem enthaltenen URL-Muster für den Datenspeicher übereinstimmen, werden dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie eine Sitemap entfernen, werden die URLs, die mit dem enthaltenen URL-Muster für den Datenspeicher übereinstimmen, nicht mehr aktualisiert. Sie bleiben jedoch im Index. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und ihre URLs aus dem Index entfernen.

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten

Verwenden Sie die Methode sitemaps.fetch, um alle Sitemaps und Sitemap-Indexe in einem Datenspeicher aufzulisten. Wenn Sie einen Sitemap-Index eingereicht haben, wird mit dieser Methode der Sitemap-Index zurückgegeben, nicht die einzelnen verschachtelten Sitemaps. Wenn sich keine Sitemaps im Datenspeicher befinden, gibt diese Anfrage eine leere JSON-Datei zurück.

REST

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Ersetzen Sie Folgendes:

  • PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
  • DATA_STORE_ID: die ID des Vertex AI Search-Datenspeichers.

Prüfen, ob eine Sitemap oder ein Sitemap-Index in einem Datenspeicher vorhanden ist

Verwenden Sie die Methode sitemaps.fetch, um zu prüfen, ob sich eine Sitemap oder ein Sitemap-Index in einem Datenspeicher befindet. Wenn die Sitemap oder der Sitemap-Index, den Sie prüfen möchten, an den Datenspeicher gesendet wurde, enthält die Antwort den Namen und den URI der Sitemap. Wenn Sie einen Sitemap-Index eingereicht haben, werden bei der Suche nach einzelnen Sitemaps im Sitemap-Index nicht die richtigen Ergebnisse zurückgegeben.

REST

Prüfen Sie in einem Datenspeicher, ob eine Sitemap oder ein Sitemap-Index vorhanden ist.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Ersetzen Sie Folgendes:

  • PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
  • DATA_STORE_ID: die ID des Vertex AI Search-Datenspeichers.
  • SITEMAP_URI_N: Der öffentliche URI der Sitemap oder des Sitemap-Indexes, den Sie im Datenspeicher prüfen möchten.

Sitemap oder Sitemap-Index aus dem Datenspeicher löschen

Verwenden Sie die Methode sitemap.delete, um eine Sitemap aus dem Datenspeicher zu löschen. Wenn Sie eine Sitemap löschen, werden die darin enthaltenen URLs nicht aus dem Index entfernt. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und ihre URLs aus dem Index entfernen.

REST

Löschen Sie eine Sitemap oder einen Sitemap-Index.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Ersetzen Sie Folgendes:

Sitemap oder Sitemap-Index und die zugehörigen URLs aus dem Datenspeicherindex entfernen

So entfernen Sie eine Sitemap oder einen Sitemap-Index und die zugehörigen URLs aus dem Index:

  1. Entfernen Sie alle URLs aus der Sitemap oder dem Sitemap-Index, die an den Datenspeicher gesendet wurden.

    Wenn Sie einen Sitemap-Index in den Datenspeicher hochgeladen haben, leeren Sie die verschachtelten Sitemaps, indem Sie alle URLs entfernen, und entfernen Sie die Sitemap aus dem Sitemap-Index.

  2. Warten Sie 48 Stunden, bis Vertex AI Search diese Änderungen verarbeitet und die URLs aus dem Index des Datenspeichers entfernt hat.

  3. Löschen Sie die Sitemap oder den Sitemap-Index.