Wenn in Ihrem Datenspeicher die einfache Websitesuche verwendet wird, entspricht die Aktualität des Index Ihres Geschäfts der Aktualität, die in der Google Suche verfügbar ist.
Wenn in Ihrem Datenspeicher die erweiterte Websiteindexierung aktiviert ist, Webseiten in Ihrem Datenspeicher werden so aktualisiert:
- Automatische Aktualisierung
- Manuelle Aktualisierung
Auf dieser Seite werden beide Methoden beschrieben.
Automatische Aktualisierung
Vertex AI Search führt die automatische Aktualisierung so aus:
- Nachdem Sie einen Datenspeicher erstellt haben, generiert dieser einen anfänglichen Index für die eingeschlossenen Seiten.
- Nach der ersten Indexierung werden alle neu gefundenen Seiten indexiert und es wird erneut gecrawlt vorhandene Seiten auf Best-Effort-Basis.
- Datenspeicher, bei denen eine Abfragerate von 50 Abfragen pro 30 Tage erreicht wird, werden regelmäßig aktualisiert.
Manuelle Aktualisierung
Wenn Sie bestimmte Webseiten in einem Datenspeicher mit
Erweiterte Websiteindexierung aktiviert haben,
kann die Funktion
recrawlUris
-Methode. Im Feld uris
geben Sie jede Webseite an, die gecrawlt werden soll. Die Methode recrawlUris
ist ein lang andauernder
ausgeführt, bis die von Ihnen angegebenen Webseiten
gecrawlt wurde, oder bis nach 24 Stunden eine Zeitüberschreitung auftritt, je nachdem, was zuerst eintritt. Wenn bei der Methode recrawlUris
ein Zeitlimit erreicht wird, können Sie die Methode noch einmal aufrufen und die noch zu crawlenden Webseiten angeben. Sie können die Methode operations.get
abfragen, um den Status des erneuten Crawlings zu überwachen.
Einschränkungen beim Recrawling
Es gibt Einschränkungen für die Häufigkeit und Anzahl der Webseiten, die Sie gleichzeitig crawlen können:
- Anrufe pro Tag: Die maximale Anzahl von Aufrufen der Methode
recrawlUris
ist fünf pro Tag und Projekt. - Webseiten pro Aufruf Die maximale Anzahl von
uris
-Werten, die Sie mit einem Aufruf der MethoderecrawlUris
10.000 ist.
Die Webseiten in Ihrem Datenspeicher erneut crawlen
Sie können bestimmte Webseiten in einem Datenspeicher manuell crawlen, für den die erweiterte Websiteindexierung aktiviert ist.
REST
So verwenden Sie die Befehlszeile, um bestimmte Webseiten in Ihrem Datenspeicher zu crawlen:
Suchen Sie die Datenspeicher-ID. Wenn Sie die Datenspeicher-ID bereits haben, fahren Sie mit dem nächsten Schritt fort.
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf und klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf den Namen des Datenspeichers.
Rufen Sie auf der Datenseite Ihres Datenspeichers die Datenspeicher-ID ab.
Rufen Sie die Methode
recrawlUris
mit dem Felduris
auf. geben Sie jede Webseite an, die Sie crawlen möchten. Jedeuri
steht für eine einzelne Seite, auch wenn sie Sternchen (*
) enthält. Platzhaltermuster werden nicht unterstützt.curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine:recrawlUris" \ -d '{ "uris": [URIS] }'
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.DATA_STORE_ID
: die ID des Vertex AI Search-Datenspeichers.URIS
: die Liste der Webseiten, die gecrawlt werden sollen, z. B."https://example.com/page-1", "https://example.com/page-2", "https://example.com/page-3"
.
Die Ausgabe sieht in etwa so aus:
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata" } }
Speichern Sie den
name
-Wert als Eingabe für denoperations.get
-Vorgang, wenn Sie den Status des erneuten Crawlings im Blick behalten möchten.
Status des erneuten Crawlings prüfen
Die Methode recrawlUris
, mit der Sie Webseiten in einem Daten-
Store ist ein lang andauernder Vorgang, der so lange ausgeführt wird, bis die von Ihnen angegebenen Webseiten gecrawlt wurden.
oder bis nach 24 Stunden eine Zeitüberschreitung auftritt, je nachdem, was zuerst eintritt. Sie können den Status dieses Vorgangs mit langer Ausführungszeit überwachen, indem Sie die Methode operations.get
abfragen und dabei den von der Methode recrawlUris
zurückgegebenen Wert name
angeben. Fahren Sie mit der Abfrage fort, bis die Antwort Folgendes anzeigt:
(1) alle Ihre Webseiten gecrawlt wurden oder (2) beim Vorgang wurde das Zeitlimit überschritten, bevor alle
Ihrer Webseiten wurden gecrawlt. Wenn recrawlUris
eine Zeitüberschreitung auftritt, können Sie ihn noch einmal aufrufen und dabei die Websites angeben, die nicht gecrawlt wurden.
REST
Um den Status eines erneuten Crawlings über die Befehlszeile zu überwachen, folgen Sie diese Schritte:
Suchen Sie die Datenspeicher-ID. Wenn Sie die Datenspeicher-ID bereits haben, fahren Sie mit dem nächsten Schritt fort.
Rufen Sie in der Google Cloud Console die Seite Agent Builder auf und klicken Sie im Navigationsmenü auf Datenspeicher.
Klicken Sie auf den Namen Ihres Datenspeichers.
Rufen Sie auf der Datenseite Ihres Datenspeichers die Datenspeicher-ID ab.
Fragen Sie die Methode
operations.get
ab.curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/OPERATION_NAME"
Ersetzen Sie Folgendes:
PROJECT_ID
ist die ID Ihres Google Cloud-Projekts.OPERATION_NAME
: Der Vorgangsname im Feldname
, der bei Ihrem Aufruf der MethoderecrawlUris
unter Webseiten in Ihrem Datenspeicher noch einmal crawlen zurückgegeben wurde. Sie können den Vorgangsnamen auch abrufen, indem Sie lange laufende Vorgänge auflisten.
Bewerten Sie jede Antwort.
Wenn in einer Antwort angegeben wird, dass ausstehende URIs vorhanden sind und der erneute Crawlingvorgang noch nicht abgeschlossen ist, werden Ihre Webseiten noch gecrawlt. Fortfahren mit dem Abfragen.
Beispiel
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:22:10.978843Z", "validUrisCount": 4000, "successCount": 2215, "pendingCount": 1785 }, "done": false, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", } }
Die Antwortfelder können so beschrieben werden:
createTime
: Gibt den Zeitpunkt an, zu dem der lang andauernde Vorgang gestartet wurde.updateTime
: Gibt an, wann die Metadaten des Vorgangs mit langer Ausführungszeit zuletzt aktualisiert wurden. Die Metadaten werden alle fünf Minuten aktualisiert, bis der Vorgang abgeschlossen ist.validUrisCount
: Gibt an, dass Sie bei Ihrem Aufruf derrecrawlUris
-Methode 4.000 gültige URIs angegeben haben.successCount
: gibt an, dass 2.215 URIs erfolgreich gecrawlt wurden.pendingCount
: gibt an, dass 1.785 URIs noch nicht gecrawlt wurden.done
: Ein Wert vonfalse
gibt an, dass der erneute Crawlingvorgang noch läuft.
Wenn in einer Antwort angegeben wird, dass keine ausstehenden URIs vorhanden sind (kein
pendingCount
) und das erneute Crawlen abgeschlossen ist, können Ihre Webseiten gecrawlt werden. Beenden Sie die Abfrage.Beispiel
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:37:11.367998Z", "validUrisCount": 4000, "successCount": 4000 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse" } }
Die Antwortfelder können so beschrieben werden:
createTime
: Gibt den Zeitpunkt an, zu dem der lang andauernde Vorgang gestartet wurde.updateTime
: Gibt an, wann die Metadaten des Vorgangs mit langer Ausführungszeit zuletzt aktualisiert wurden. Die Metadaten werden alle fünf Minuten aktualisiert, bis der Vorgang abgeschlossen ist.validUrisCount
: gibt an,dass Sie 4.000 gültige URIs in Ihren Aufruf derrecrawlUris
-Methode.successCount
: gibt an,dass 4.000 URIs erfolgreich gecrawlt wurden.done
: Der Werttrue
gibt an, dass das erneute Crawling fertig.
Wenn eine Antwort anzeigt, dass ausstehende URIs vorhanden sind, und das erneute Crawling abgeschlossen ist, kam es zu einer Zeitüberschreitung beim erneuten Crawling (nach 24 Stunden). bevor alle Webseiten gecrawlt wurden. Beginnen Sie erneut bei in Ihrem Datenspeicher. Verwenden Sie die
failedUris
-Werte in deroperations.get
-Antwort für die Werte im Felduris
in Ihrem neuen Aufruf derrecrawlUris
-Methode.Example.
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-8765432109876543210", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-06T22:09:10.613751Z", "validUrisCount": 10000, "successCount": 9988, "pendingCount": 12 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", "failedUris": [ "https://example.com/page-9989", "https://example.com/page-9990", "https://example.com/page-9991", "https://example.com/page-9992", "https://example.com/page-9993", "https://example.com/page-9994", "https://example.com/page-9995", "https://example.com/page-9996", "https://example.com/page-9997", "https://example.com/page-9998", "https://example.com/page-9999", "https://example.com/page-10000" ], "failureSamples": [ { "uri": "https://example.com/page-9989", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9990", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9991", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9992", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9993", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9994", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9995", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9996", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9997", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9998", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] } ] } }
Hier sind einige Beschreibungen von Antwortfeldern:
createTime
Der Zeitpunkt, zu dem der lang andauernde Vorgang gestartet wurde.updateTime
Das letzte Mal, dass die Metadaten eines Vorgangs mit langer Ausführungszeit wurde aktualisiert. Die Metadaten werden alle fünf Minuten aktualisiert, bis der abgeschlossen ist.validUrisCount
: Gibt an, dass Sie in Ihrem Aufruf derrecrawlUris
-Methode 10.000 gültige URIs angegeben haben.successCount
: Gibt an, dass 9.988 URIs erfolgreich gecrawlt wurden.pendingCount
: Gibt an, dass 12 URIs noch nicht gecrawlt wurden.done
. Ein Wert vontrue
gibt an, dass der Vorgang abgeschlossen ist.failedUris
Eine Liste von URIs, die vor dem erneuten Crawling nicht gecrawlt wurden Zeitüberschreitung bei Vorgang.failureInfo
Informationen zu URIs, die nicht gecrawlt werden konnten. Es werden höchstens zehnfailureInfo
-Arraywerte zurückgegeben, auch wenn mehr als zehn URIs nicht gecrawlt werden konnten.errorMessage
: Der Grund, warum ein URI nicht gecrawlt wurde, nachcorpusType
. Weitere Informationen finden Sie unter Fehlermeldungen.
Rechtzeitige Aktualisierung
Google empfiehlt, neue und aktualisierte Seiten manuell zu aktualisieren. damit Sie den aktuellen Index verwenden.
Fehlermeldungen
Wenn beim Überwachen des Status des erneuten Crawlings ein Zeitlimit erreicht wird, während Sie die operations.get
-Methode abfragen, gibt operations.get
Fehlermeldungen für Webseiten zurück, die nicht gecrawlt wurden. In der folgenden Tabelle sind die Fehlermeldungen aufgeführt.
Gibt an, ob der Fehler vorübergehend (ein vorübergehender Fehler, der von selbst behoben wird) ist, und
Aktionen, die Sie ausführen können, bevor Sie es mit der recrawlUris
-Methode wiederholen. Bei vorübergehenden Fehlern können Sie sofort noch einmal versuchen, die Transaktion auszuführen. Alle nicht vorübergehenden Fehler können nach der Behebung noch einmal versucht werden.
Fehlermeldung | Handelt es sich um einen vorübergehenden Fehler? | Aktion vor dem erneuten Crawling |
---|---|---|
Die Seite wurde gecrawlt, aber nicht innerhalb von 24 Stunden von Vertex AI Search indexiert. | Ja | Verwenden Sie die failedUris -Werte in der operations.get -Antwort für die Werte im Feld uris , wenn Sie die recrawlUris -Methode aufrufen. |
Das Crawling wurde durch das robots.txt der Website blockiert |
Nein | Heben Sie die Blockierung des URI in der robots.txt -Datei Ihrer Website auf, prüfen Sie, ob der Googlebot-User-Agent die Website crawlen darf, und versuchen Sie noch einmal, die Website zu crawlen. Weitere Informationen finden Sie unter
Informationen zum Schreiben und Einreichen einer robots.txt-Datei
Wenn Sie nicht auf die Datei robots.txt zugreifen können, wenden Sie sich an den Domaininhaber. |
Seite ist nicht erreichbar | Nein | Prüfen Sie den URI, den Sie beim Aufrufen der Methode recrawlUris angegeben haben. Geben Sie den literalen URI an und kein URI-Muster. |
Zeitüberschreitung beim Crawling | Ja | Verwenden Sie die failedUris -Werte in der operations.get -Antwort für die Werte im Feld uris , wenn Sie die recrawlUris -Methode aufrufen. |
Die Seite wurde vom Google-Crawler abgelehnt | Ja | Verwenden Sie die failedUris -Werte in der operations.get -Antwort für die Werte im Feld uris , wenn Sie die recrawlUris -Methode aufrufen. |
URL konnte vom Google-Crawler nicht aufgerufen werden | Nein | Wenn es mehrere Weiterleitungen gibt, verwenden Sie den URI der letzten Weiterleitung und versuchen Sie es noch einmal |
Seite nicht gefunden (404) | Nein | Prüfen Sie den URI, den Sie beim Aufrufen der Methode recrawlUris angegeben haben. Achten Sie darauf, dass Sie den literalen URI und kein URI-Muster angeben.
Seiten, die mit einem 4xx-Fehlercode antworten, werden aus dem Index entfernt. |
Seite erfordert Authentifizierung | Nein | Die erweiterte Websiteindexierung unterstützt nicht das Crawlen von Webseiten, die eine Authentifizierung erfordern. |
Umgang mit gelöschten Seiten
Wenn eine Seite gelöscht wird, empfiehlt Google, die gelöschten URLs manuell zu aktualisieren.
Wenn Ihr Websitedatenspeicher bei einer automatischen oder manuellen Aktualisierung gecrawlt wird und eine Webseite mit dem Clientfehlercode 4xx
oder dem Serverfehlercode 5xx
antwortet, wird sie aus dem Index entfernt.