Indicizzare e aggiornare le pagine web utilizzando le sitemap

Se l'indicizzazione avanzata dei siti web è attivata nel tuo datastore, puoi inviare e utilizzare le sitemap per indicizzare e aggiornare le pagine web nel tuo datastore. Questa funzionalità supporta solo sitemap e indici sitemap XML.

In questa pagina viene descritto come inviare una Sitemap o un indice Sitemap per attivare l'indicizzazione e l'aggiornamento in base alla Sitemap. Per comprendere e implementare l'aggiornamento automatico e manuale senza una sitemap, consulta Aggiornare le pagine web.

Inoltre, questa pagina descrive come visualizzare le sitemap nel tuo datastore o eliminare una sitemap.

Concetti di aggiornamento basato su sitemap

Ecco alcuni concetti e termini chiave che ti aiuteranno a iniziare:

  • Protocollo Sitemap: tutte le Sitemap e gli indici Sitemap supportati da Vertex AI Search devono rispettare il protocollo Sitemap.

  • Sitemap: una sitemap è un file XML con codifica UTF-8 che contiene un elenco di URL delle pagine web e dei file del tuo sito web con altre informazioni importanti, ma facoltative, come la data dell'ultima modifica della pagina web e la priorità della pagina web per un crawler rispetto alle altre pagine web del tuo sito web. Secondo il protocollo Sitemap, una singola Sitemap può contenere un massimo di 50.000 URL e non deve superare i 50 MB.

  • Indice Sitemap: quando la Sitemap supera il numero massimo di URL o le dimensioni massime, puoi creare più Sitemap e elencarle in un file indice Sitemap. In base al protocollo Sitemap, un singolo indice Sitemap può nidificare un massimo di 50.000 Sitemap e può avere un massimo di 50 MB.

Puoi inviare una o più Sitemap, uno o più indici Sitemap o una combinazione di Sitemap e indici Sitemap a Vertex AI Search.

Quando invii la sitemap o l'indice sitemap al datastore di Vertex AI Search, attivi le seguenti azioni:

  • Indicizzazione degli URL nella sitemap o nell'indice sitemap che corrispondono al pattern URL incluso nel tuo datastore
  • Aggiornamento giornaliero degli URL inclusi

Metodi di aggiornamento del datastore del sito web

Puoi scegliere uno dei seguenti modi per incorporare l'aggiornamento basato sulla sitemap nel tuo datastore:

  • Aggiornamento solo tramite Sitemap: utilizza l'aggiornamento basato sulla Sitemap disattivando l'indicizzazione iniziale e l'aggiornamento automatico.
  • Aggiornamento combinato: utilizza l'aggiornamento basato sulla sitemap con l'indicizzazione iniziale e l'aggiornamento automatico.

Puoi aggiornare manualmente pagine web specifiche nell'indice del tuo datastore in qualsiasi momento, indipendentemente dal metodo di aggiornamento scelto.

Aggiornamento solo della Sitemap

Quando crei un datastore del sito web, devi fornire pattern di URL per le pagine web che vuoi includere nell'indice del datastore. Per impostazione predefinita, al termine della creazione di un datastore dei siti web, Vertex AI Search genera un indice iniziale per queste pagine web incluse.

Per i datastore dei siti web con indicizzazione avanzata, il processo di indicizzazione iniziale fa parte dell'aggiornamento automatico. La procedura di indicizzazione iniziale indicizza tutti gli URL inclusi disponibili nella Ricerca Google. L'aggiornamento iniziale di questi URL rispecchia l'aggiornamento disponibile nella Ricerca Google. Dopo l'indicizzazione iniziale, il processo di aggiornamento automatico scopre nuove pagine e le aggiorna secondo il criterio del massimo impegno. Ciò può portare a pagine relativamente obsolete e a un indice più voluminoso, in quanto questo processo scopre URL che potrebbero essere superiori a quelli richiesti.

In alternativa, puoi scegliere di eseguire l'aggiornamento solo della sitemap, che è utile nei seguenti scenari:

  • Hai una Sitemap aggiornata e ben gestita.
  • Hai un sito web di grandi dimensioni e hai bisogno di un maggiore controllo sulle pagine web che vengono indicizzate. Il risultato è un indice più snello e gestibile.
  • Devi aggiornare le pagine indicizzate ogni giorno. Il risultato è un indice più aggiornato.

La tabella seguente mette a confronto i diversi metodi che aggiornano l'indice datastore:

Metodo di aggiornamento Precisione Intervento manuale Frequenza Discovery
Aggiornamento basato sulla Sitemap Esatto. Indicizza solo gli URL nelle sitemap. Non richiesto dopo l'invio della Sitemap o dell'indice Sitemap Ogni giorno Non oltre quelli specificati nella sitemap.
Aggiornamento manuale (noto anche come nuova scansione) Esatto. Indicizza solo gli URL specificati nella richiesta di nuova scansione. Obbligatorio On demand No.
Aggiornamento automatico Non esatto. Il datastore viene aggiornato secondo il criterio del "best effort". Non obbligatorio In modo casuale e secondo il criterio del "best effort" Sì. Scopri URL diversi da quelli disponibili nella Ricerca Google.

Prima di iniziare

Prima di inviare una sitemap o un indice sitemap al datastore di Vertex AI Search:

  • Crea una Sitemap XML o un indice Sitemap che rimandi a tutte le Sitemap per il tuo sito web in base al protocollo Sitemap.
  • Tieni presente che per inviare una Sitemap o un indice Sitemap al datastore di Vertex AI Search, non è necessario che la Sitemap sia stata inviata alla Ricerca Google.
  • Tutti gli URL della Sitemap che vuoi indicizzare devono appartenere a domini pubblici verificati nel tuo datastore. Per ulteriori informazioni, consulta Verificare i domini dei siti web.
  • L'URI della Sitemap o l'URI dell'indice Sitemap con gli URI della Sitemap nidificati deve essere pubblicamente disponibile.

Inviare una Sitemap o un indice Sitemap a un datastore

Per indicizzare e aggiornare le pagine web incluse nel tuo datastore:

  1. Decidi se eseguire un aggiornamento solo della sitemap o un aggiornamento combinato con altri metodi.

    • Se vuoi eseguire un aggiornamento solo della sitemap, non puoi utilizzare un datastore esistente con indicizzazione e aggiornamento iniziali. Devi creare un nuovo datastore disattivando l'indicizzazione iniziale e l'aggiornamento automatico utilizzando la configurazione AdvancedSiteSearchConfig.

      REST

      Attivare l'aggiornamento solo della mappa del sito in un datastore

      • Crea un datastore disattivando l'indice iniziale e l'aggiornamento automatico.
      curl -X POST\
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json"\
      -H "X-Goog-User-Project: PROJECT_ID" \
      "https://us-discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/us/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
      -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
      }'
      

      Sostituisci quanto segue:

      • PROJECT_ID: l'ID del tuo progetto Google Cloud.
      • DATA_STORE_ID: l'ID del datastore di Vertex AI Search che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.
      • DATA_STORE_DISPLAY_NAME: il nome visualizzato del datastore di ricerca Vertex AI che vuoi creare.

  2. Aggiorna i pattern URL dei siti da includere ed escludere nel tuo data store. Per ulteriori informazioni, crea un datastore utilizzando i contenuti del sito web.

  3. Verifica i domini delle pagine web incluse nel tuo datastore.

  4. Indipendentemente dal fatto che tu scelga l'aggiornamento solo della Sitemap o un aggiornamento combinato, invia un URI di Sitemap o di indice Sitemap a un datastore utilizzando il metodo sitemaps.create.

    REST

    Invia una Sitemap o un indice Sitemap.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI" \
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto Google Cloud.
    • DATA_STORE_ID: l'ID dello datastore di Vertex AI Search.
    • SITEMAP_URI: l'URI pubblico della singola sitemap o dell'indice sitemap che vuoi inviare. Quando invii un indice Sitemap, è sufficiente inviare l'URI dell'indice Sitemap. Vertex AI Search indicizza automaticamente gli URL inclusi in tutte le sitemap nidificate all'interno dell'indice Sitemap.

    Dopo aver inviato la sitemap o l'indice della sitemap al datastore, Vertex AI Search attiva quanto segue:

    • Un'indicizzazione degli URL idonei nella sitemap, ovvero quelli inclusi nel tuo datastore. Il completamento di questa procedura può richiedere alcune ore. L'indicizzazione delle sitemap più grandi può richiedere più tempo.
    • Un aggiornamento giornaliero delle pagine web con URL idonei.

    Per sapere in che modo le modifiche alla Sitemap o all'indice Sitemap influiscono sull'aggiornamento, consulta Modifiche alla Sitemap e all'indice Sitemap.

  5. Visualizza le sitemap nel tuo datastore.

Modifiche alla Sitemap e all'indice Sitemap

Dopo l'invio iniziale, Vertex AI Search rileva quotidianamente le modifiche alla sitemap o all'indice della sitemap e le gestisce nel seguente modo:

  • Modifiche a una sitemap:
    • Quando aggiungi gli URL: gli URL corrispondenti al pattern URL incluso per il data store vengono aggiunti all'indice e aggiornati quotidianamente.
    • Quando rimuovi gli URL: se gli URL rimossi sono nell'indice, vengono rimossi dall'indice e non vengono più aggiornati.
    • Quando aggiorni gli URL esistenti, ad esempio quando aggiorni il campo lastmod per un URL nella sitemap, tutti gli URL aggiornati che corrispondono al pattern degli URL inclusi per l'datastore vengono aggiornati. L'aggiornamento avviene in genere entro 24 ore dall'aggiornamento.
  • Modifiche a un indice Sitemap:
    • Quando aggiungi una sitemap: gli URL nella nuova sitemap che corrispondono al pattern di URL inclusi per l'datastore vengono aggiunti all'indice e aggiornati su base giornaliera.
    • Quando rimuovi una sitemap: gli URL corrispondenti al pattern degli URL inclusi per il datastore non vengono più aggiornati. Tuttavia, rimangono nell' indice. Per rimuovere la sitemap e i relativi URL dall'indice, consulta Rimuovere una sitemap e i relativi URL dall'indice.

Elenca le sitemap e gli indici sitemap in un datastore

Per elencare tutte le sitemap e gli indici sitemap in un datastore, utilizza il metodo sitemaps.fetch. Se hai inviato un indice Sitemap, questo metodo restituisce l'indice Sitemap e non le singole Sitemap nidificate. Se non sono presenti sitemap nelldatastore, questa richiesta restituisce un file JSON vuoto.

REST

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch" \

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • DATA_STORE_ID: l'ID dello datastore di Vertex AI Search.

Verificare se una Sitemap o un indice Sitemap è presente in un datastore

Per verificare se una Sitemap o un indice Sitemap è presente in un datastore, utilizza il metodositemaps.fetch. Se la Sitemap o l'indice Sitemap per la quale effettui il controllo è stata inviata al datastore, la risposta contiene il nome e l'URI della Sitemap. Se hai inviato un indice Sitemap, la ricerca di singole Sitemap all'interno dell'indice non restituirà i risultati corretti.

REST

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2" \

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • DATA_STORE_ID: l'ID dello datastore di Vertex AI Search.
  • SITEMAP_URI_N: l'URI pubblico della sitemap o l'indice della sitemap per cui vuoi eseguire il check-in nello datastore.

Eliminare una sitemap o un indice sitemap dal datastore

Per eliminare una Sitemap dal datastore, utilizza il metodo sitemap.delete. L'eliminazione di una Sitemap non comporta la rimozione dei relativi URL dall'indice. Per rimuovere la sitemap e i relativi URL dall'indice, consulta Rimuovere una sitemap e i relativi URL dall'indice.

REST

1. Elimina una Sitemap o un indice Sitemap.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID" \

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • DATA_STORE_ID: l'ID dello datastore di Vertex AI Search.
  • SITEMAP_ID: un ID univoco che identifica una sitemap o un indice sitemap. Puoi trovare questo ID nel campo name della risposta quando [invii una Sitemap o un indice Sitemap](#submit-sitemap) o [elenchi le Sitemap e gli indici Sitemap nel tuo datastore](#fetch-sitemap).

Rimuovere una Sitemap o un indice Sitemap e i relativi URL dall'indice del datastore

Per rimuovere una Sitemap o un indice Sitemap e i relativi URL dall'indice:

  1. Svuota la Sitemap o l'indice Sitemap inviato allo datastore datirimuovendo tutti gli URL.

    Se hai inviato un indice Sitemap al datastore, svuota le sitemap nidificaterimuovendo tutti gli URL e rimuovi la sitemap dall'indice Sitemap.

  2. Attendi 48 ore affinché Vertex AI Search elabori queste modifiche e rimuovi gli URL dall'indice del datastore.

  3. Elimina la sitemap o l'indice sitemap.