Indexar e atualizar páginas da Web usando sitemaps

Se a indexação avançada de sites estiver ativada no seu repositório de dados, você poderá enviar e usar sitemaps para indexar e atualizar as páginas da Web no repositório. Esse recurso só oferece suporte a sitemaps e índices de sitemap XML.

Esta página descreve como enviar um sitemap ou índice de sitemap para acionar a indexação e atualização com base no sitemap. Para entender e implementar a atualização automática e manual sem um sitemap, consulte Atualizar páginas da Web.

Além disso, esta página descreve como visualizar os sitemaps no repositório de dados ou excluir um sitemap.

Conceitos de atualização com base no sitemap

Confira alguns conceitos e termos importantes para você começar:

  • Protocolo de sitemap: todos os sitemaps e índices de sitemap compatíveis com a Vertex AI Search precisam seguir o protocolo de sitemap.

  • Sitemap: é um arquivo XML codificado em UTF-8 que contém uma lista de URLs das páginas da Web e arquivos do seu site com outras informações importantes, mas opcionais, como a data da última modificação da página da Web e a prioridade da página da Web para um rastreador em comparação com outras páginas da Web no seu site. De acordo com o protocolo de sitemap, um único sitemap pode conter no máximo 50.000 URLs e ter no máximo 50 MB.

  • Índice de sitemaps: quando o sitemap ultrapassa o limite máximo de URLs ou de tamanho, é possível criar vários sitemaps e listar esses sitemaps em um arquivo de índice de sitemaps. De acordo com o protocolo de sitemap, um único índice de sitemap pode aninhar no máximo 50.000 sitemaps e ter um tamanho máximo de 50 MB.

É possível enviar um ou mais sitemaps, um ou mais índices de sitemap ou uma combinação de sitemaps e índices de sitemap para a Pesquisa da Vertex AI.

Ao enviar seu sitemap ou índice de sitemap para o repositório de dados da Vertex AI para Pesquisa, você aciona as seguintes ações:

  • Indexação dos URLs incluídos no índice do repositório de dados.

    • Para uma atualização somente do sitemap, essa lista contém apenas os URLs no sitemap ou no índice de sitemap que correspondem ao padrão de URL incluído no repositório de dados.
    • Para uma atualização combinada, essa lista contém todos os URLs que o processo de atualização automática descobre.

    Para mais informações sobre esses dois processos de atualização, consulte Métodos de atualização da repositório de dados do site e Atualização somente do sitemap.

  • Atualização diária dos URLs incluídos

Métodos de atualização do repositório de dados do site

Você pode escolher uma das seguintes maneiras de incorporar a atualização baseada em sitemap no repositório de dados:

  • Atualização somente do sitemap: use a atualização baseada em sitemap exclusivamente desativando a indexação inicial e a atualização automática.
  • Atualização combinada: use a atualização baseada em sitemap com indexação inicial e atualização automática.

É possível atualizar manualmente páginas da Web específicas no índice do repositório de dados a qualquer momento, independentemente do método de atualização escolhido.

Atualização somente do sitemap

Ao criar um repositório de dados de site, é necessário fornecer padrões de URL para as páginas da Web que você quer incluir no índice do repositório. Por padrão, quando você termina de criar um repositório de dados do site, a Vertex AI para Pesquisa gera um índice inicial para essas páginas da Web incluídas.

Para repositórios de dados de sites com indexação avançada, o processo de indexação inicial faz parte da atualização automática. O processo de indexação inicial indexa todos os URLs incluídos que estão disponíveis na Pesquisa Google. A atualização inicial desses URLs reflete a atualização disponível na Pesquisa Google. Após a indexação inicial, o processo de atualização automática descobre novas páginas e as atualiza da melhor maneira possível. Isso pode resultar em páginas relativamente desatualizadas e um índice mais volumoso, porque esse processo descobre URLs que podem estar além do necessário.

Em vez disso, você pode optar por realizar a atualização somente do sitemap, que é útil nos seguintes cenários:

  • Você tem um sitemap bem mantido e atualizado.
  • Você tem um site grande e precisa de um controle mais rígido sobre quais páginas da Web são indexadas. Isso resulta em um índice mais simples e gerenciável.
  • É necessário atualizar as páginas indexadas diariamente. Isso resulta em um índice mais recente.

A tabela a seguir compara os diferentes métodos que atualizam o índice da repositório de dados:

Método de atualização Precisão Intervenção manual Frequência Discovery
Atualização baseada em sitemap Exatamente. Indexa apenas os URLs nos sitemaps. Não é necessário depois de enviar o sitemap ou o índice do sitemap Diariamente Não além dos especificados no sitemap.
Atualização manual (também conhecida como novo rastreamento) Exatamente. Indexa apenas os URLs especificados na solicitação de novo rastreamento. Obrigatório Sob demanda Não.
Atualização automática Não é exata. O repositório de dados é atualizado da melhor maneira possível. Não obrigatório Aleatória e na medida do possível Sim. Descobre URLs além do que está disponível na Pesquisa Google.

Antes de começar

Antes de enviar um sitemap ou índice de sitemap para o repositório de dados da Pesquisa da Vertex AI:

  • Crie um sitemap XML ou um índice de sitemap que faça referência a todos os sitemaps do seu site de acordo com o protocolo de sitemaps.
  • Entenda que, para enviar um sitemap ou um índice de sitemap para o repositório de dados da Pesquisa da Vertex AI, não é necessário que eles façam a Pesquisa do Google.
  • Todos os URLs no sitemap que você quer indexar precisam pertencer a domínios públicos verificados no repositório de dados. Para mais informações, consulte Verificar domínios de sites.
  • O URI do sitemap ou do índice de sitemap com os URIs de sitemap aninhados precisa estar disponível publicamente.

Enviar um sitemap ou índice de sitemap para um repositório de dados

Para acionar a indexação e atualização das páginas da Web incluídas na sua loja de dados, siga estas etapas:

  1. Decida se você quer fazer uma atualização apenas do sitemap ou uma atualização combinada com outros métodos.

  2. Para fazer uma atualização apenas do sitemap, siga esta etapa. Caso contrário, pule para a próxima etapa.

    Não é possível usar um repositório de dados com indexação e atualização iniciais. É necessário criar um novo repositório de dados desativando a indexação inicial e a atualização automática usando a configuração AdvancedSiteSearchConfig.

    REST

    Crie um repositório de dados em que apenas a atualização do sitemap esteja ativada. Para fazer isso, desative o índice inicial e a atualização automática.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto do Google Cloud.
    • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hifens.
    • DATA_STORE_DISPLAY_NAME: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.

  3. Atualize os padrões de URL dos sites para incluir e excluir no repositório de dados. Para mais informações, consulte Criar um repositório de dados usando o conteúdo do site.

  4. Verifique os domínios das páginas da Web incluídas na repositório de dados.

  5. Se você escolher a atualização somente do sitemap ou uma atualização combinada, envie um URI de sitemap ou de índice de sitemap para um repositório de dados usando o método sitemaps.create.

    REST

    Envie um sitemap ou índice de sitemap.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto do Google Cloud.
    • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa.
    • SITEMAP_URI: o URI público do sitemap individual ou do índice de sitemap que você quer enviar. Ao enviar um índice de sitemap, basta enviar o URI do índice. A Vertex AI para Pesquisa indexa automaticamente os URLs incluídos em todos os sitemaps aninhados no índice de sitemaps.

    Depois que você envia o sitemap ou o índice do sitemap para o repositório de dados, a Vertex AI para Pesquisa aciona o seguinte:

    • Uma indexação dos URLs qualificados no sitemap, ou seja, aqueles que estão incluídos no repositório de dados. Esse processo pode levar algumas horas para ser concluído. Sitemaps maiores podem levar mais tempo para serem indexados.
    • Uma atualização diária das páginas da Web com URLs qualificados.

    Para saber como as modificações no sitemap ou no índice de sitemap afetam a atualização, consulte Mudanças no sitemap e no índice de sitemap.

  6. Acesse os sitemaps no repositório de dados.

Mudanças no sitemap e no índice de sitemaps

Após o envio inicial, a Vertex AI para Pesquisa detecta modificações no sitemap ou no índice de sitemap diariamente e processa essas modificações da seguinte maneira:

  • Mudanças em um sitemap:
    • Ao adicionar URLs: os URLs que correspondem ao padrão de URLs incluídos para o armazenamento de dados são adicionados ao índice e atualizados diariamente.
    • Quando você remove URLs: se os URLs removidos estiverem no índice, eles serão removidos do índice e não serão atualizados.
    • Quando você atualiza os URLs atuais, por exemplo, quando você atualiza o campo lastmod de um URL no sitemap, todos os URLs atualizados que correspondem ao padrão de URLs incluídos para o repositório de dados são atualizados. A atualização geralmente ocorre em até 24 horas após a atualização.
  • Mudanças em um índice de sitemap:
    • Quando você adiciona um sitemap: os URLs no novo sitemap que correspondem ao padrão de URLs incluídos para o repositório de dados são adicionados ao índice e atualizados diariamente.
    • Quando você remove um sitemap: os URLs que correspondem ao padrão de URLs incluídos para o repositório de dados não são mais atualizados. No entanto, elas ainda permanecem no índice. Para remover o sitemap e os URLs dele do índice, consulte Remover um sitemap e os URLs dele do índice.

Listar os sitemaps e índices de sitemap em um repositório de dados

Para listar todos os sitemaps e índices de sitemap em um repositório de dados, use o método sitemaps.fetch. Se você tiver enviado um índice de sitemap, esse método vai retornar o índice de sitemap, e não os sitemaps individuais aninhados. Se não houver sitemaps no repositório de dados, essa solicitação vai retornar um arquivo JSON vazio.

REST

Liste os sitemaps e índices de sitemap em um repositório de dados.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Substitua:

  • PROJECT_ID: o ID do seu projeto do Google Cloud.
  • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa.

Verificar se um sitemap ou índice de sitemap está presente em um repositório de dados

Para verificar se um sitemap ou índice de sitemap está presente em um repositório de dados, use o método sitemaps.fetch. Se o sitemap ou o índice de sitemap que você está verificando for enviado para o repositório de dados, a resposta conterá o nome e o URI do sitemap. Se você tiver enviado um índice de sitemaps, a verificação de sitemaps individuais dentro do índice não vai retornar os resultados corretos.

REST

Verifique se há um sitemap ou índice de sitemap em um repositório de dados.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Substitua:

  • PROJECT_ID: o ID do seu projeto do Google Cloud.
  • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa.
  • SITEMAP_URI_N: o URI público do sitemap ou do índice de sitemap que você quer verificar no repositório de dados.

Excluir um sitemap ou índice de sitemap do repositório de dados

Para excluir um sitemap do repositório de dados, use o método sitemap.delete. A exclusão de um sitemap não remove os URLs dele do índice. Para remover o sitemap e os URLs dele do índice, consulte Remover um sitemap e os URLs dele do índice.

REST

Excluir um sitemap ou índice de sitemap.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Substitua:

Remover um sitemap ou um índice de sitemap e os URLs do índice do repositório de dados

Para remover um sitemap ou um índice de sitemap e os URLs dele, siga estas etapas:

  1. Esvazie o sitemap ou o índice de sitemap que foi enviado ao repositório de dados removendo todos os URLs.

    Se você enviou um índice de sitemap para o repositório de dados, esvazie os sitemaps aninhados removendo todos os URLs e o sitemap do índice.

  2. Aguarde 48 horas para que a Vertex AI para Pesquisa processe essas mudanças e remova os URLs do índice do repositório de dados.

  3. Exclua o sitemap ou o índice de sitemaps.