Se a indexação avançada de sites estiver ativada no seu repositório de dados, você poderá enviar e usar sitemaps para indexar e atualizar as páginas da Web no repositório. Esse recurso só oferece suporte a sitemaps e índices de sitemap XML.
Esta página descreve como enviar um sitemap ou índice de sitemap para acionar a indexação e atualização com base no sitemap. Para entender e implementar a atualização automática e manual sem um sitemap, consulte Atualizar páginas da Web.
Além disso, esta página descreve como visualizar os sitemaps no repositório de dados ou excluir um sitemap.
Conceitos de atualização com base no sitemap
Confira alguns conceitos e termos importantes para você começar:
Protocolo de sitemap: todos os sitemaps e índices de sitemap compatíveis com a Vertex AI Search precisam seguir o protocolo de sitemap.
Sitemap: é um arquivo XML codificado em UTF-8 que contém uma lista de URLs das páginas da Web e arquivos do seu site com outras informações importantes, mas opcionais, como a data da última modificação da página da Web e a prioridade da página da Web para um rastreador em comparação com outras páginas da Web no seu site. De acordo com o protocolo de sitemap, um único sitemap pode conter no máximo 50.000 URLs e ter no máximo 50 MB.
Índice de sitemaps: quando o sitemap ultrapassa o limite máximo de URLs ou de tamanho, é possível criar vários sitemaps e listar esses sitemaps em um arquivo de índice de sitemaps. De acordo com o protocolo de sitemap, um único índice de sitemap pode aninhar no máximo 50.000 sitemaps e ter um tamanho máximo de 50 MB.
É possível enviar um ou mais sitemaps, um ou mais índices de sitemap ou uma combinação de sitemaps e índices de sitemap para a Pesquisa da Vertex AI.
Ao enviar seu sitemap ou índice de sitemap para o repositório de dados da Vertex AI para Pesquisa, você aciona as seguintes ações:
Indexação dos URLs incluídos no índice do repositório de dados.
- Para uma atualização somente do sitemap, essa lista contém apenas os URLs no sitemap ou no índice de sitemap que correspondem ao padrão de URL incluído no repositório de dados.
- Para uma atualização combinada, essa lista contém todos os URLs que o processo de atualização automática descobre.
Para mais informações sobre esses dois processos de atualização, consulte Métodos de atualização da repositório de dados do site e Atualização somente do sitemap.
Atualização diária dos URLs incluídos
Métodos de atualização do repositório de dados do site
Você pode escolher uma das seguintes maneiras de incorporar a atualização baseada em sitemap no repositório de dados:
- Atualização somente do sitemap: use a atualização baseada em sitemap exclusivamente desativando a indexação inicial e a atualização automática.
- Atualização combinada: use a atualização baseada em sitemap com indexação inicial e atualização automática.
É possível atualizar manualmente páginas da Web específicas no índice do repositório de dados a qualquer momento, independentemente do método de atualização escolhido.
Atualização somente do sitemap
Ao criar um repositório de dados de site, é necessário fornecer padrões de URL para as páginas da Web que você quer incluir no índice do repositório. Por padrão, quando você termina de criar um repositório de dados do site, a Vertex AI para Pesquisa gera um índice inicial para essas páginas da Web incluídas.
Para repositórios de dados de sites com indexação avançada, o processo de indexação inicial faz parte da atualização automática. O processo de indexação inicial indexa todos os URLs incluídos que estão disponíveis na Pesquisa Google. A atualização inicial desses URLs reflete a atualização disponível na Pesquisa Google. Após a indexação inicial, o processo de atualização automática descobre novas páginas e as atualiza da melhor maneira possível. Isso pode resultar em páginas relativamente desatualizadas e um índice mais volumoso, porque esse processo descobre URLs que podem estar além do necessário.
Em vez disso, você pode optar por realizar a atualização somente do sitemap, que é útil nos seguintes cenários:
- Você tem um sitemap bem mantido e atualizado.
- Você tem um site grande e precisa de um controle mais rígido sobre quais páginas da Web são indexadas. Isso resulta em um índice mais simples e gerenciável.
- É necessário atualizar as páginas indexadas diariamente. Isso resulta em um índice mais recente.
A tabela a seguir compara os diferentes métodos que atualizam o índice da repositório de dados:
Método de atualização | Precisão | Intervenção manual | Frequência | Discovery |
---|---|---|---|---|
Atualização baseada em sitemap | Exatamente. Indexa apenas os URLs nos sitemaps. | Não é necessário depois de enviar o sitemap ou o índice do sitemap | Diariamente | Não além dos especificados no sitemap. |
Atualização manual (também conhecida como novo rastreamento) | Exatamente. Indexa apenas os URLs especificados na solicitação de novo rastreamento. | Obrigatório | Sob demanda | Não. |
Atualização automática | Não é exata. O repositório de dados é atualizado da melhor maneira possível. | Não obrigatório | Aleatória e na medida do possível | Sim. Descobre URLs além do que está disponível na Pesquisa Google. |
Antes de começar
Antes de enviar um sitemap ou índice de sitemap para o repositório de dados da Pesquisa da Vertex AI:
- Crie um sitemap XML ou um índice de sitemap que faça referência a todos os sitemaps do
seu site de acordo com o protocolo de sitemaps.
- Entenda os princípios básicos da criação de um sitemap. Para mais informações, consulte Conceitos de atualização com base em sitemaps e Criar e enviar um sitemap.
- Entenda que, para enviar um sitemap ou um índice de sitemap para o repositório de dados da Pesquisa da Vertex AI, não é necessário que eles façam a Pesquisa do Google.
- Todos os URLs no sitemap que você quer indexar precisam pertencer a domínios públicos verificados no repositório de dados. Para mais informações, consulte Verificar domínios de sites.
- O URI do sitemap ou do índice de sitemap com os URIs de sitemap aninhados precisa estar disponível publicamente.
Enviar um sitemap ou índice de sitemap para um repositório de dados
Para acionar a indexação e atualização das páginas da Web incluídas na sua loja de dados, siga estas etapas:
Decida se você quer fazer uma atualização apenas do sitemap ou uma atualização combinada com outros métodos.
Para fazer uma atualização apenas do sitemap, siga esta etapa. Caso contrário, pule para a próxima etapa.
Não é possível usar um repositório de dados com indexação e atualização iniciais. É necessário criar um novo repositório de dados desativando a indexação inicial e a atualização automática usando a configuração
AdvancedSiteSearchConfig
.REST
Crie um repositório de dados em que apenas a atualização do sitemap esteja ativada. Para fazer isso, desative o índice inicial e a atualização automática.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
Substitua:
PROJECT_ID
: o ID do seu projeto do Google Cloud.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hifens.DATA_STORE_DISPLAY_NAME
: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.
Atualize os padrões de URL dos sites para incluir e excluir no repositório de dados. Para mais informações, consulte Criar um repositório de dados usando o conteúdo do site.
Verifique os domínios das páginas da Web incluídas na repositório de dados.
Se você escolher a atualização somente do sitemap ou uma atualização combinada, envie um URI de sitemap ou de índice de sitemap para um repositório de dados usando o método
sitemaps.create
.REST
Envie um sitemap ou índice de sitemap.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
Substitua:
PROJECT_ID
: o ID do seu projeto do Google Cloud.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.SITEMAP_URI
: o URI público do sitemap individual ou do índice de sitemap que você quer enviar. Ao enviar um índice de sitemap, basta enviar o URI do índice. A Vertex AI para Pesquisa indexa automaticamente os URLs incluídos em todos os sitemaps aninhados no índice de sitemaps.
Depois que você envia o sitemap ou o índice do sitemap para o repositório de dados, a Vertex AI para Pesquisa aciona o seguinte:
- Uma indexação dos URLs qualificados no sitemap, ou seja, aqueles que estão incluídos no repositório de dados. Esse processo pode levar algumas horas para ser concluído. Sitemaps maiores podem levar mais tempo para serem indexados.
- Uma atualização diária das páginas da Web com URLs qualificados.
Para saber como as modificações no sitemap ou no índice de sitemap afetam a atualização, consulte Mudanças no sitemap e no índice de sitemap.
Acesse os sitemaps no repositório de dados.
Mudanças no sitemap e no índice de sitemaps
Após o envio inicial, a Vertex AI para Pesquisa detecta modificações no sitemap ou no índice de sitemap diariamente e processa essas modificações da seguinte maneira:
- Mudanças em um sitemap:
- Ao adicionar URLs: os URLs que correspondem ao padrão de URLs incluídos para o armazenamento de dados são adicionados ao índice e atualizados diariamente.
- Quando você remove URLs: se os URLs removidos estiverem no índice, eles serão removidos do índice e não serão atualizados.
- Quando você atualiza os URLs atuais, por exemplo, quando você atualiza o campo
lastmod
de um URL no sitemap, todos os URLs atualizados que correspondem ao padrão de URLs incluídos para o repositório de dados são atualizados. A atualização geralmente ocorre em até 24 horas após a atualização.
- Mudanças em um índice de sitemap:
- Quando você adiciona um sitemap: os URLs no novo sitemap que correspondem ao padrão de URLs incluídos para o repositório de dados são adicionados ao índice e atualizados diariamente.
- Quando você remove um sitemap: os URLs que correspondem ao padrão de URLs incluídos para o repositório de dados não são mais atualizados. No entanto, elas ainda permanecem no índice. Para remover o sitemap e os URLs dele do índice, consulte Remover um sitemap e os URLs dele do índice.
Listar os sitemaps e índices de sitemap em um repositório de dados
Para listar todos os sitemaps e índices de sitemap em um repositório de dados, use o método
sitemaps.fetch
. Se você tiver enviado um índice de sitemap, esse método
vai retornar o índice de sitemap, e não os sitemaps individuais aninhados.
Se não houver sitemaps no repositório de dados, essa solicitação vai retornar um arquivo JSON vazio.
REST
Liste os sitemaps e índices de sitemap em um repositório de dados.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
Substitua:
PROJECT_ID
: o ID do seu projeto do Google Cloud.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.
Verificar se um sitemap ou índice de sitemap está presente em um repositório de dados
Para verificar se um sitemap ou índice de sitemap está presente em um repositório de dados, use o método sitemaps.fetch
. Se o sitemap ou o índice de sitemap que você está
verificando for enviado para o repositório de dados, a resposta conterá o nome
e o URI do sitemap. Se você tiver enviado um índice de sitemaps, a verificação de sitemaps individuais dentro do índice não vai retornar os resultados corretos.
REST
Verifique se há um sitemap ou índice de sitemap em um repositório de dados.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
Substitua:
PROJECT_ID
: o ID do seu projeto do Google Cloud.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.SITEMAP_URI_N
: o URI público do sitemap ou do índice de sitemap que você quer verificar no repositório de dados.
Excluir um sitemap ou índice de sitemap do repositório de dados
Para excluir um sitemap do repositório de dados, use o método
sitemap.delete
.
A exclusão de um sitemap não remove os URLs dele do índice. Para remover
o sitemap e os URLs dele do índice, consulte Remover um sitemap e os URLs dele
do índice.
REST
Excluir um sitemap ou índice de sitemap.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
Substitua:
PROJECT_ID
: o ID do seu projeto do Google Cloud.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.SITEMAP_ID
: um ID exclusivo que identifica um sitemap ou índice de sitemap. Esse ID pode ser encontrado no campo de nome da resposta ao enviar um sitemap ou um índice de sitemap ou listar os sitemaps e índices de sitemap na sua loja de dados.
Remover um sitemap ou um índice de sitemap e os URLs do índice do repositório de dados
Para remover um sitemap ou um índice de sitemap e os URLs dele, siga estas etapas:
Esvazie o sitemap ou o índice de sitemap que foi enviado ao repositório de dados removendo todos os URLs.
Se você enviou um índice de sitemap para o repositório de dados, esvazie os sitemaps aninhados removendo todos os URLs e o sitemap do índice.
Aguarde 48 horas para que a Vertex AI para Pesquisa processe essas mudanças e remova os URLs do índice do repositório de dados.