Se a indexação avançada de Websites estiver ativada no seu repositório de dados, pode enviar e usar mapas do site para indexar e atualizar as páginas Web no seu repositório de dados. Esta funcionalidade só suporta mapas do site XML e índices de sitemaps.
Esta página descreve como enviar um mapa do site ou um índice do mapa do site para acionar a indexação e a atualização baseadas no mapa do site. Para compreender e implementar a atualização automática e manual sem um mapa do site, consulte o artigo Atualize páginas Web.
Além disso, esta página descreve como ver os mapas do site no seu repositório de dados ou eliminar um mapa do site.
Conceitos de atualização baseados no mapa do site
Seguem-se alguns conceitos e termos importantes que ajudam a começar:
Protocolo de sitemap: todos os sitemaps e índices de sitemap suportados pelo Vertex AI Search têm de seguir o protocolo de sitemap.
Mapa do site: um mapa do site é um ficheiro XML com codificação UTF-8 que contém uma lista de URLs das páginas Web e dos ficheiros no seu Website com outras informações importantes, mas opcionais, como a data da última modificação da página Web e a prioridade da página Web para um motor de rastreio em comparação com outras páginas Web no seu Website. De acordo com o protocolo de mapa do site, um único mapa do site pode conter um máximo de 50 000 URLs e ter um tamanho máximo de 50 MB.
Índice de sitemap: quando o seu mapa do site excede o número máximo de URLs ou o tamanho máximo, pode criar vários mapas do site e listá-los num ficheiro de índice de sitemap. De acordo com o protocolo de sitemap, um único índice de sitemap pode aninhar um máximo de 50 000 mapas do site e pode ter um máximo de 50 MB.
Pode enviar um ou mais mapas do site, um ou mais índices de sitemap ou uma combinação de mapas do site e índices de sitemap para a Pesquisa da IA Vertex.
Quando envia o seu mapa do site ou índice do mapa do site para o repositório de dados do Vertex AI Search, aciona as seguintes ações:
Indexação dos URLs incluídos no índice da loja de dados.
- Para uma atualização apenas do mapa do site, esta lista contém apenas os URLs no mapa do site ou no índice do mapa do site que se enquadram no padrão de URL incluído no seu repositório de dados.
- Para uma atualização combinada, esta lista contém todos os URLs que o processo de atualização automática descobre.
Para mais informações sobre estes dois processos de atualização, consulte os métodos de atualização do arquivo de dados do Website e a atualização apenas do mapa do site.
Atualização diária de todos os URLs adicionados, eliminados e atualizados no mapa do site. Um exemplo de um URL atualizado é quando atualiza o campo
lastmod
de um URL no mapa do site.Atualização periódica de URLs inalterados a cada 14 dias.
Métodos de atualização do armazenamento de dados do Website
Pode escolher uma das seguintes formas de incorporar a atualização baseada no mapa do site no seu repositório de dados:
- Atualização apenas com base no mapa do site: use a atualização com base no mapa do site exclusivamente desativando a indexação inicial e a atualização automática.
- Atualização combinada: use a atualização baseada no mapa do site com indexação inicial e atualização automática.
Pode atualizar manualmente páginas Web específicas no índice do seu arquivo de dados em qualquer altura, independentemente do método de atualização que escolher.
Atualização apenas do mapa do site
Quando cria um arquivo de dados do Website, tem de fornecer padrões de URL para as páginas Web que quer incluir no índice do arquivo de dados. Por predefinição, quando termina de criar um repositório de dados de Websites, o Vertex AI Search gera um índice inicial para estas páginas Web incluídas.
Para arquivos de dados de Websites com indexação avançada de Websites, o processo de indexação inicial faz parte da atualização automática. O processo de indexação inicial indexa todos os URLs incluídos que estão disponíveis na Pesquisa Google. A atualização inicial destes URLs reflete a atualização disponível na Pesquisa Google. Após a indexação inicial, o processo de atualização automática descobre novas páginas e atualiza-as com base no melhor esforço. Isto pode resultar em páginas relativamente desatualizadas e um índice mais volumoso, porque este processo descobre URLs que podem estar além do que é necessário.
Em alternativa, pode optar por fazer uma atualização apenas do mapa do site, o que é útil nos seguintes cenários:
- Tem um mapa do site bem mantido e atualizado.
- Tem um Website grande e precisa de um controlo mais rigoroso sobre as páginas Web indexadas. Isto resulta num índice mais simples e fácil de gerir.
- Tem de atualizar as páginas adicionadas e atualizadas diariamente, e remover as páginas eliminadas. Isto resulta num índice mais atualizado que reflete o mapa do site.
A tabela seguinte compara os diferentes métodos que atualizam o índice do repositório de dados:
Método de atualização | Precisão | Intervenção manual | Frequência | Descoberta |
---|---|---|---|---|
Atualização baseada no mapa do site | Exata. Indexa apenas os URLs nos mapas do site. | Não é necessário após o envio do mapa do site ou do índice do mapa do site | Diariamente para URLs adicionados, eliminados e atualizados no mapa do site. 14 dias para URLs inalterados | Não exceder os limites especificados no mapa do site. |
Atualização manual (também conhecida como nova indexação) | Exata. Apenas indexa os URLs especificados no pedido de nova rastreagem. | Obrigatória | A pedido | Não. |
Atualização automática | Não é exato. O armazenamento de dados é atualizado com base no melhor esforço. | Não é obrigatório | Aleatório e com base no melhor esforço | Sim. Descobre URLs além do que está disponível na Pesquisa Google. |
Antes de começar
Antes de enviar um mapa do site ou um índice do mapa do site para o arquivo de dados do Vertex AI Search:
Crie um mapa do site XML ou um índice de mapas do site que referencie todos os mapas do site do seu Website de acordo com o protocolo de mapas do site.
- Compreenda os princípios básicos da criação de um mapa do site. Para mais informações, consulte os conceitos de atualização baseados em mapas do site e crie e envie um mapa do site.
Compreenda que, para enviar um mapa do site ou um índice do mapa do site para o repositório de dados do Vertex AI Search, não é necessário enviá-los para o Google Search.
Todos os URLs no seu mapa do site que quer indexados têm de pertencer a domínios públicos validados no seu repositório de dados. Para mais informações, consulte o artigo Valide domínios de Websites.
O URI do mapa do site ou o URI do índice do mapa do site com os URIs do mapa do site aninhados tem de estar disponível publicamente.
Se usar o ficheiro
robots.txt
no seu Website, atualize-o. Para mais informações, veja como preparar o ficheirorobots.txt
do Website.
Envie um mapa do site ou um índice do mapa do site para um repositório de dados
Para acionar a indexação e a atualização das páginas Web incluídas no seu arquivo de dados, siga estes passos:
Decida se quer fazer uma atualização apenas do mapa do site ou uma atualização combinada com outros métodos.
Para fazer uma atualização apenas do mapa do site, siga este passo. Caso contrário, avance para o passo seguinte.
Não pode usar um arquivo de dados existente com indexação e atualização iniciais. Tem de criar um novo arquivo de dados desativando a indexação inicial e a atualização automática através da configuração
AdvancedSiteSearchConfig
.REST
Crie um arquivo de dados no qual apenas a atualização do mapa do site esteja ativada. Isto é feito desativando o índice inicial e a atualização automática.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.DATA_STORE_DISPLAY_NAME
: o nome a apresentar do arquivo de dados do Vertex AI que quer criar.
Atualize os padrões de URL dos sites a incluir e excluir no seu repositório de dados. Para mais informações, crie um arquivo de dados com conteúdo do Website.
Valide os domínios das páginas Web incluídas no seu armazeno de dados.
Quer escolha uma atualização apenas do mapa do site ou uma atualização combinada, envie um URI de mapa do site ou de índice de sitemap para um arquivo de dados através do método
sitemaps.create
.REST
Envie um mapa do site ou um índice do mapa do site.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search.SITEMAP_URI
: o URI público do mapa do site individual ou do índice do mapa do site que quer enviar. Quando envia um índice do mapa do site, é suficiente enviar o URI do índice do mapa do site. A Pesquisa do Vertex AI indexa automaticamente os URLs incluídos em todos os mapas do site aninhados no índice do mapa do site.
Depois de enviar o mapa do site ou o índice do mapa do site para o repositório de dados, o Vertex AI Search aciona o seguinte:
- Uma indexação dos URLs elegíveis no mapa do site, ou seja, os que estão incluídos no seu arquivo de dados. Em média, este processo demora algumas horas a ser concluído. Os mapas do site maiores podem demorar mais tempo a serem indexados.
- Uma atualização diária das páginas Web com URLs elegíveis.
Para saber como as modificações ao mapa do site ou ao índice do mapa do site afetam a atualização, consulte o artigo Alterações ao mapa do site e ao índice do mapa do site.
Veja os mapas do site na sua base de dados.
Alterações ao mapa do site e ao índice do mapa do site
Após o envio inicial, o Vertex AI Search deteta modificações no seu mapa do site ou índice do mapa do site diariamente e processa estas modificações da seguinte forma:
- Alterações a um mapa do site:
- Quando adiciona URLs: os URLs que correspondem ao padrão de URLs incluídos para o arquivo de dados são adicionados ao índice e atualizados diariamente.
- Quando remove URLs: se os URLs removidos estiverem no índice, são removidos do índice e deixam de ser atualizados.
- Quando atualiza os URLs existentes, por exemplo, quando atualiza o campo
lastmod
para um URL no mapa do site: todos os URLs atualizados que correspondam ao padrão de URLs incluídos para o arquivo de dados são atualizados. Normalmente, a atualização ocorre no prazo de 24 horas após a atualização.
- Alterações a um índice do mapa do site:
- Quando adiciona um mapa do site: os URLs no novo mapa do site que correspondem ao padrão de URLs incluídos para o arquivo de dados são adicionados ao índice e atualizados diariamente.
- Quando remove um mapa do site: os URLs que correspondem ao padrão de URLs incluídos para o arquivo de dados deixam de ser atualizados. No entanto, continuam no índice. Para remover o mapa do site e os respetivos URLs do índice, consulte o artigo Remova um mapa do site e os respetivos URLs do índice.
Liste os mapas do site e os índices de mapas do site num repositório de dados
Para listar todos os mapas do site e índices de mapas do site numa base de dados, use o método
sitemaps.fetch
. Se tiver enviado um índice de sitemap, este método devolve o índice de sitemap e não os mapas do site individuais aninhados.
Se não existirem mapas do site no repositório de dados, este pedido devolve um ficheiro JSON vazio.
REST
Apresente os mapas do site e os índices de mapas do site num arquivo de dados.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search.
Verifique se existe um mapa do site ou um índice do mapa do site num arquivo de dados
Para verificar se um mapa do site ou um índice de sitemap está presente num arquivo de dados, use o método sitemaps.fetch
. Se o mapa do site ou o índice do mapa do site para o qual está a fazer a verificação for enviado para o arquivo de dados, a resposta contém o nome do mapa do site e o URI do mapa do site. Se tiver enviado um índice do mapa do site, a verificação de mapas do site individuais no índice do mapa do site não devolve os resultados corretos.
REST
Procure um mapa do site ou um índice de mapas do site num arquivo de dados.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search.SITEMAP_URI_N
: o URI público do mapa do site ou o índice do mapa do site para o qual quer fazer o check-in na base de dados.
Elimine um mapa do site ou um índice do mapa do site do repositório de dados
Para eliminar um mapa do site do repositório de dados, use o método
sitemap.delete
.
A eliminação de um mapa do site não remove os respetivos URLs do índice. Para remover
o mapa do site e os respetivos URLs do índice, consulte o artigo Remova um mapa do site e os respetivos URLs
do índice.
REST
Elimine um mapa do site ou um índice de sitemap.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search.SITEMAP_ID
: um ID exclusivo que identifica um mapa do site ou um índice do mapa do site. Pode encontrar este ID no campo do nome da resposta quando envia um mapa do site ou um índice de mapas do site, ou lista os mapas do site e os índices de mapas do site no seu repositório de dados.
Remova um mapa do site ou um índice de sitemap e os respetivos URLs do índice do repositório de dados
Para remover um mapa do site ou um índice de sitemap e os respetivos URLs do índice, siga estes passos:
Esvazie o mapa do site ou o índice do mapa do site que foi enviado para o repositório de dados removendo todos os respetivos URLs.
Se enviou um índice de sitemap para o repositório de dados, esvazie os mapas do site aninhados removendo todos os URLs e remova o mapa do site do índice de sitemap.
Aguarde um período de 48 horas para que a Pesquisa do Vertex AI processe estas alterações e remova os URLs do índice do repositório de dados.