A indexação avançada de sites gera cobranças mensais de armazenamento de dados com base no tamanho dos dados da Web importados para o repositório de dados. Para ter uma estimativa do tamanho dos seus dados da Web antes de importá-los, chame o método estimateDataSize
e especifique as páginas
da Web que você quer importar. O método estimateDataSize
é uma operação de longa
duração que é executada até que o processo de estimativa
do tamanho dos dados seja concluído. Isso pode levar de alguns minutos a mais de uma hora,
dependendo do número de páginas da Web especificadas. Depois de ter uma
estimativa do tamanho dos dados da Web, você pode estimar os custos mensais
de armazenamento de dados usando a página de preços do Vertex AI Agent Builder (consulte a seção Preços do índice de dados) ou a calculadora de preços do Google Cloud (pesquise o Vertex AI Agent Builder).
Antes de começar
Determine os padrões de URL dos sites que você pretende incluir (e, opcionalmente, excluir) ao importar dados da Web para o repositório de dados. Especifique
esses padrões de URL ao chamar o método estimateDataSize
.
Procedimento
Para ter uma estimativa do tamanho dos seus dados da Web, siga estas etapas:
Chame o método
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Substitua:
PROJECT_ID
: ID do projeto.URI_PATTERN_TO_INCLUDE
: os padrões de URL dos sites que você quer incluir na estimativa de tamanho de dados.URI_PATTERN_TO_EXCLUDE
: (opcional) os padrões de URL dos sites que você quer excluir da estimativa de tamanho de dados.Para
URI_PATTERN_TO_INCLUDE
eURI_PATTERN_TO_EXCLUDE
, use padrões semelhantes a estes:- Site inteiro:
www.mysite.com
- Partes de um site:
www.mysite.com/faq
- Domínio inteiro:
mysite.com
ou*.mysite.com
- Site inteiro:
EXCLUSIVE_BOOLEAN
: (opcional) setrue
, o padrão de URI fornecido representa páginas da Web excluídas da estimativa do tamanho dos dados. O padrão éfalse
, o que significa que o padrão de URI fornecido representa páginas da Web incluídas na estimativa de tamanho de dados.EXACT_MATCH_BOOLEAN
: (opcional) setrue
, o padrão de URI fornecido representa uma única página da Web, em vez da página da Web e de todos os filhos dela. O padrão éfalse
, o que significa que o padrão de URI fornecido representa a página da Web e todos os filhos dela.
O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Essa saída inclui o campo
name
, que é o nome da operação de longa duração. Salve o valorname
para usar na próxima etapa.Consultar o método
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Substitua
OPERATION_NAME
pelo valorname
que você salvou na etapa anterior. Também é possível conferir o nome da operação listando operações de longa duração.Avalie cada resposta.
Se uma resposta não contiver
"done": true
, o processo de estimativa do tamanho dos dados não será concluído. Continue a pesquisa.O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Se uma resposta contiver
"done": true
, o processo de estimativa do tamanho dos dados será concluído. Salve o valorDATA_SIZE_BYTES
da resposta para usar na próxima etapa.O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Esta saída inclui os seguintes valores:
DATA_SIZE_BYTES
: o tamanho estimado dos dados da Web, em bytes.DOCUMENT_COUNT
: o número estimado de páginas da Web nos seus dados da Web.
Divida o valor de
DATA_SIZE_BYTES
da etapa anterior por 1.000.000.000 para receber gigabytes. Salve esse valor para a próxima etapa.Para receber uma estimativa dos custos mensais de armazenamento de dados:
Acesse a calculadora de preços do Google Cloud.
Clique em Adicionar à estimativa.
Pesquise
Vertex AI Agent Builder
e clique na caixa Vertex AI Agent Builder.Na caixa Índice de dados, insira o tamanho estimado dos dados da Web, em gigabytes, da etapa anterior.
Consulte a caixa Custo estimado para conferir o custo estimado de armazenamento de dados.