A indexação avançada de sites gera dados mensais.
as cobranças de armazenamento com base no tamanho dos dados da Web que você importa para eles
loja on-line. Para ter uma estimativa do tamanho dos seus dados da Web antes de importá-los,
chame o método estimateDataSize
e especifique as páginas
da Web que você quer importar. O método estimateDataSize
é uma operação de longa
duração que é executada até que o processo de estimativa
do tamanho dos dados seja concluído. Isso pode levar de alguns minutos a mais de uma hora,
dependendo do número de páginas da Web especificadas. Depois de ter um
do tamanho dos seus dados da Web, você pode ter uma estimativa do seu gasto
custos de armazenamento de dados usando a página de preços do Vertex AI Agent Builder (consulte a seção Índice de dados
de preços) ou os preços do Google Cloud
calculadora (procure por Vertex AI Agent Builder).
Antes de começar
Determine os padrões de URL dos sites que você pretende incluir (e, opcionalmente, excluir) ao importar dados da Web para o repositório de dados. Especifique
esses padrões de URL ao chamar o método estimateDataSize
.
Procedimento
Para ter uma estimativa do tamanho dos seus dados da Web, siga estas etapas:
Chame o método
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Substitua:
PROJECT_ID
: o ID do seu projeto.URI_PATTERN_TO_INCLUDE
: os padrões de URL dos sites que você quer incluir na estimativa de tamanho de dados.URI_PATTERN_TO_EXCLUDE
: (opcional) os padrões de URL das sites que você quer excluir da estimativa de tamanho dos dados.Para
URI_PATTERN_TO_INCLUDE
eURI_PATTERN_TO_EXCLUDE
, é possível usar padrões semelhantes aos seguintes:- Todo o site:
www.mysite.com
- Partes de um site:
www.mysite.com/faq
- Domínio inteiro:
mysite.com
ou*.mysite.com
- Todo o site:
EXCLUSIVE_BOOLEAN
: (opcional) se fortrue
, o URI fornecido O padrão representa páginas da Web que foram excluídas do tamanho dos seus dados estimativa. O padrão éfalse
, o que significa que o URI fornecido representa páginas da Web incluídas na estimativa de tamanho dos dados.EXACT_MATCH_BOOLEAN
: (opcional) se fortrue
, o valor fornecido URI representa uma única página da Web, em vez de uma página da Web, e todas dos filhos. O padrão éfalse
, o que significa que o padrão de URI fornecido representa a página da Web e todos os filhos dela.
O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Essa saída inclui o campo
name
, que é o nome da operação de longa duração. Salve o valorname
para usar na próxima etapa.Consultar o método
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Substitua
OPERATION_NAME
pelo valor dename
que você salvou no etapa anterior. Também é possível conferir o nome da operação listando operações de longa duração.Avalie cada resposta.
Se uma resposta não contiver
"done": true
, o processo de estimativa do tamanho dos dados não será concluído. Continuar pesquisando.O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Se uma resposta contiver
"done": true
, o processo de estimativa do tamanho dos dados será concluído. Salve o valorDATA_SIZE_BYTES
do resposta para usar na etapa a seguir.O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Esta saída inclui os seguintes valores:
DATA_SIZE_BYTES
: o tamanho estimado dos seus dados da Web, em bytes.DOCUMENT_COUNT
: o número estimado de páginas da Web na sua Web dados.
Divida o valor de
DATA_SIZE_BYTES
da etapa anterior por 1.000.000.000 para receber gigabytes. Salvar para a etapa seguinte.Para ter uma estimativa dos custos mensais de armazenamento de dados:
Acesse a calculadora de preços do Google Cloud.
Clique em Adicionar à estimativa.
Pesquise
Vertex AI Agent Builder
e clique no Caixa Vertex AI Agent Builder.Na caixa Índice de dados, insira o tamanho estimado dos dados da Web, em gigabytes, da etapa anterior.
Consulte a caixa Custo estimado para saber o custo estimado do armazenamento de dados.