A indexação avançada de Websites incorre em custos de armazenamento de dados mensais com base no tamanho dos dados da Web que importa para o seu repositório de dados. Para obter uma estimativa do tamanho dos seus dados da Web antes de os importar, pode chamar o método estimateDataSize
e especificar as páginas Web que quer importar. O método estimateDataSize
é uma operação de longa duração que é executada até que o processo de estimativa do tamanho dos dados esteja concluído. Este processo pode demorar de alguns minutos a mais de uma hora,
consoante o número de páginas Web que especificar. Depois de ter uma estimativa do tamanho dos seus dados Web, pode obter uma estimativa dos custos de armazenamento de dados mensais através da página de preços das Aplicações de IA (consulte a secção Preços do índice de dados) ou da calculadora de preços do Google Cloud (pesquise Aplicações de IA).
Antes de começar
Determine os padrões de URL dos Websites que pretende incluir (e, opcionalmente, excluir) quando importa dados da Web para o seu repositório de dados. Especifique estes padrões de URL quando chamar o método estimateDataSize
.
Procedimento
Para obter uma estimativa da dimensão dos seus dados da Web, siga estes passos:
Chame o método
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto.URI_PATTERN_TO_INCLUDE
: os padrões de URL dos Websites que quer incluir na sua estimativa do tamanho dos dados.URI_PATTERN_TO_EXCLUDE
: (Opcional) Os padrões de URL dos Websites que quer excluir da estimativa do tamanho dos dados.Para
URI_PATTERN_TO_INCLUDE
eURI_PATTERN_TO_EXCLUDE
, pode usar padrões semelhantes aos seguintes:- Todo o Website:
www.mysite.com
- Partes de um Website:
www.mysite.com/faq
- Todo o domínio:
mysite.com
ou*.mysite.com
- Todo o Website:
EXCLUSIVE_BOOLEAN
: (opcional) Setrue
, o padrão de URI fornecido representa páginas Web excluídas da sua estimativa do tamanho dos dados. O valor predefinido éfalse
, o que significa que o padrão de URI fornecido representa páginas Web incluídas na sua estimativa do tamanho dos dados.EXACT_MATCH_BOOLEAN
: (Opcional) Setrue
, o padrão de URI fornecido representa uma única página Web, em vez da página Web e de todos os respetivos elementos subordinados. O valor predefinido éfalse
, o que significa que o padrão de URI fornecido representa a página Web e todos os respetivos elementos subordinados.
O resultado é semelhante ao seguinte:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Este resultado inclui o campo
name
, que é o nome da operação de longa duração. Guarde o valorname
para usar no passo seguinte.Sondar o método
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Substitua
OPERATION_NAME
pelo valorname
que guardou no passo anterior. Também pode obter o nome da operação listando as operações de longa duração.Avalie cada resposta.
Se uma resposta não contiver
"done": true
, o processo de estimativa do tamanho dos dados não está concluído. Continuar a sondar.O resultado é semelhante ao seguinte:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Se uma resposta contiver
"done": true
, o processo de estimativa do tamanho dos dados está concluído. Guarde o valorDATA_SIZE_BYTES
da resposta para usar no passo seguinte.O resultado é semelhante ao seguinte:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Esta saída inclui os seguintes valores:
DATA_SIZE_BYTES
: o tamanho estimado dos seus dados da Web, em bytes.DOCUMENT_COUNT
: o número estimado de páginas Web nos seus dados da Web.
Divida o valor de
DATA_SIZE_BYTES
do passo anterior por 1 000 000 000 para obter gigabytes. Guarde este valor para o passo seguinte.Para receber uma estimativa dos seus custos mensais de armazenamento de dados:
Clique em Adicionar à estimativa.
Pesquise
AI Applications
e, de seguida, clique na caixa Aplicações de IA.Na caixa Índice de dados, introduza o tamanho estimado dos seus dados Web, em gigabytes, do passo anterior.
Consulte a caixa Custo estimado para ver o custo estimado do armazenamento de dados.