A indexação avançada de sites gera cobranças mensais de armazenamento de dados com base no tamanho dos dados da Web importados para o repositório. Para ter uma estimativa do tamanho dos seus dados da Web antes de importar, chame o método estimateDataSize
e especifique as páginas da Web que você quer importar. O método estimateDataSize
é uma operação de longa duração que é executada até que o processo de estimativa do tamanho dos dados seja concluído. Isso pode levar de alguns minutos a mais de uma hora, dependendo do número de páginas da Web que você especificar. Depois de ter uma estimativa do tamanho dos seus dados da Web, você pode calcular os custos mensais de armazenamento de dados usando a página de preços dos aplicativos de IA (consulte a seção Preços do índice de dados) ou a calculadora de preços do Google Cloud (pesquise "Aplicativos de IA").
Antes de começar
Determine os padrões de URL dos sites que você pretende incluir (e, opcionalmente, excluir) ao importar dados da Web para o repositório de dados. Você especifica esses padrões de URL ao chamar o método estimateDataSize
.
Procedimento
Para ter uma estimativa do tamanho dos seus dados da Web, siga estas etapas:
Chame o método
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Substitua:
PROJECT_ID
: ID do projeto.URI_PATTERN_TO_INCLUDE
: os padrões de URL dos sites que você quer incluir na estimativa de tamanho dos dados.URI_PATTERN_TO_EXCLUDE
: (opcional) os padrões de URL dos sites que você quer excluir da estimativa de tamanho dos dados.Para
URI_PATTERN_TO_INCLUDE
eURI_PATTERN_TO_EXCLUDE
, você pode usar padrões semelhantes aos seguintes:- Todo o site:
www.mysite.com
- Partes de um site:
www.mysite.com/faq
- Domínio inteiro:
mysite.com
ou*.mysite.com
- Todo o site:
EXCLUSIVE_BOOLEAN
: (opcional) setrue
, o padrão de URI fornecido representará páginas da Web excluídas da estimativa de tamanho dos dados. O padrão éfalse
, o que significa que o padrão de URI fornecido representa páginas da Web incluídas na estimativa de tamanho dos dados.EXACT_MATCH_BOOLEAN
: (opcional) setrue
, o padrão de URI fornecido representará uma única página da Web, em vez da página e de todos os filhos dela. O padrão éfalse
, o que significa que o padrão de URI fornecido representa a página da Web e todos os filhos dela.
O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Essa saída inclui o campo
name
, que é o nome da operação de longa duração. Salve o valorname
para usar na próxima etapa.Faça uma pesquisa com o método
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Substitua
OPERATION_NAME
pelo valorname
que você salvou na etapa anterior. Também é possível conferir o nome da operação listando operações de longa duração.Avalie cada resposta.
Se uma resposta não contiver
"done": true
, o processo de estimativa do tamanho dos dados não estará concluído. Continue a pesquisa.O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Se uma resposta contiver
"done": true
, o processo de estimativa do tamanho dos dados será concluído. Salve o valorDATA_SIZE_BYTES
da resposta para usar na próxima etapa.O resultado será assim:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Esta saída inclui os seguintes valores:
DATA_SIZE_BYTES
: o tamanho estimado dos seus dados da Web, em bytes.DOCUMENT_COUNT
: o número estimado de páginas da Web nos seus dados da Web.
Divida o valor de
DATA_SIZE_BYTES
da etapa anterior por 1.000.000.000 para obter gigabytes. Salve esse valor para a próxima etapa.Para receber uma estimativa dos seus custos mensais de armazenamento de dados:
Acesse a calculadora de preços do Google Cloud.
Clique em Adicionar à estimativa.
Pesquise
AI Applications
e clique na caixa Aplicativos de IA.Na caixa Índice de dados, insira o tamanho estimado dos seus dados da Web, em gigabytes, da etapa anterior.
Consulte a caixa Custo estimado para ver o custo estimado de armazenamento de dados.