Receber uma estimativa dos custos mensais de armazenamento

A indexação avançada de sites gera cobranças mensais de armazenamento de dados com base no tamanho dos dados da Web importados para o repositório de dados. Para ter uma estimativa do tamanho dos seus dados da Web antes de importá-los, chame o método estimateDataSize e especifique as páginas da Web que você quer importar. O método estimateDataSize é uma operação de longa duração que é executada até que o processo de estimativa do tamanho dos dados seja concluído. Isso pode levar de alguns minutos a mais de uma hora, dependendo do número de páginas da Web especificadas. Depois de ter uma estimativa do tamanho dos dados da Web, você pode estimar os custos mensais de armazenamento de dados usando a página de preços do Vertex AI Agent Builder (consulte a seção Preços do índice de dados) ou a calculadora de preços do Google Cloud (pesquise o Vertex AI Agent Builder).

Antes de começar

Determine os padrões de URL dos sites que você pretende incluir (e, opcionalmente, excluir) ao importar dados da Web para o repositório de dados. Especifique esses padrões de URL ao chamar o método estimateDataSize.

Procedimento

Para ter uma estimativa do tamanho dos seus dados da Web, siga estas etapas:

  1. Chame o método estimateDataSize.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \
    -d '{
      "website_data_source": {
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_INCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN
        },
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN,
          exclusive: EXCLUSIVE_BOOLEAN
        }
      }
    }'
    

    Substitua:

    • PROJECT_ID: ID do projeto.

    • URI_PATTERN_TO_INCLUDE: os padrões de URL dos sites que você quer incluir na estimativa de tamanho de dados.

    • URI_PATTERN_TO_EXCLUDE: (opcional) os padrões de URL dos sites que você quer excluir da estimativa de tamanho de dados.

      Para URI_PATTERN_TO_INCLUDE e URI_PATTERN_TO_EXCLUDE, use padrões semelhantes a estes:

      • Site inteiro: www.mysite.com
      • Partes de um site: www.mysite.com/faq
      • Domínio inteiro: mysite.com ou *.mysite.com
    • EXCLUSIVE_BOOLEAN: (opcional) se true, o padrão de URI fornecido representa páginas da Web excluídas da estimativa do tamanho dos dados. O padrão é false, o que significa que o padrão de URI fornecido representa páginas da Web incluídas na estimativa de tamanho de dados.

    • EXACT_MATCH_BOOLEAN: (opcional) se true, o padrão de URI fornecido representa uma única página da Web, em vez da página da Web e de todos os filhos dela. O padrão é false, o que significa que o padrão de URI fornecido representa a página da Web e todos os filhos dela.

    O resultado será assim:

    {
      "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
      "metadata": {
        "@type":  "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
      }
    }
    

    Essa saída inclui o campo name, que é o nome da operação de longa duração. Salve o valor name para usar na próxima etapa.

  2. Consultar o método operations.get.

    curl -X GET \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
    

    Substitua OPERATION_NAME pelo valor name que você salvou na etapa anterior. Também é possível conferir o nome da operação listando operações de longa duração.

  3. Avalie cada resposta.

    • Se uma resposta não contiver "done": true, o processo de estimativa do tamanho dos dados não será concluído. Continue a pesquisa.

      O resultado será assim:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
        }
      }
      
    • Se uma resposta contiver "done": true, o processo de estimativa do tamanho dos dados será concluído. Salve o valor DATA_SIZE_BYTES da resposta para usar na próxima etapa.

      O resultado será assim:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata",
          "createTime": "2023-12-08T19:54:06.911248Z"
        },
        "done": true,
        "response": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse",
          "dataSizeBytes": DATA_SIZE_BYTES,
          "documentCount": DOCUMENT_COUNT
        }
      }
      

      Esta saída inclui os seguintes valores:

      • DATA_SIZE_BYTES: o tamanho estimado dos dados da Web, em bytes.

      • DOCUMENT_COUNT: o número estimado de páginas da Web nos seus dados da Web.

  4. Divida o valor de DATA_SIZE_BYTES da etapa anterior por 1.000.000.000 para receber gigabytes. Salve esse valor para a próxima etapa.

  5. Para receber uma estimativa dos custos mensais de armazenamento de dados:

    1. Acesse a calculadora de preços do Google Cloud.

    2. Clique em Adicionar à estimativa.

    3. Pesquise Vertex AI Agent Builder e clique na caixa Vertex AI Agent Builder.

    4. Na caixa Índice de dados, insira o tamanho estimado dos dados da Web, em gigabytes, da etapa anterior.

      Consulte a caixa Custo estimado para conferir o custo estimado de armazenamento de dados.