Receba uma estimativa dos custos de armazenamento mensais

A indexação avançada de Websites incorre em custos de armazenamento de dados mensais com base no tamanho dos dados da Web que importa para o seu repositório de dados. Para obter uma estimativa do tamanho dos seus dados da Web antes de os importar, pode chamar o método estimateDataSize e especificar as páginas Web que quer importar. O método estimateDataSize é uma operação de longa duração que é executada até que o processo de estimativa do tamanho dos dados esteja concluído. Este processo pode demorar de alguns minutos a mais de uma hora, consoante o número de páginas Web que especificar. Depois de ter uma estimativa do tamanho dos seus dados Web, pode obter uma estimativa dos custos de armazenamento de dados mensais através da página de preços das Aplicações de IA (consulte a secção Preços do índice de dados) ou da calculadora de preços do Google Cloud (pesquise Aplicações de IA).

Antes de começar

Determine os padrões de URL dos Websites que pretende incluir (e, opcionalmente, excluir) quando importa dados da Web para o seu repositório de dados. Especifique estes padrões de URL quando chamar o método estimateDataSize.

Procedimento

Para obter uma estimativa da dimensão dos seus dados da Web, siga estes passos:

  1. Chame o método estimateDataSize.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \
    -d '{
      "website_data_source": {
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_INCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN
        },
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN,
          exclusive: EXCLUSIVE_BOOLEAN
        }
      }
    }'
    

    Substitua o seguinte:

    • PROJECT_ID: o ID do seu projeto.

    • URI_PATTERN_TO_INCLUDE: os padrões de URL dos Websites que quer incluir na sua estimativa do tamanho dos dados.

    • URI_PATTERN_TO_EXCLUDE: (Opcional) Os padrões de URL dos Websites que quer excluir da estimativa do tamanho dos dados.

      Para URI_PATTERN_TO_INCLUDE e URI_PATTERN_TO_EXCLUDE, pode usar padrões semelhantes aos seguintes:

      • Todo o Website: www.mysite.com
      • Partes de um Website: www.mysite.com/faq
      • Todo o domínio: mysite.com ou *.mysite.com
    • EXCLUSIVE_BOOLEAN: (opcional) Se true, o padrão de URI fornecido representa páginas Web excluídas da sua estimativa do tamanho dos dados. O valor predefinido é false, o que significa que o padrão de URI fornecido representa páginas Web incluídas na sua estimativa do tamanho dos dados.

    • EXACT_MATCH_BOOLEAN: (Opcional) Se true, o padrão de URI fornecido representa uma única página Web, em vez da página Web e de todos os respetivos elementos subordinados. O valor predefinido é false, o que significa que o padrão de URI fornecido representa a página Web e todos os respetivos elementos subordinados.

    O resultado é semelhante ao seguinte:

    {
      "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
      "metadata": {
        "@type":  "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
      }
    }
    

    Este resultado inclui o campo name, que é o nome da operação de longa duração. Guarde o valor name para usar no passo seguinte.

  2. Sondar o método operations.get.

    curl -X GET \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
    

    Substitua OPERATION_NAME pelo valor name que guardou no passo anterior. Também pode obter o nome da operação listando as operações de longa duração.

  3. Avalie cada resposta.

    • Se uma resposta não contiver "done": true, o processo de estimativa do tamanho dos dados não está concluído. Continuar a sondar.

      O resultado é semelhante ao seguinte:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
        }
      }
      
    • Se uma resposta contiver "done": true, o processo de estimativa do tamanho dos dados está concluído. Guarde o valor DATA_SIZE_BYTES da resposta para usar no passo seguinte.

      O resultado é semelhante ao seguinte:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata",
          "createTime": "2023-12-08T19:54:06.911248Z"
        },
        "done": true,
        "response": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse",
          "dataSizeBytes": DATA_SIZE_BYTES,
          "documentCount": DOCUMENT_COUNT
        }
      }
      

      Esta saída inclui os seguintes valores:

      • DATA_SIZE_BYTES: o tamanho estimado dos seus dados da Web, em bytes.

      • DOCUMENT_COUNT: o número estimado de páginas Web nos seus dados da Web.

  4. Divida o valor de DATA_SIZE_BYTES do passo anterior por 1 000 000 000 para obter gigabytes. Guarde este valor para o passo seguinte.

  5. Para receber uma estimativa dos seus custos mensais de armazenamento de dados:

    1. Aceda à calculadora de preços do Google Cloud.

    2. Clique em Adicionar à estimativa.

    3. Pesquise AI Applications e, de seguida, clique na caixa Aplicações de IA.

    4. Na caixa Índice de dados, introduza o tamanho estimado dos seus dados Web, em gigabytes, do passo anterior.

      Consulte a caixa Custo estimado para ver o custo estimado do armazenamento de dados.