Ottenere una stima dei costi di archiviazione mensili

L'indicizzazione avanzata dei siti web comporta costi mensili di archiviazione dei dati in base alle dimensioni dei dati web importati nel tuo data store. Per ottenere una stima delle dimensioni dei dati web prima di importarli, puoi chiamare il metodo estimateDataSize e specificare le pagine web che vuoi importare. Il metodo estimateDataSize è un'operazione di lunga durata che viene eseguita fino al completamento del processo di stima delle dimensioni dei dati. L'operazione può richiedere da pochi minuti a più di un'ora, a seconda del numero di pagine web specificate. Dopo aver ottenuto una stima delle dimensioni dei dati web, puoi ottenere una stima dei costi di archiviazione dei dati mensili utilizzando la pagina dei prezzi di Vertex AI Agent Builder (consulta la sezione Prezzi di Data Index) o il Calcolatore prezzi di Google Cloud (cerca Vertex AI Agent Builder).

Prima di iniziare

Determina i pattern URL dei siti web che intendi includere (e eventualmente escludere) quando importi i dati web nel tuo datastore. Devi specificare questi pattern URL quando chiami il metodo estimateDataSize.

Procedura

Per ottenere una stima delle dimensioni dei dati web:

  1. Chiama il metodo estimateDataSize.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \
    -d '{
      "website_data_source": {
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_INCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN
        },
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN,
          exclusive: EXCLUSIVE_BOOLEAN
        }
      }
    }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del progetto.

    • URI_PATTERN_TO_INCLUDE: i pattern URL dei siti web che vuoi includere nella stima delle dimensioni dei dati.

    • URI_PATTERN_TO_EXCLUDE: (Facoltativo) I pattern URL per i siti web che vuoi escludere dalla stima delle dimensioni dei dati.

      Per URI_PATTERN_TO_INCLUDE e URI_PATTERN_TO_EXCLUDE, puoi utilizzare pattern simili ai seguenti:

      • Tutto il sito web: www.mysite.com
      • Parti di un sito web: www.mysite.com/faq
      • Intero dominio: mysite.com o *.mysite.com
    • EXCLUSIVE_BOOLEAN: (Facoltativo) se true, il pattern URI fornito rappresenta le pagine web escluse dalla stima delle dimensioni dei dati. Il valore predefinito è false, il che significa che il pattern URI fornito rappresenta le pagine web incluse nella stima delle dimensioni dei dati.

    • EXACT_MATCH_BOOLEAN: (Facoltativo) se il valore è true, il pattern URI fornito rappresenta una singola pagina web anziché la pagina web e tutti i relativi elementi secondari. Il valore predefinito è false, il che significa che il pattern URI fornito rappresenta la pagina web e tutti i relativi elementi secondari.

    L'output è simile al seguente:

    {
      "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
      "metadata": {
        "@type":  "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
      }
    }
    

    Questo output include il campo name, ovvero il nome dell'operazione di lunga durata. Salva il valore name da utilizzare nel passaggio successivo.

  2. Effettua il polling del metodo operations.get.

    curl -X GET \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
    

    Sostituisci OPERATION_NAME con il valore name che hai salvato nel passaggio precedente. Puoi anche ottenere il nome dell'operazione elencando le operazioni a lunga esecuzione.

  3. Valuta ogni risposta.

    • Se una risposta non contiene "done": true, la procedura per stimare le dimensioni dei dati non è completa. Continua a eseguire il polling.

      L'output è simile al seguente:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
        }
      }
      
    • Se una risposta contiene "done": true, la procedura di stima delle dimensioni dei dati è completata. Salva il valore DATA_SIZE_BYTES della risposta da utilizzare nel passaggio successivo.

      L'output è simile al seguente:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata",
          "createTime": "2023-12-08T19:54:06.911248Z"
        },
        "done": true,
        "response": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse",
          "dataSizeBytes": DATA_SIZE_BYTES,
          "documentCount": DOCUMENT_COUNT
        }
      }
      

      Questo output include i seguenti valori:

      • DATA_SIZE_BYTES: le dimensioni stimate dei dati web in byte.

      • DOCUMENT_COUNT: il numero stimato di pagine web nei tuoi dati web.

  4. Dividi il valore DATA_SIZE_BYTES del passaggio precedente per 1.000.000.000 per ottenere i gigabyte. Salva questo valore per il passaggio successivo.

  5. Per ottenere una stima dei costi mensili di archiviazione dei dati:

    1. Vai al Calcolatore prezzi di Google Cloud.

    2. Fai clic su Aggiungi al preventivo.

    3. Cerca Vertex AI Agent Builder e poi fai clic sulla casella Vertex AI Agent Builder.

    4. Nella casella Indice dei dati, inserisci la dimensione stimata dei dati web in gigabyte del passaggio precedente.

      Nella casella Costo stimato è indicato il costo stimato per l'archiviazione dei dati.