L'indicizzazione avanzata dei siti web comporta costi mensili di archiviazione dei dati in base alle dimensioni dei dati web importati nel tuo data store. Per ottenere una stima delle dimensioni dei dati web prima di importarli, puoi chiamare il metodo estimateDataSize
e specificare le pagine web che vuoi importare. Il metodo estimateDataSize
è un'operazione di lunga durata che viene eseguita fino al completamento del processo di stima delle dimensioni dei dati. L'operazione può richiedere da pochi minuti a più di un'ora,
a seconda del numero di pagine web specificate. Dopo aver ottenuto una stima delle dimensioni dei dati web, puoi ottenere una stima dei costi di archiviazione dei dati mensili utilizzando la pagina dei prezzi di Vertex AI Agent Builder (consulta la sezione Prezzi di Data Index) o il Calcolatore prezzi di Google Cloud (cerca Vertex AI Agent Builder).
Prima di iniziare
Determina i pattern URL dei siti web che intendi includere (e eventualmente escludere) quando importi i dati web nel tuo datastore.
Devi
specificare questi pattern URL quando chiami il metodo estimateDataSize
.
Procedura
Per ottenere una stima delle dimensioni dei dati web:
Chiama il metodo
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del progetto.URI_PATTERN_TO_INCLUDE
: i pattern URL dei siti web che vuoi includere nella stima delle dimensioni dei dati.URI_PATTERN_TO_EXCLUDE
: (Facoltativo) I pattern URL per i siti web che vuoi escludere dalla stima delle dimensioni dei dati.Per
URI_PATTERN_TO_INCLUDE
eURI_PATTERN_TO_EXCLUDE
, puoi utilizzare pattern simili ai seguenti:- Tutto il sito web:
www.mysite.com
- Parti di un sito web:
www.mysite.com/faq
- Intero dominio:
mysite.com
o*.mysite.com
- Tutto il sito web:
EXCLUSIVE_BOOLEAN
: (Facoltativo) setrue
, il pattern URI fornito rappresenta le pagine web escluse dalla stima delle dimensioni dei dati. Il valore predefinito èfalse
, il che significa che il pattern URI fornito rappresenta le pagine web incluse nella stima delle dimensioni dei dati.EXACT_MATCH_BOOLEAN
: (Facoltativo) se il valore ètrue
, il pattern URI fornito rappresenta una singola pagina web anziché la pagina web e tutti i relativi elementi secondari. Il valore predefinito èfalse
, il che significa che il pattern URI fornito rappresenta la pagina web e tutti i relativi elementi secondari.
L'output è simile al seguente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Questo output include il campo
name
, ovvero il nome dell'operazione di lunga durata. Salva il valorename
da utilizzare nel passaggio successivo.Effettua il polling del metodo
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Sostituisci
OPERATION_NAME
con il valorename
che hai salvato nel passaggio precedente. Puoi anche ottenere il nome dell'operazione elencando le operazioni a lunga esecuzione.Valuta ogni risposta.
Se una risposta non contiene
"done": true
, la procedura per stimare le dimensioni dei dati non è completa. Continua a eseguire il polling.L'output è simile al seguente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Se una risposta contiene
"done": true
, la procedura di stima delle dimensioni dei dati è completata. Salva il valoreDATA_SIZE_BYTES
della risposta da utilizzare nel passaggio successivo.L'output è simile al seguente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Questo output include i seguenti valori:
DATA_SIZE_BYTES
: le dimensioni stimate dei dati web in byte.DOCUMENT_COUNT
: il numero stimato di pagine web nei tuoi dati web.
Dividi il valore
DATA_SIZE_BYTES
del passaggio precedente per 1.000.000.000 per ottenere i gigabyte. Salva questo valore per il passaggio successivo.Per ottenere una stima dei costi mensili di archiviazione dei dati:
Fai clic su Aggiungi al preventivo.
Cerca
Vertex AI Agent Builder
e poi fai clic sulla casella Vertex AI Agent Builder.Nella casella Indice dei dati, inserisci la dimensione stimata dei dati web in gigabyte del passaggio precedente.
Nella casella Costo stimato è indicato il costo stimato per l'archiviazione dei dati.