L'indicizzazione avanzata dei siti web comporta addebiti mensili per l'archiviazione dei dati in base alle dimensioni dei dati web che importi nel tuo data store. Per ottenere una stima delle dimensioni dei tuoi dati web prima di importarli, puoi chiamare il metodo estimateDataSize
e specificare le pagine web che vuoi importare. Il metodo estimateDataSize
è un'operazione a lunga esecuzione che viene eseguita fino al completamento della procedura di stima delle dimensioni dei dati. Questa operazione può richiedere da pochi minuti a più di un'ora,
a seconda del numero di pagine web specificate. Dopo aver stimato le dimensioni dei tuoi dati web, puoi ottenere una stima dei costi mensili di archiviazione dei dati utilizzando la pagina dei prezzi di AI Applications (consulta la sezione Prezzi di Data Index) o il Calcolatore prezzi di Google Cloud (cerca AI Applications).
Prima di iniziare
Determina i pattern URL per i siti web che intendi includere (e, facoltativamente, escludere) quando importi i dati web nel datastore. Specifichi questi pattern URL quando chiami il metodo estimateDataSize
.
Procedura
Per ottenere una stima delle dimensioni dei tuoi dati web:
Chiama il metodo
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID progetto.URI_PATTERN_TO_INCLUDE
: i pattern URL per i siti web che vuoi includere nella stima delle dimensioni dei dati.URI_PATTERN_TO_EXCLUDE
: (facoltativo) i pattern URL per i siti web che vuoi escludere dalla stima delle dimensioni dei dati.Per
URI_PATTERN_TO_INCLUDE
eURI_PATTERN_TO_EXCLUDE
, puoi utilizzare pattern simili a questi:- Intero sito web:
www.mysite.com
- Parti di un sito web:
www.mysite.com/faq
- Intero dominio:
mysite.com
o*.mysite.com
- Intero sito web:
EXCLUSIVE_BOOLEAN
: (facoltativo) setrue
, il pattern URI fornito rappresenta le pagine web escluse dalla stima delle dimensioni dei dati. Il valore predefinito èfalse
, il che significa che il pattern URI fornito rappresenta le pagine web incluse nella stima delle dimensioni dei dati.EXACT_MATCH_BOOLEAN
: (facoltativo) setrue
, il pattern URI fornito rappresenta una singola pagina web, anziché la pagina web e tutti i relativi elementi secondari. Il valore predefinito èfalse
, il che significa che il pattern URI fornito rappresenta la pagina web e tutti i relativi elementi secondari.
L'output è simile al seguente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Questo output include il campo
name
, che è il nome dell'operazione a lunga esecuzione. Salva il valore diname
da utilizzare nel passaggio successivo.Esegui il polling del metodo
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Sostituisci
OPERATION_NAME
con il valorename
che hai salvato nel passaggio precedente. Puoi anche ottenere il nome dell'operazione elencando le operazioni a lunga esecuzione.Valuta ogni risposta.
Se una risposta non contiene
"done": true
, la procedura per stimare le dimensioni dei dati non è completa. Continua il sondaggio.L'output è simile al seguente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Se una risposta contiene
"done": true
, la procedura per stimare le dimensioni dei dati è completata. Salva il valoreDATA_SIZE_BYTES
dalla risposta da utilizzare nel passaggio successivo.L'output è simile al seguente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Questo output include i seguenti valori:
DATA_SIZE_BYTES
: le dimensioni stimate dei tuoi dati web, in byte.DOCUMENT_COUNT
: il numero stimato di pagine web nei tuoi dati web.
Dividi il valore
DATA_SIZE_BYTES
del passaggio precedente per 1.000.000.000 per ottenere i gigabyte. Salva questo valore per il passaggio successivo.Per ottenere una stima dei costi mensili di archiviazione dei dati:
Fai clic su Aggiungi alla stima.
Cerca
AI Applications
e poi fai clic sulla casella Applicazioni AI.Nella casella Indice dati, inserisci la dimensione stimata dei dati web, in gigabyte, del passaggio precedente.
Consulta la casella Costo stimato per il costo stimato dell'archiviazione dei dati.