L'indexation avancée des sites Web entraîne des frais de stockage de données mensuels en fonction de la taille des données Web que vous importez dans votre magasin de données. Pour obtenir une estimation de la taille de vos données Web avant de les importer,
peut appeler la méthode estimateDataSize
et spécifier l'URL
que vous souhaitez importer. La méthode estimateDataSize
est une méthode de longue durée
d'exécution qui s'exécute jusqu'à ce que le processus d'estimation
la taille des données est complète. Cette opération peut prendre de quelques minutes à plus d'une heure,
en fonction du nombre de pages Web spécifié. Une fois que vous avez une estimation de la taille de vos données Web, vous pouvez obtenir une estimation de vos coûts de stockage de données mensuels à l'aide de la page des tarifs de Vertex AI Agent Builder (voir la section Tarifs de l'index de données) ou du simulateur de prix de Google Cloud (recherchez Vertex AI Agent Builder).
Avant de commencer
Déterminez les formats d'URL des sites Web que vous souhaitez inclure (et
à exclure) lorsque vous importez des données Web dans votre data store. Vous spécifiez ces formats d'URL lorsque vous appelez la méthode estimateDataSize
.
Procédure
Pour obtenir une estimation de la taille de vos données Web, procédez comme suit :
Appelez la méthode
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet.URI_PATTERN_TO_INCLUDE
: formats d'URL des sites Web que vous souhaitez inclure dans votre estimation de la taille des données.URI_PATTERN_TO_EXCLUDE
(facultatif) : format d'URL du sites Web que vous souhaitez exclure de votre estimation de la taille de vos données.Pour
URI_PATTERN_TO_INCLUDE
etURI_PATTERN_TO_EXCLUDE
, vous pouvez utiliser des modèles semblables à suivantes:- Site Web complet :
www.mysite.com
- Composantes d'un site Web :
www.mysite.com/faq
- Totalité du domaine:
mysite.com
ou*.mysite.com
- Site Web complet :
EXCLUSIVE_BOOLEAN
(facultatif) : si la valeur esttrue
, l'URI fourni. Le format représente les pages Web qui sont exclues de la taille de vos données l'estimation. La valeur par défaut estfalse
, ce qui signifie que le format d'URI fourni représente les pages Web incluses dans votre estimation de la taille des données.EXACT_MATCH_BOOLEAN
(facultatif) : si la valeur esttrue
, le format d'URI fourni représente une seule page Web, au lieu de la page Web et de tous ses enfants. La valeur par défaut estfalse
, ce qui signifie que l'URI fourni motif représente la page Web et tous ses enfants.
Le résultat ressemble à ce qui suit :
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Ce résultat inclut le champ
name
, qui est le nom de l'instance opération. Enregistrez la valeurname
à utiliser à l'étape suivante.Interrogez la méthode
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Remplacez
OPERATION_NAME
par la valeurname
que vous avez enregistrée à l'étape précédente. Vous pouvez également obtenir le nom de l'opération en répertoriant les opérations de longue durée.Évaluez chaque réponse.
Si une réponse ne contient pas
"done": true
, le processus d'estimation de la taille des données n'est pas terminé. Continuez à interroger.Le résultat ressemble à ce qui suit :
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Si une réponse contient
"done": true
, alors le processus d'estimation de la taille des données est complète. Enregistrez la valeurDATA_SIZE_BYTES
de la réponse à utiliser à l'étape suivante.Le résultat ressemble à ce qui suit :
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Ce résultat inclut les valeurs suivantes :
DATA_SIZE_BYTES
: taille estimée de vos données Web, en octets.DOCUMENT_COUNT
: estimation du nombre de pages Web sur votre site données.
Diviser la
DATA_SIZE_BYTES
de l'étape précédente de 1 000 000 000 pour obtenir des gigaoctets. Enregistrez cette valeur pour l'étape suivante.Pour estimer vos coûts mensuels de stockage de données:
Accédez au simulateur de coût Google Cloud.
Cliquez sur Ajouter à l'estimation.
Recherchez
Vertex AI Agent Builder
, puis cliquez sur la case Vertex AI Agent Builder.Dans le champ Index de données, saisissez la taille estimée de vos données Web, au format gigaoctets, récupérés à l'étape précédente.
Consultez la zone Coût estimé pour connaître le coût estimé du stockage de vos données.