La indexación avanzada de sitios web conlleva cargos mensuales por almacenamiento de datos en función del tamaño de los datos web que importe a su almacén de datos. Para obtener una estimación del tamaño de sus datos web antes de importarlos, puede llamar al método estimateDataSize
y especificar las páginas web que quiera importar. El método estimateDataSize
es una operación de larga duración que se ejecuta hasta que se completa el proceso de estimación del tamaño de los datos. Este proceso puede tardar desde unos minutos hasta más de una hora, dependiendo del número de páginas web que especifiques. Una vez que tengas una estimación del tamaño de tus datos web, puedes obtener una estimación de los costes mensuales de almacenamiento de datos en la página de precios de Aplicaciones de IA (consulta la sección Precios de índice de datos) o en la calculadora de precios de Google Cloud (busca Aplicaciones de IA).
Antes de empezar
Determine los patrones de URL de los sitios web que quiera incluir (y, opcionalmente, excluir) al importar datos web en su almacén de datos. Estos patrones de URL se especifican al llamar al método estimateDataSize
.
Procedimiento
Para obtener una estimación del tamaño de sus datos web, siga estos pasos:
Llama al método
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto.URI_PATTERN_TO_INCLUDE
: los patrones de URL de los sitios web que quiere incluir en la estimación del tamaño de sus datos.URI_PATTERN_TO_EXCLUDE
: (Opcional) Patrones de URL de los sitios web que quiere excluir de la estimación del tamaño de los datos.Para
URI_PATTERN_TO_INCLUDE
yURI_PATTERN_TO_EXCLUDE
, puedes usar patrones similares a los siguientes:- Todo el sitio web:
www.mysite.com
- Partes de un sitio web:
www.mysite.com/faq
- Todo el dominio:
mysite.com
o*.mysite.com
- Todo el sitio web:
EXCLUSIVE_BOOLEAN
: (opcional) Si estrue
, el patrón de URI proporcionado representa las páginas web que se excluyen de la estimación del tamaño de los datos. El valor predeterminado esfalse
, lo que significa que el patrón de URI proporcionado representa las páginas web que se incluyen en la estimación del tamaño de los datos.EXACT_MATCH_BOOLEAN
: (opcional) Si estrue
, el patrón de URI proporcionado representa una sola página web, en lugar de la página web y todos sus elementos secundarios. El valor predeterminado esfalse
, lo que significa que el patrón de URI proporcionado representa la página web y todos sus elementos secundarios.
El resultado debería ser similar al siguiente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Este resultado incluye el campo
name
, que es el nombre de la operación de larga duración. Guarda el valorname
para usarlo en el siguiente paso.Sondea el método
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Sustituye
OPERATION_NAME
por el valorname
que has guardado en el paso anterior. También puedes obtener el nombre de la operación consultando las operaciones de larga duración.Evalúa cada respuesta.
Si una respuesta no contiene
"done": true
, el proceso para estimar el tamaño de los datos no se habrá completado. Seguir comprobando.El resultado debería ser similar al siguiente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Si una respuesta contiene
"done": true
, el proceso para estimar el tamaño de los datos se habrá completado. Guarda el valorDATA_SIZE_BYTES
de la respuesta para usarlo en el siguiente paso.El resultado debería ser similar al siguiente:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
Esta salida incluye los siguientes valores:
DATA_SIZE_BYTES
: tamaño estimado de sus datos web, en bytes.DOCUMENT_COUNT
: el número estimado de páginas web de sus datos web.
Divide el valor de
DATA_SIZE_BYTES
del paso anterior entre 1.000.000.000 para obtener los gigabytes. Guarda este valor para el paso siguiente.Para obtener una estimación de los costes mensuales de almacenamiento de datos, sigue estos pasos:
Haz clic en Añadir a la estimación.
Busca
AI Applications
y haz clic en el cuadro Aplicaciones de IA.En el cuadro Índice de datos, introduzca el tamaño estimado de sus datos web, en gigabytes, del paso anterior.
Consulta el cuadro Coste estimado para ver el coste estimado del almacenamiento de datos.