La indexación avanzada de sitios web genera cargos mensuales de almacenamiento de datos según el tamaño de los datos web que importas a tu almacén de datos. Para obtener una estimación del tamaño de tus datos web antes de importarlos, puedes llamar al método estimateDataSize
y especificar las páginas web que deseas importar. El método estimateDataSize
es una operación de larga duración que se ejecuta hasta que se completa el proceso de estimación del tamaño de los datos. Esto puede tardar desde unos minutos hasta más de una hora, según la cantidad de páginas web que especifiques. Una vez que tengas una
estimación del tamaño de tus datos web, puedes obtener una estimación de tus costos mensuales
de almacenamiento de datos en la página de precios de Vertex AI Agent Builder (consulta la sección Precios del índice de datos) o en la calculadora de precios de Google Cloud (busca Vertex AI Agent Builder).
Antes de comenzar
Determina los patrones de URL de los sitios web que deseas incluir (y, de manera opcional, excluir) cuando importes datos web a tu almacén de datos. Tú
especifica estos patrones de URL cuando llames al método estimateDataSize
.
Procedimiento
Para obtener una estimación del tamaño de tus datos web, sigue estos pasos:
Llama al método
estimateDataSize
.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID del proyectoURI_PATTERN_TO_INCLUDE
: Los patrones de URL de los sitios web que que deseas incluir en la estimación del tamaño de los datos.URI_PATTERN_TO_EXCLUDE
: (Opcional) Son los patrones de URL de los sitios web que deseas excluir de tu estimación de tamaño de datos.Para
URI_PATTERN_TO_INCLUDE
yURI_PATTERN_TO_EXCLUDE
, puedes usar patrones similares a los siguientes:- Todo el sitio web:
www.mysite.com
- Partes de un sitio web:
www.mysite.com/faq
- Dominio completo:
mysite.com
o*.mysite.com
- Todo el sitio web:
EXCLUSIVE_BOOLEAN
: (Opcional) Si estrue
, el patrón de URI proporcionado representa las páginas web que se excluyen de la estimación del tamaño de los datos. El valor predeterminado esfalse
, lo que significa que el URI proporcionado patrón representa las páginas web que se incluyen en la estimación del tamaño de los datos.EXACT_MATCH_BOOLEAN
: Si estrue
, el valor proporcionado (opcional) El patrón de URI representa una sola página web, en lugar de la página web, y todas de sus hijos. El valor predeterminado esfalse
, lo que significa que el patrón de URI proporcionado representa la página web y todos sus elementos secundarios.
El resultado es similar a este:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Este resultado incluye el campo
name
, que es el nombre de la operación de larga duración. Guarda el valorname
para usarlo en el siguiente paso.Consulta el método
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
Reemplaza
OPERATION_NAME
por el valor dename
que guardaste en el paso anterior. También puedes obtener el nombre de la operación si enumeras las operaciones de larga duración.Evalúa cada respuesta.
Si una respuesta no contiene
"done": true
, el proceso de el tamaño de los datos no está completo. Continúa con el sondeo.El resultado es similar a este:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
Si una respuesta contiene
"done": true
, significa que se completó el proceso para estimar el tamaño de los datos. Guarda el valorDATA_SIZE_BYTES
de respuesta para usar en el siguiente paso.El resultado es similar a este:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
En esta salida, se incluyen los siguientes valores:
DATA_SIZE_BYTES
: El tamaño estimado de tus datos web, en bytes.DOCUMENT_COUNT
: Es la cantidad estimada de páginas web en tus datos web.
Divide el
DATA_SIZE_BYTES
del paso anterior por 1,000,000,000 para obtener gigabytes. Guarda esto de salida para el paso siguiente.Para obtener una estimación de tus costos mensuales de almacenamiento de datos, sigue estos pasos:
Haz clic en Agregar a la estimación.
Busca
Vertex AI Agent Builder
y haz clic en Vertex AI Agent Builder.En el cuadro Índice de datos, ingresa el tamaño estimado de tus datos web. gigabytes del paso anterior.
Consulta el cuadro Costo estimado para ver el costo estimado de almacenamiento de datos.