Obtener una estimación de los costes de almacenamiento mensuales

La indexación avanzada de sitios web conlleva cargos mensuales por almacenamiento de datos en función del tamaño de los datos web que importe a su almacén de datos. Para obtener una estimación del tamaño de sus datos web antes de importarlos, puede llamar al método estimateDataSize y especificar las páginas web que quiera importar. El método estimateDataSize es una operación de larga duración que se ejecuta hasta que se completa el proceso de estimación del tamaño de los datos. Este proceso puede tardar desde unos minutos hasta más de una hora, dependiendo del número de páginas web que especifiques. Una vez que tengas una estimación del tamaño de tus datos web, puedes obtener una estimación de los costes mensuales de almacenamiento de datos en la página de precios de Aplicaciones de IA (consulta la sección Precios de índice de datos) o en la calculadora de precios de Google Cloud (busca Aplicaciones de IA).

Antes de empezar

Determine los patrones de URL de los sitios web que quiera incluir (y, opcionalmente, excluir) al importar datos web en su almacén de datos. Estos patrones de URL se especifican al llamar al método estimateDataSize.

Procedimiento

Para obtener una estimación del tamaño de sus datos web, siga estos pasos:

  1. Llama al método estimateDataSize.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \
    -d '{
      "website_data_source": {
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_INCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN
        },
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN,
          exclusive: EXCLUSIVE_BOOLEAN
        }
      }
    }'
    

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto.

    • URI_PATTERN_TO_INCLUDE: los patrones de URL de los sitios web que quiere incluir en la estimación del tamaño de sus datos.

    • URI_PATTERN_TO_EXCLUDE: (Opcional) Patrones de URL de los sitios web que quiere excluir de la estimación del tamaño de los datos.

      Para URI_PATTERN_TO_INCLUDE y URI_PATTERN_TO_EXCLUDE, puedes usar patrones similares a los siguientes:

      • Todo el sitio web: www.mysite.com
      • Partes de un sitio web: www.mysite.com/faq
      • Todo el dominio: mysite.com o *.mysite.com
    • EXCLUSIVE_BOOLEAN: (opcional) Si es true, el patrón de URI proporcionado representa las páginas web que se excluyen de la estimación del tamaño de los datos. El valor predeterminado es false, lo que significa que el patrón de URI proporcionado representa las páginas web que se incluyen en la estimación del tamaño de los datos.

    • EXACT_MATCH_BOOLEAN: (opcional) Si es true, el patrón de URI proporcionado representa una sola página web, en lugar de la página web y todos sus elementos secundarios. El valor predeterminado es false, lo que significa que el patrón de URI proporcionado representa la página web y todos sus elementos secundarios.

    El resultado debería ser similar al siguiente:

    {
      "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
      "metadata": {
        "@type":  "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
      }
    }
    

    Este resultado incluye el campo name, que es el nombre de la operación de larga duración. Guarda el valor name para usarlo en el siguiente paso.

  2. Sondea el método operations.get.

    curl -X GET \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
    

    Sustituye OPERATION_NAME por el valor name que has guardado en el paso anterior. También puedes obtener el nombre de la operación consultando las operaciones de larga duración.

  3. Evalúa cada respuesta.

    • Si una respuesta no contiene "done": true, el proceso para estimar el tamaño de los datos no se habrá completado. Seguir comprobando.

      El resultado debería ser similar al siguiente:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
        }
      }
      
    • Si una respuesta contiene "done": true, el proceso para estimar el tamaño de los datos se habrá completado. Guarda el valor DATA_SIZE_BYTES de la respuesta para usarlo en el siguiente paso.

      El resultado debería ser similar al siguiente:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata",
          "createTime": "2023-12-08T19:54:06.911248Z"
        },
        "done": true,
        "response": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse",
          "dataSizeBytes": DATA_SIZE_BYTES,
          "documentCount": DOCUMENT_COUNT
        }
      }
      

      Esta salida incluye los siguientes valores:

      • DATA_SIZE_BYTES: tamaño estimado de sus datos web, en bytes.

      • DOCUMENT_COUNT: el número estimado de páginas web de sus datos web.

  4. Divide el valor de DATA_SIZE_BYTES del paso anterior entre 1.000.000.000 para obtener los gigabytes. Guarda este valor para el paso siguiente.

  5. Para obtener una estimación de los costes mensuales de almacenamiento de datos, sigue estos pasos:

    1. Ve a la calculadora de precios de Google Cloud.

    2. Haz clic en Añadir a la estimación.

    3. Busca AI Applications y haz clic en el cuadro Aplicaciones de IA.

    4. En el cuadro Índice de datos, introduzca el tamaño estimado de sus datos web, en gigabytes, del paso anterior.

      Consulta el cuadro Coste estimado para ver el coste estimado del almacenamiento de datos.