Obtén una estimación de los costos de almacenamiento mensuales

La indexación de sitio web avanzada genera cargos mensuales por almacenamiento de datos según el tamaño de los datos web que importes a tu almacén de datos. Para obtener una estimación del tamaño de tus datos web antes de importarlos, puedes llamar al método estimateDataSize y especificar las páginas web que deseas importar. El método estimateDataSize es una operación de larga duración que se ejecuta hasta que se completa el proceso para estimar el tamaño de los datos. Esto puede tardar desde unos minutos hasta más de una hora, según la cantidad de páginas web que especifiques. Después de obtener una estimación del tamaño de tus datos web, puedes obtener una estimación de tus costos mensuales de almacenamiento de datos con la página de precios de AI Applications (consulta la sección Precios de Data Index) o la calculadora de precios de Google Cloud (busca AI Applications).

Antes de comenzar

Determina los patrones de URL de los sitios web que deseas incluir (y, de manera opcional, excluir) cuando importes datos web a tu almacén de datos. Especificas estos patrones de URL cuando llamas al método estimateDataSize.

Procedimiento

Para obtener una estimación del tamaño de tus datos web, sigue estos pasos:

  1. Llama al método estimateDataSize.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \
    -d '{
      "website_data_source": {
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_INCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN
        },
        "estimator_uri_patterns": {
          provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE",
          exact_match: EXACT_MATCH_BOOLEAN,
          exclusive: EXCLUSIVE_BOOLEAN
        }
      }
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto.

    • URI_PATTERN_TO_INCLUDE: Son los patrones de URL de los sitios web que deseas incluir en la estimación del tamaño de los datos.

    • URI_PATTERN_TO_EXCLUDE: (Opcional) Son los patrones de URL de los sitios web que deseas excluir de la estimación del tamaño de los datos.

      Para URI_PATTERN_TO_INCLUDE y URI_PATTERN_TO_EXCLUDE, puedes usar patrones similares a los siguientes:

      • Todo el sitio web: www.mysite.com
      • Partes de un sitio web: www.mysite.com/faq
      • Dominio completo: mysite.com o *.mysite.com
    • EXCLUSIVE_BOOLEAN: (Opcional) Si es true, el patrón de URI proporcionado representa las páginas web que se excluyen del cálculo del tamaño de tus datos. El valor predeterminado es false, lo que significa que el patrón de URI proporcionado representa las páginas web que se incluyen en la estimación del tamaño de tus datos.

    • EXACT_MATCH_BOOLEAN: (Opcional) Si es true, el patrón de URI proporcionado representa una sola página web, en lugar de la página web y todos sus elementos secundarios. El valor predeterminado es false, lo que significa que el patrón de URI proporcionado representa la página web y todos sus elementos secundarios.

    El resultado es similar a este:

    {
      "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
      "metadata": {
        "@type":  "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
      }
    }
    

    Este resultado incluye el campo name, que es el nombre de la operación de larga duración. Guarda el valor de name para usarlo en el siguiente paso.

  2. Sondea el método operations.get.

    curl -X GET \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
    

    Reemplaza OPERATION_NAME por el valor de name que guardaste en el paso anterior. También puedes obtener el nombre de la operación si enumeras las operaciones de larga duración.

  3. Evalúa cada respuesta.

    • Si una respuesta no contiene "done": true, el proceso para estimar el tamaño de los datos no se completó. Continúa con el sondeo.

      El resultado es similar a este:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata"
        }
      }
      
    • Si una respuesta contiene "done": true, se completó el proceso para estimar el tamaño de los datos. Guarda el valor de DATA_SIZE_BYTES de la respuesta para usarlo en el siguiente paso.

      El resultado es similar a este:

      {
        "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789",
        "metadata": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata",
          "createTime": "2023-12-08T19:54:06.911248Z"
        },
        "done": true,
        "response": {
          "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse",
          "dataSizeBytes": DATA_SIZE_BYTES,
          "documentCount": DOCUMENT_COUNT
        }
      }
      

      En esta salida, se incluyen los siguientes valores:

      • DATA_SIZE_BYTES: Es el tamaño estimado de tus datos web, en bytes.

      • DOCUMENT_COUNT: Es la cantidad estimada de páginas web en tus datos web.

  4. Divide el valor de DATA_SIZE_BYTES del paso anterior entre 1,000,000,000 para obtener gigabytes. Guarda este valor para el paso siguiente.

  5. Para obtener una estimación de los costos mensuales de almacenamiento de datos, sigue estos pasos:

    1. Ve a la calculadora de precios de Google Cloud.

    2. Haz clic en Agregar a la estimación.

    3. Busca AI Applications y, luego, haz clic en el cuadro AI Applications.

    4. En el cuadro Índice de datos, ingresa el tamaño estimado de tus datos web en gigabytes del paso anterior.

      Consulta el cuadro Costo estimado para ver el costo estimado del almacenamiento de datos.