Filtrar búsquedas por relevancia a nivel de documento

Cuando buscas en tu aplicación Vertex AI Search, puedes aplicar un umbral de relevancia para que solo se devuelvan como resultados los documentos que cumplan este umbral. En esta página se explica cómo especificar un umbral de relevancia para reducir el número de documentos devueltos en las consultas.

Acerca del filtrado por relevancia a nivel de documento

A cada documento devuelto por una consulta de búsqueda se le asigna un nivel de relevancia, que indica la relevancia del documento devuelto en relación con la consulta. Cuando haces una consulta a través de una llamada a la API, puedes definir un umbral de relevancia. Si se define un umbral de relevancia alto, se puede reducir el número de documentos que devuelve una consulta.

Por ejemplo, si detecta que la búsqueda devuelve demasiados documentos que no son lo suficientemente relevantes para sus usuarios, defina el umbral de relevancia en alto para acotar los resultados a los que sean más relevantes. Si el ajuste alto es demasiado restrictivo, prueba con el medio.

Tipos de datos y aplicaciones admitidos para el filtro de relevancia a nivel de documento

El filtro de relevancia a nivel de documento se puede aplicar a almacenes de datos con los siguientes tipos de datos:

  • Datos de sitios web con indexación avanzada de sitios web
  • Datos sin estructurar personalizados
  • Datos estructurados personalizados

El filtro de relevancia a nivel de documento no funciona con almacenes de datos que tengan indexación básica de sitios web, datos multimedia o datos sanitarios.

Además, el filtro de relevancia a nivel de documento no se puede usar con aplicaciones de búsqueda combinada. Las aplicaciones de búsqueda combinada son aplicaciones conectadas a varios almacenes de datos.

Otros tipos de filtros

El filtro de relevancia a nivel de documento no es la única forma de filtrar los datos devueltos por las consultas. También puedes usar expresiones de filtro para filtrar los resultados en función de los metadatos (en la indexación avanzada de sitios web y en los almacenes de datos no estructurados con metadatos) y de los valores de los campos (en los almacenes de datos estructurados).

Para obtener más información, consulta:

Si usas tanto una expresión de filtro como el filtro de relevancia a nivel de documento, la expresión de filtro se aplica primero a los resultados y, después, se aplica el filtro de relevancia a nivel de documento.

Antes de empezar

Asegúrate de haber creado una aplicación y un almacén de datos, y de haber insertado datos en el almacén. Para obtener más información, consulta Crear una aplicación de búsqueda. Consulta también Tipos de datos y aplicaciones admitidos para el filtro de relevancia a nivel de documento.

Para filtrar por relevancia, sigue estos pasos:

  1. Busca el ID de tu aplicación. Si ya tienes el ID de tu aplicación, ve al siguiente paso.

    1. En la Google Cloud consola, ve a la página Aplicaciones de IA.

      Ir a Aplicaciones

    2. En la página Aplicaciones, busca el nombre de tu aplicación y consulta su ID en la columna ID.

  2. Para filtrar la búsqueda por relevancia a nivel de documento, usa el relevanceThreshold campo con el método engines.servingConfigs.search.

    curl -X POST -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search:search" \
    -d '{
     "servingConfig": "projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search",
    "query": "QUERY",
    "relevanceThreshold": "RELEVANCE_THRESHOLD"
    }'
    

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto de Google Cloud .
    • APP_ID: el ID de la aplicación de Vertex AI Search que quieres consultar.
    • QUERY: el texto de la consulta que se va a buscar.
    • RELEVANCE_THRESHOLD: uno de los siguientes: HIGH, MEDIUM, LOW, LOWEST.
  3. Prueba varias consultas con umbrales diferentes para determinar la mejor configuración de umbral para tus datos y tu aplicación.