Obtenir des extraits et du contenu extrait

Vertex AI Search peut fournir des extraits de recherche, des réponses extractives et des segments extractifs avec chaque réponse de recherche pour améliorer vos résultats.

  • Extraits: il s'agit d'un bref extrait de texte provenant de la document des résultats de recherche qui fournit un aperçu du contenu d'un résultat de recherche. Il comprend la mise en surbrillance des résultats que vous pouvez afficher dans votre UI. Les extraits sont généralement affiché sous chaque résultat de recherche afin d'aider les utilisateurs à évaluer la pertinence et l'utilité de ce résultat. Des extraits sont disponibles pour les données des magasins contenant des données non structurées et des données de site Web (à la fois la recherche de base et l'indexation avancée de site Web).

  • Réponses extractives: une réponse extractive est le texte mot à mot renvoyé avec chaque résultat de recherche. Il est extrait directement à partir du document original. Les réponses extractives sont généralement s'affiche en haut des pages Web pour fournir une réponse rapide à l'utilisateur final. en rapport avec leur requête d'un point de vue contextuel. Les réponses extractives sont disponibles pour les data stores contenant des données non structurées et une indexation avancée de sites Web.

  • Segments extractifs : un segment extractif est un texte littéral renvoyé avec chaque résultat de recherche. Une un segment extractif est généralement plus long qu'une réponse extractive. Les segments extractifs peuvent être affichés en réponse à une requête. Ils peuvent également être utilisés pour effectuer des tâches de post-traitement et comme entrée pour les grands modèles de langage afin de générer des réponses ou un nouveau texte. Des segments extractifs sont disponibles pour les data stores avec des données non structurées et l'indexation avancée de site Web.

Examples

Les exemples suivants illustrent les différences entre les extraits, les réponses extractives et les segments extractifs.

Requête : "Qu'est-ce que le compilateur d'agents Vertex AI ?"

  • Extrait :

    Dans cette optique, nous annonçons le lancement de notre nouveau Vertex AI Agent Builder, le moyen le plus rapide pour les développeurs de se lancer dans la création les applications de génération telles que les bots, etc.

  • Réponse extractive :

    Vertex AI Agent Builder permet aux développeurs de déployer rapidement expériences comprenant des bots, des interfaces de chat, des moteurs de recherche personnalisés, des assistants, et plus encore. Les développeurs ont accès à l'API et peuvent utiliser des modèles prêts à l'emploi pour créer rapidement quelques minutes ou quelques heures.

  • Segment extractif:

    Les entreprises et les administrations publiques veulent également que leurs clients, partenaires interactions plus efficaces et plus utiles grâce à cette nouvelle technologie d'IA. À nous annonçons le lancement de notre nouveau générateur d'agents Vertex AI.

    Vertex AI Agent Builder permet aux développeurs de déployer rapidement de nouvelles expériences, y compris des bots, des interfaces de chat, des moteurs de recherche personnalisés, des assistants numériques, etc. Les développeurs ont accès à l'API et peuvent utiliser des modèles prêts à l'emploi pour créer rapidement quelques minutes ou quelques heures. Avec Vertex AI Agent Builder, les développeurs et effectuera également les opérations suivantes:

    • Combinez des techniques de récupération d'informations et de données organisationnelles pour fournir des réponses pertinentes.
    • Recherchez et répondez avec plus que du texte.
    • Combinez des conversations naturelles à des flux structurés.
    • Ne vous contentez pas d'informer : effectuez des transactions.

Avant de commencer

Selon le type d'application que vous possédez, remplissez les conditions préalables suivantes :

Extraits

Les extraits sont de courts extraits mot pour mot de chaque résultat de recherche. document. Elles incluent la mise en surbrillance des hits dans des balises HTML en gras pour l'affichage des aperçus. de résultats de recherche dans une interface utilisateur. En règle générale, les extraits s'affichent sous forme de texte d'aperçu sous un résultat de recherche pour aider les utilisateurs finaux à décider s'il est utile de cliquer sur ce résultat de recherche.

Les extraits sont disponibles pour les recherches sur des sites Web et non structurées.

Obtenir des extraits

Pour obtenir des extraits:

  1. Envoyer une requête de recherche qui inclut ContentSearchSpec.SnippetSpec et définit returnSnippet sur "true".

    L'exemple suivant de SnippetSpec indique qu'un un extrait peut être renvoyé pour chaque résultat de recherche.

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet : si la valeur est true, renvoie un extrait.
  2. Obtenez des extraits de la réponse de recherche. Des extraits s'affichent pour chaque recherche. résultat : derivedStructData.snippets.

    Dans cet exemple de document renvoyé comme l'un des résultats d'une de recherche, un extrait de code avec une mise en surbrillance en gras est inclus dans résultat:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet : contient un extrait généré pour le résultat de recherche de documents. La mise en surbrillance du hit est incluse dans les balises HTML en gras.
    • snippet_status : si un extrait est généré, ce champ est renvoyé sous la forme SUCCESS. Si aucun extrait n'est généré, ce champ est renvoyé sous la forme NO_SNIPPET_AVAILABLE

Réponses extractives

Une réponse extractive est une section de texte extraite textuellement d'un document. Quand ? un document est renvoyé comme résultat de recherche dans une réponse de recherche, une une réponse extractive pertinente peut être renvoyée avec ce résultat.

Une réponse extractive peut être du texte tel qu'un paragraphe, un tableau ou une liste à puces qui est extrait du document de résultats de recherche. Les réponses extractives sont plus courts que les segments extraits.

Les réponses extractives peuvent être utilisées comme alternative aux réponses résumées dans les cas où il est préférable de fournir des réponses précises et textuelles plutôt que des résumés reformulés.

Les réponses extractives sont disponibles pour les data stores contenant des données non structurées et l'indexation avancée de site Web.

Obtenez des réponses extractives

Pour obtenir des réponses extractives:

  1. Envoyez une requête de recherche qui utilise ContentSearchSpec.extractiveContentSpec pour spécifier maxExtractiveAnswerCount.

    L'exemple suivant de extractiveContentSpec indique qu'une peut être renvoyée pour chaque résultat de recherche.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount: nombre de réponses extractives à renvoyer pour chaque résultat de recherche. La valeur par défaut est 0 et la valeur maximale est 5.
  2. Obtenez des réponses extractives à partir de la réponse de recherche. Les réponses extractives sont renvoyées avec chaque résultat de recherche dans extractive_answers.

    Dans cet exemple de document renvoyé comme l'un des résultats d'une réponse de recherche, une réponse extractive a été incluse avec le résultat :

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: si les numéros de page peuvent être extraits du document, ce indique d'où la réponse a été extraite.
    • content: contenu de la réponse extractive.

Segments extractifs

Un segment extractif est une section de texte extraite mot à mot d'une document de résultats de recherche. Les segments extractifs sont semblables aux réponses extractives, mais ils sont généralement plus complets et plus verbeux. En règle générale, les segments extractifs sont utilisés comme entrées pour que vos propres LLM générer des réponses ou un nouveau texte.

Les segments extractifs peuvent comporter plusieurs paragraphes, y compris du texte formaté tel que sous forme de tableaux et de listes à puces.

Les segments extractifs sont disponibles pour les data stores contenant des données non structurées et avec une indexation avancée des sites Web.

Options de segment d'extraction

Les options suivantes sont disponibles pour les segments extractifs:

  • Nombre de segments: vous pouvez spécifier jusqu'à 10 segments extractifs à pour chaque résultat de recherche.

  • Scores de pertinence: les scores de pertinence sont basés sur la similarité au segment extrait. Vous pouvez spécifier que les segments extractifs avec des scores de pertinence. Les scores vont de -1,0 (moins pertinent) à 1,0 (plus pertinent). L'activation des scores de pertinence peut augmenter la latence.

  • Segments adjacents (version Preview) : vous pouvez définir numPreviousSegments et numNextSegments pour obtenir jusqu'à trois segments immédiatement avant et après le segment concerné. Les segments adjacents peuvent ajouter du contexte et de la précision au segment pertinent.

    L'activation des segments adjacents peut augmenter la latence.

Obtenir des segments extractifs

Les étapes suivantes montrent comment obtenir des segments d'extraction pour des données non structurées. Vous pouvez suivre une procédure similaire pour obtenir des segments d'extraction pour les données de site Web.

  1. Envoyez une requête de recherche qui utilise ContentSearchSpec.extractiveContentSpec pour spécifier maxExtractiveSegmentCount.

    L'exemple suivant de extractiveContentSpec spécifie qu'un peut être renvoyé pour chaque résultat de recherche.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount : nombre de segments d'extraction à renvoyer pour chaque résultat de recherche. La valeur par défaut est 0 et la valeur maximale est 10.

    Options supplémentaires :

    • returnExtractiveSegmentScore: définie sur true pour renvoyer un score de pertinence avec chaque segment renvoyé.
    • numPreviousSegments: nombre de segments adjacents doit s'afficher avant le segment concerné. La valeur par défaut est 0 et la valeur maximale est 3. L'utilisation de segments adjacents peut augmenter la latence.
    • numNextSegments: nombre de segments adjacents revenir après le segment approprié. La valeur par défaut est 0 et est de 3. L'utilisation de segments adjacents peut augmenter la latence.

    Pour en savoir plus sur ces options, consultez la section Options de segment extraction.

  2. Obtenez des segments à partir de la réponse de recherche. Les segments sont renvoyés à chaque recherche. résultat : extractive_segments.

    Dans cet exemple de document renvoyé comme l'un des résultats d'une réponse de recherche, un segment a été inclus avec le résultat :

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber : si des numéros de page peuvent être extraits du document, ce champ indique d'où la réponse a été extraite.
    • content : contenu du segment d'extraction.

Étape suivante