Receber snippets e conteúdo extraído

A Vertex AI para Pesquisa pode fornecer snippets de pesquisa, respostas extrativas e segmentos extrativos com cada resposta de pesquisa para melhorar seus resultados.

  • Snippets: um snippet é um breve trecho de texto do documento de resultado da pesquisa que fornece uma prévia do conteúdo de um resultado da pesquisa. Ele inclui destaques de acerto que podem ser renderizados na UI. Os snippets geralmente são exibidos abaixo de cada resultado da pesquisa para ajudar os usuários finais a avaliar a relevância e a utilidade desse resultado. Os snippets estão disponíveis para repositórios de dados com dados não estruturados e dados de sites (pesquisa básica e indexação avançada de sites).

  • Respostas extrativas: uma resposta extrativa é um texto literal retornado com cada resultado da pesquisa. Ele é extraído diretamente do documento original. As respostas extrativas geralmente são mostradas na parte de cima das páginas da Web para fornecer ao usuário final uma resposta breve que seja contextualmente relevante para a consulta. As respostas extrativas estão disponíveis para repositórios de dados com dados não estruturados e indexação avançada de sites.

  • Segmentos extrativos: um segmento extrativo é um texto literal que é retornado com cada resultado da pesquisa. Um segmento extrativo geralmente é mais detalhado do que uma resposta extrativa. Os segmentos extrativos podem ser mostrados como uma resposta a uma consulta e usados para realizar tarefas de pós-processamento e como entrada para modelos de linguagem grandes para gerar respostas ou novos textos. Os segmentos extrativos estão disponíveis para repositórios de dados com dados não estruturados e indexação avançada de sites.

Exemplos

Os exemplos a seguir ajudam a ilustrar as diferenças entre snippets, respostas extrativas e segmentos extrativos.

Consulta: "O que é o Vertex AI Agent Builder?"

  • Snippet:

    Para isso, anunciamos o novo Vertex AI Agent Builder, a maneira mais rápida de os desenvolvedores iniciarem a criação de apps gen, como bots, ...

  • Resposta extrativa:

    Com o Vertex AI Agent Builder, os desenvolvedores podem lançar rapidamente novas experiências, incluindo bots, interfaces de chat, mecanismos de pesquisa personalizados, assistentes digitais e muito mais. Os desenvolvedores têm acesso de API aos modelos de fundação do Google e podem usar modelos prontos para iniciar a criação de apps genéricos em minutos ou horas.

  • Segmento extrativo:

    Empresas e governos também querem tornar as interações com clientes, parceiros e funcionários mais eficazes e úteis com essa nova tecnologia de IA. Para permitir isso, anunciamos o novo Vertex AI Agent Builder.

    Com o Vertex AI Agent Builder, os desenvolvedores podem lançar rapidamente novas experiências, incluindo bots, interfaces de chat, mecanismos de pesquisa personalizados, assistentes digitais e muito mais. Os desenvolvedores têm acesso de API aos modelos de fundação do Google e podem usar modelos prontos para iniciar a criação de apps genéricos em minutos ou horas. Com o Vertex AI Agent Builder, os desenvolvedores também vão:

    • Combine dados organizacionais e técnicas de recuperação de informações para fornecer respostas relevantes.
    • Pesquise e responda com mais do que texto.
    • Combine conversas naturais com fluxos estruturados.
    • Não basta informar, faça transações.

Antes de começar

Dependendo do tipo de app, conclua os seguintes pré-requisitos:

Snippets

Os snippets são pequenos trechos extraídos literalmente de cada documento de resultado da pesquisa. Eles incluem destaque de acerto em tags HTML em negrito para renderizar prévias de resultados da pesquisa em uma UI. Normalmente, os snippets são renderizados como texto de visualização abaixo de um resultado da pesquisa para ajudar os usuários finais a decidir se clicar nesse resultado será útil.

Os trechos estão disponíveis para pesquisa não estruturada e de sites.

Usar snippets

Para receber snippets:

  1. Envie uma solicitação de pesquisa que inclua ContentSearchSpec.SnippetSpec e defina returnSnippet como verdadeiro.

    O exemplo a seguir de SnippetSpec especifica que um snippet pode ser retornado para cada resultado da pesquisa.

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet: se definido como true, retorna um snippet.
  2. Receber snippets da resposta da pesquisa. Os snippets são retornados com cada resultado da pesquisa em derivedStructData.snippets.

    Neste exemplo de um documento que foi retornado como um dos resultados em uma resposta de pesquisa, um snippet com destaque em negrito é incluído no resultado:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet: contém um snippet gerado para o resultado da pesquisa de documentos. O destaque de hit é incluído em tags HTML em negrito.
    • snippet_status: se um snippet for gerado, esse campo será retornado como SUCCESS. Se nenhum snippet for gerado, esse campo será retornado como NO_SNIPPET_AVAILABLE.

Respostas extrativas

Uma resposta extrativa é uma seção de texto extraída literalmente de um documento. Quando um documento é retornado como um resultado de pesquisa em uma resposta de pesquisa, uma resposta extrativa relevante pode ser retornada com esse resultado.

Uma resposta extrativa pode ser um texto, como um parágrafo, uma tabela ou uma lista com marcadores, extraídos do documento de resultados da pesquisa. As respostas extrativas são mais curtas do que os segmentos extrativos.

As respostas extrativas podem ser usadas como uma alternativa às respostas resumidas em casos em que respostas precisas e literais são preferíveis a resumos reformulados.

As respostas extrativas estão disponíveis para repositórios de dados com dados não estruturados e com indexação avançada de sites.

Receber respostas extrativas

Para receber respostas extrativas:

  1. Envie uma solicitação de pesquisa que use ContentSearchSpec.extractiveContentSpec para especificar maxExtractiveAnswerCount.

    O exemplo a seguir de extractiveContentSpec especifica que uma resposta pode ser retornada para cada resultado da pesquisa.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount: o número de respostas extraídas a serem retornadas para cada resultado da pesquisa. O valor padrão é 0, e o máximo é 5.
  2. Receber respostas extraídas da resposta da pesquisa. As respostas extrativas são retornadas com cada resultado de pesquisa em extractive_answers.

    Neste exemplo de um documento que foi retornado como um dos resultados em uma resposta de pesquisa, uma resposta extrativa foi incluída com o resultado:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: se os números de página puderem ser extraídos do documento, esse campo indica de onde a resposta foi extraída.
    • content: o conteúdo da resposta extrativa.

Segmentos extrativos

Um segmento de extração é uma seção de texto extraída literalmente de um documento de resultado de pesquisa. Os segmentos extrativos são semelhantes às respostas extrativas, mas geralmente são mais completos e detalhados. Normalmente, os segmentos extrativos são usados como entrada para seus próprios LLMs para gerar respostas ou novos textos.

Os segmentos extrativos podem ser vários parágrafos, incluindo texto formatado, como tabelas e listas com marcadores.

Os segmentos extrativos estão disponíveis para repositórios de dados com dados não estruturados e com indexação avançada de sites.

Opções de segmento extrativo

As seguintes opções estão disponíveis para segmentos extrativos:

  • Número de segmentos: é possível especificar até 10 segmentos de extração para retornar em cada resultado da pesquisa.

  • Pontuações de relevância: as pontuações de relevância são baseadas na semelhança da consulta com o segmento extraído. É possível especificar que os segmentos extraídos sejam retornados com pontuações de relevância. As pontuações variam de -1,0 (menos relevante) a 1,0 (mais relevante). Ativar os escores de relevância pode aumentar a latência.

  • Segmentos adjacentes: é possível definir numPreviousSegments e numNextSegments para receber até três segmentos imediatamente antes e depois do segmento relevante. Os segmentos adjacentes podem adicionar contexto e precisão ao segmento relevante.

    Ativar segmentos adjacentes pode aumentar a latência.

Extrair segmentos

As etapas a seguir mostram como extrair segmentos de dados não estruturados. Siga etapas semelhantes para extrair segmentos de dados do site.

  1. Envie uma solicitação de pesquisa que use ContentSearchSpec.extractiveContentSpec para especificar maxExtractiveSegmentCount.

    O exemplo a seguir de extractiveContentSpec especifica que um segmento pode ser retornado para cada resultado da pesquisa.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount: o número de segmentos extrativos a serem retornados para cada resultado da pesquisa. O valor padrão é 0, e o máximo é 10.

    Outras opções:

    • returnExtractiveSegmentScore: definido como true para retornar uma pontuação de relevância com cada segmento retornado.
    • numPreviousSegments: o número de segmentos adjacentes a serem retornados antes do segmento relevante. O valor padrão é 0, e o máximo é 3. O uso de segmentos adjacentes pode aumentar a latência.
    • numNextSegments: o número de segmentos adjacentes a serem retornados após o segmento relevante. O valor padrão é 0, e o máximo é 3. O uso de segmentos adjacentes pode aumentar a latência.

    Para mais informações sobre essas opções, consulte Opções de segmento extrativo.

  2. Receber segmentos da resposta da pesquisa. Os segmentos são retornados com cada resultado da pesquisa em extractive_segments.

    Neste exemplo de um documento que foi retornado como um dos resultados em uma resposta de pesquisa, um segmento foi incluído com o resultado:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: se os números de página puderem ser extraídos do documento, esse campo indica de onde a resposta foi extraída.
    • content: o conteúdo do segmento de extração.

A seguir