Gerar respostas com base em RAG

Como parte da sua experiência de geração aumentada de recuperação (RAG, na sigla em inglês) no Vertex AI Agent Builder, você pode gerar respostas com base em:

  • Pesquisa Google: use o Embasamento com a Pesquisa Google se você quiser conectar o modelo ao conhecimento mundial, a uma ampla variedade de tópicos ou a informações atualizadas na Internet. A integração com a Pesquisa Google oferece suporte à recuperação dinâmica, que permite gerar Resultados embasados com a Pesquisa Google apenas quando necessário. Portanto, a configuração de recuperação dinâmica avalia se um comando exige conhecimento sobre eventos recentes e ativa a integração com a Pesquisa Google. Para mais informações, consulte Recuperação dinâmica.
  • Texto inline: use a fundamentação com texto inline para fundamentar a resposta em partes de texto chamadas texto de fato que são fornecidas na solicitação. Um texto de fato é uma declaração fornecida pelo usuário que é considerada factual para uma determinada solicitação. O modelo não verifica a autenticidade do texto do fato.
  • Repositórios de dados da Vertex AI para Pesquisa: use o embasamento com a Vertex AI para Pesquisa se você quiser conectar o modelo aos seus documentos corporativos dos repositórios de dados da Vertex AI para Pesquisa.

Esta página descreve como gerar respostas com base nessas fontes de embasamento usando as seguintes abordagens:

Além disso, você pode transmitir as respostas do modelo. A geração de uma resposta com base em streaming é um recurso experimental.

Você pode usar outros métodos para gerar respostas fundamentadas, de acordo com sua aplicação. Para mais informações, consulte APIs da Vertex AI para criar experiências de pesquisa e RAG.

Terminologia

Antes de usar o método de geração de respostas fundamentadas, é útil entender as entradas e saídas, como estruturar sua solicitação e a terminologia relacionada à RAG.

Termos da RAG

A RAG é uma metodologia que permite que os modelos de linguagem grandes (LLMs) gerem respostas com base na sua fonte de dados. Há duas etapas no RAG:

  1. Remoção: encontrar rapidamente os fatos mais relevantes pode ser um problema comum de pesquisa. Com a RAG, você pode recuperar rapidamente os fatos que são importantes para gerar uma resposta.
  2. Geração:o LLM usa os fatos recuperados para gerar uma resposta fundamentada.

Portanto, o método de geração de respostas fundamentadas recupera os fatos da fonte de fundamentação e gera uma resposta fundamentada.

Dados de entrada

O método de geração de respostas com base em dados exige as seguintes entradas na solicitação:

  • Papel: o remetente de um determinado texto que é um usuário (user) ou um modelo (model).

  • Texto: quando o papel é user, o texto é um comando. Quando o papel é model, o texto é uma resposta com embasamento. A forma de especificar o papel e o texto em uma solicitação é determinada da seguinte maneira:

    • Para a geração de respostas de uma única vez, o usuário envia o texto de comando na solicitação e o modelo envia o texto de resposta na resposta.
    • Para uma geração de respostas com vários turnos, a solicitação contém o par de comando e resposta para todos os turnos anteriores e o texto do comando do usuário para o turno atual. Portanto, em uma solicitação, o papel é user para um texto de comando e model para o texto de resposta.
  • Instrução do sistema: um preâmbulo do comando que rege o comportamento do modelo e modifica a saída de acordo com ele. Por exemplo, é possível adicionar um perfil à resposta gerada ou instruir o modelo a formatar o texto de saída de determinada maneira. Para a geração de respostas com várias rodadas, você precisa fornecer as instruções do sistema para cada rodada. Para mais informações, consulte Usar instruções do sistema.

  • Origem de embasamento: a origem em que a resposta é baseada e pode ser uma ou mais das seguintes opções:

    • Pesquisa Google: baseie as respostas com os resultados da Pesquisa Google. Quando a origem de embasamento é a Pesquisa Google, é possível especificar uma configuração de recuperação dinâmica com um limite de recuperação dinâmica. Para mais informações, consulte Recuperação dinâmica.

    • Texto inline: baseie a resposta no texto de fato fornecido na solicitação. Um texto de fato é uma declaração fornecida pelo usuário que é considerada factual para uma determinada solicitação. O modelo não verifica a autenticidade do texto do fato. É possível fornecer no máximo 100 textos de fato em cada fonte de texto inline. Os textos de fato podem ser aceitos usando metaatributos, como título, autor e URI. Esses metaatributos são retornados na resposta ao citar os blocos que oferecem suporte à resposta.

    • Repositórios de dados da Vertex AI para Pesquisa: baseie a resposta nos documentos dos repositórios de dados da Vertex AI para Pesquisa. Não é possível especificar um repositório de dados de pesquisa de site como a fonte de base.

    Em uma determinada solicitação, é possível fornecer uma fonte de texto inline e uma da Vertex AI para Pesquisa. Não é possível combinar a Pesquisa Google com nenhuma dessas origens. Portanto, se você quiser basear suas respostas com os resultados da Pesquisa Google, envie uma solicitação separada especificando a Pesquisa Google como a única fonte de embasamento.

    Você pode fornecer até 10 fontes de aterramento em qualquer ordem. Por exemplo, suponha que você forneça às fontes de aterramento a contagem abaixo, na ordem a seguir, para ter um total de 10 fontes de aterramento:

    • Três fontes de texto inline, cada uma com no máximo 100 textos de fato
    • Seis repositórios de dados da Vertex AI para Pesquisa
    • Uma fonte de texto inline, contendo no máximo 100 textos de fatos

    Cada origem recebe um índice na ordem em que é especificada na solicitação. Por exemplo, se você especificou uma combinação de origens na solicitação, o índice da origem será atribuído conforme ilustrado na tabela abaixo:

    Fonte de embasamento Índice
    Texto inline 1 0
    Texto inline 2 1
    Repositório de dados da Pesquisa da Vertex AI 1 2
    Texto inline 3 3
    Repositório de dados da Pesquisa da Vertex AI 2 4

    Esse índice é citado na resposta e é útil para rastrear a proveniência.

  • Especificações de geração: as especificações para a configuração do modelo que consiste nas seguintes informações:

    • ID do modelo: especifica o modelo Gemini da Vertex AI a ser usado para a geração de respostas. Para conferir uma lista de modelos que podem ser usados para gerar respostas fundamentadas, consulte Modelos aceitos.

    • Parâmetros do modelo: especifique os parâmetros que podem ser definidos para o modelo escolhido. Esses parâmetros são: idioma, temperatura, Top-P e Top-K. Para detalhes sobre esses parâmetros, consulte Parâmetros de modelo Gemini.

  • Código de idioma: o idioma da resposta gerada geralmente é definido para corresponder ao idioma do comando. Se não houver um único idioma no comando (por exemplo, se o comando for muito curto e puder ser válido em vários idiomas), o campo de código de idioma vai determinar o idioma da resposta.

    Para conferir uma lista de códigos de idioma, consulte Idiomas.

  • Latitude e longitude: especifica a latitude e a longitude do usuário. Se a consulta tiver perguntas específicas de localização, como "Encontre um café perto de mim", esses campos serão usados. Se não for possível determinar o idioma da consulta e o código do idioma não estiver definido, a latitude e a longitude serão usadas para determinar o idioma da resposta.

Dados de saída

A resposta gerada pelo modelo é chamada de candidato e contém os seguintes dados. Nem todos os campos podem estar presentes na saída.

  • Função: o remetente da resposta fundamentada. A resposta sempre contém o texto da resposta fundamentada. Portanto, o papel em uma resposta é sempre um modelo.

  • Texto: uma resposta fundamentada.

  • Pontuação de fundamentação: um valor flutuante no intervalo [0, 1] que indica o quanto uma resposta é fundamentada nas fontes indicadas.

  • Metadados de aterramento: metadados sobre a origem de aterramento. Os metadados de aterramento contêm as seguintes informações:

    • Fragmentos de suporte: uma lista de fragmentos que oferecem suporte à resposta. Cada fragmento de suporte recebe um índice de fragmento de suporte que é útil ao rastrear a procedência. Cada bloco de suporte contém o seguinte:

      • Texto do bloco: parte do texto citado literalmente da fonte de onde a resposta ou parte dela (chamada de texto da reivindicação) é extraída. Isso nem sempre está presente na resposta.
      • Origem: um índice atribuído à origem na solicitação.
      • Metadados de origem: metadados sobre o bloco. Dependendo da origem, os metadados podem ser um dos seguintes:

        • Para uma origem inline, os metadados podem ser os detalhes adicionais especificados na solicitação, como título, autor ou URI.
        • Para o repositório de dados da Vertex AI Search, os metadados podem ser o ID do documento, o título do documento, o URI (local do Cloud Storage) ou o número da página.
        • No Embasamento com a Pesquisa Google, quando um resultado com base é gerado, os metadados contêm um URI que redireciona para o editor do conteúdo usado para gerar o resultado com base. Os metadados também contêm o domínio do editor. Os URIs fornecidos permanecem acessíveis por até 30 dias após a geração do resultado com embasamento.
    • Suporte de fundamentação: informações de fundamentação para uma declaração na resposta. O suporte de aterramento contém as seguintes informações:

      • Texto da reivindicação: a resposta ou parte dela que é comprovada com o texto do bloco de suporte.
      • Índice do bloco de suporte: um índice atribuído ao bloco de suporte na ordem em que o bloco aparece na lista de blocos de suporte.
      • Consultas de pesquisa na Web: as consultas de pesquisa sugeridas para as Sugestões da Pesquisa Google.
      • Sugestões de pesquisa: se você receber sugestões da Pesquisa Google com uma resposta, essa resposta é um "Resultado com embasamento" sujeito aos termos de serviço do Embasamento com a Pesquisa Google. Para mais informações, consulte os Termos de Serviço . O campo renderedContent no campo searchEntryPoint é o código fornecido para implementar as Sugestões de pesquisa Google. Para usar as Sugestões da Pesquisa Google, consulte Usar as Sugestões da Pesquisa Google.

Gerar uma resposta fundamentada em uma única vez

Esta seção descreve como gerar respostas com base nas seguintes fontes:

Baseie a resposta no texto inline e no repositório de dados da Vertex AI para Pesquisa

O exemplo a seguir mostra como enviar texto de comando especificando um texto inline e um repositório de dados da Vertex AI para Pesquisa como a fonte de embasamento. Não é possível especificar um repositório de dados de pesquisa de sites como a fonte de referência. Este exemplo usa o método generateGroundedContent.

REST

  1. Envie a solicitação no curl a seguir.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION"
       }
    },
    "groundingSpec": {
     "groundingSources": [
       {
         "inlineSource": {
           "groundingFacts": [
             {
               "factText": "FACT_TEXT_1",
               "attributes": {
                 "title": "TITLE_1",
                 "uri": "URI_1",
                 "author": "AUTHOR_1"
               }
             }
           ]
         }
       },
       {
         "inlineSource": {
           "groundingFacts": [
             {
               "factText": "FACT_TEXT_2",
               "attributes": {
                 "title": "TITLE_2",
                 "uri": "URI_2"
               }
             },
             {
               "factText": "FACT_TEXT_3",
               "attributes": {
                 "title": "TITLE_3",
                 "uri": "URI_3"
               }
             }
           ]
         }
       },
       {
         "searchSource": {
           "servingConfig": "projects/PROJECT_NUMBER/locations/global/collections/default_collection/engines/APP_ID_1/servingConfigs/default_search"
         }
       },
       {
         "searchSource": {
           "servingConfig": "projects/PROJECT_NUMBER/locations/global/collections/default_collection/engines/APP_ID_2/servingConfigs/default_search"
         }
       }
      ]
    },
    "generationSpec": {
      "modelId": "MODEL_ID",
      "temperature": TEMPERATURE,
      "topP": TOP_P,
      "topK": TOP_K
    },
    "user_context": {
      "languageCode: "LANGUAGE_CODE",
      "latLng": {
        "latitude": LATITUDE,
        "longitude": LONGITUDE
     },
    }
    }'
    

    Substitua:

    • PROJECT_NUMBER: o número do seu Google Cloud projeto.
    • PROMPT_TEXT: o comando do usuário.
    • SYSTEM_INSTRUCTION: um campo opcional para fornecer um preâmbulo ou algum contexto adicional.
    • FACT_TEXT_N: o texto inline para fundamentar a resposta. Você pode fornecer no máximo 100 textos de fatos.
    • TITLE_N: um campo opcional para definir o metaatributo de título para o texto inline.
    • URI_N: um campo opcional para definir o metaatributo URI do texto inline.
    • AUTHOR_N: um campo opcional para definir o metaatributo do autor para o texto inline.
    • APP_ID_N: o ID do app da Vertex AI para Pesquisa.
    • MODEL_ID: um campo opcional para definir o ID do modelo do Gemini que você quer usar para gerar a resposta com base. Para conferir uma lista de IDs de modelos disponíveis, consulte Modelos compatíveis.
    • TEMPERATURE: um campo opcional para definir a temperatura usada para a amostragem. O Google recomenda uma temperatura de 0,0. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_P: um campo opcional para definir o valor de P máximo para o modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_K: um campo opcional para definir o valor top-K do modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • LANGUAGE_CODE: um campo opcional que pode ser usado para definir o idioma da resposta gerada e do texto do bloco retornado. Se o idioma não puder ser determinado pela consulta, esse campo será usado. O valor padrão é en. Para conferir uma lista de códigos de idioma, consulte Idiomas.
    • LATITUDE: um campo opcional para definir a latitude. Insira o valor em graus decimais, por exemplo, -25.34.
    • LONGITUDE: um campo opcional para definir a longitude. Insira o valor em graus decimais, por exemplo, 131.04.

Python

from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_number = "YOUR_PROJECT_NUMBER"
# engine_id = "YOUR_ENGINE_ID"

client = discoveryengine.GroundedGenerationServiceClient()

request = discoveryengine.GenerateGroundedContentRequest(
    # The full resource name of the location.
    # Format: projects/{project_number}/locations/{location}
    location=client.common_location_path(project=project_number, location="global"),
    generation_spec=discoveryengine.GenerateGroundedContentRequest.GenerationSpec(
        model_id="gemini-1.5-flash",
    ),
    # Conversation between user and model
    contents=[
        discoveryengine.GroundedGenerationContent(
            role="user",
            parts=[
                discoveryengine.GroundedGenerationContent.Part(
                    text="How did Google do in 2020? Where can I find BigQuery docs?"
                )
            ],
        )
    ],
    system_instruction=discoveryengine.GroundedGenerationContent(
        parts=[
            discoveryengine.GroundedGenerationContent.Part(
                text="Add a smiley emoji after the answer."
            )
        ],
    ),
    # What to ground on.
    grounding_spec=discoveryengine.GenerateGroundedContentRequest.GroundingSpec(
        grounding_sources=[
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                inline_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.InlineSource(
                    grounding_facts=[
                        discoveryengine.GroundingFact(
                            fact_text=(
                                "The BigQuery documentation can be found at https://cloud.google.com/bigquery/docs/introduction"
                            ),
                            attributes={
                                "title": "BigQuery Overview",
                                "uri": "https://cloud.google.com/bigquery/docs/introduction",
                            },
                        ),
                    ]
                ),
            ),
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                search_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.SearchSource(
                    # The full resource name of the serving config for a Vertex AI Search App
                    serving_config=f"projects/{project_number}/locations/global/collections/default_collection/engines/{engine_id}/servingConfigs/default_search",
                ),
            ),
        ]
    ),
)
response = client.generate_grounded_content(request)

# Handle the response
print(response)

Exemplo de geração de respostas de uma única etapa com base no texto inline e na Vertex AI para Pesquisa

No exemplo abaixo, a solicitação especifica as seguintes fontes de fundamentação: um fato de texto inline e um repositório de dados da Vertex AI para Pesquisa. Este exemplo usa o método generateGroundedContent. Esse exemplo também usa uma instrução do sistema para encerrar a resposta com um emoji de sorriso.

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
-d '
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "How did google do in 2020? Where can I find Bigquery docs?"
        }
      ]
    }
  ],
  "systemInstruction": {
      "parts": {
          "text": "Add a smiley emoji after the answer."
      }
  },
  "groundingSpec": {
    "groundingSources": [
      {
        "inline_source": {
          "grounding_facts": [
            {
              "fact_text": "The BigQuery documentation can be found at https://cloud.google.com/bigquery/docs/introduction",
              "attributes": {
                "title": "BigQuery Overview",
                "uri": "https://cloud.google.com/bigquery/docs/introduction"
              }
            }
          ]
        }
      },
      {
        "searchSource": {
          "servingConfig": "projects/123456/locations/global/collections/default_collection/engines/app_id_example/servingConfigs/default_search"
        }
      }
    ]
  },
  "generationSpec": {
    "modelId": "gemini-1.5-flash"
  },
  "user_context": {
    "languageCode: "en",
    "latLng": {
       "latitude": 37.422131,
       "longitude": -122.084801
    }
  }
}'

Gerar respostas com base na Pesquisa Google

É possível basear as respostas geradas em dados da Web disponíveis publicamente.

Recuperação dinâmica

Você pode usar a recuperação dinâmica na sua solicitação para escolher quando desativar o embasamento com a Pesquisa Google. Isso é útil quando o comando não exige uma resposta com embasamento na Pesquisa Google e os modelos compatíveis podem fornecer uma resposta com base no conhecimento sem embasamento. Isso ajuda a gerenciar a latência, a qualidade e o custo com mais eficiência.

Pontuação e limite de previsão de recuperação dinâmica

Quando você envia uma solicitação para gerar uma resposta com embasamento, o Vertex AI Agent Builder atribui uma pontuação de previsão ao comando. A pontuação de previsão é um valor de ponto flutuante no intervalo [0,1]. O valor depende se a instrução pode se beneficiar ao basear a resposta com as informações mais atualizadas da Pesquisa Google. Portanto, uma instrução que exige uma resposta com embasamento nos fatos mais recentes da Web tem uma pontuação de previsão mais alta, e uma instrução para a qual uma resposta gerada pelo modelo é suficiente tem uma pontuação de previsão mais baixa.

Confira exemplos de algumas solicitações e as notas de previsão delas.

Comando Pontuação de previsão Comentário
"Escreva um poema sobre peônias" 0,13 O modelo pode confiar no próprio conhecimento, e a resposta não precisa de embasamento.
"Sugira um brinquedo para uma criança de 2 anos" 0.36 O modelo pode confiar no próprio conhecimento, e a resposta não precisa de embasamento.
"Você pode dar uma receita de guacamole de inspiração asiática?" 0,55 A Pesquisa Google pode dar uma resposta com embasamento, mas o embasamento não é estritamente necessário. O conhecimento do modelo pode ser suficiente
"O que é o Agent Builder? Como o embasamento é cobrado no Agent Builder?" 0,72 Requer que a Pesquisa Google gere uma resposta com bom embasamento
"Quem ganhou o último Grande Prêmio de F1?" 0.97 Requer que a Pesquisa Google gere uma resposta com bom embasamento

Na solicitação de geração de resposta fundamentada, é possível especificar uma configuração de recuperação dinâmica com um limite. O limite é um valor de ponto flutuante no intervalo [0,1] e tem o valor padrão 0,7. Se o valor de limite for zero, a resposta será sempre com embasamento na Pesquisa Google. Para todos os outros valores de limite, o seguinte é aplicável:

  • Se a pontuação da previsão for maior ou igual ao limite, a resposta será baseada na Pesquisa Google. Um limite mais baixo implica que mais comandos têm respostas geradas usando o Embasamento com a Pesquisa Google.
  • Se a pontuação da previsão for menor que o limite, o modelo ainda poderá gerar a resposta, mas ela não será baseada na Pesquisa Google.

Para encontrar um bom limite que atenda às necessidades da sua empresa, crie um conjunto representativo de consultas que você espera encontrar. Em seguida, você pode classificar as consultas de acordo com a pontuação de previsão na resposta e selecionar um limite adequado para seu caso de uso.

Basear a resposta na Pesquisa Google

O exemplo a seguir mostra como gerar uma resposta fundamentada a partir de um comando, especificando a Pesquisa Google como a fonte de informações. Este exemplo usa o método generateGroundedContent.

REST

  1. Envie a solicitação no curl a seguir.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION"
       }
    },
    "groundingSpec": {
     "groundingSources": [
     {
         "googleSearchSource": {
              "dynamicRetrievalConfig": {
                  "predictor":{
                      "threshold": DYNAMIC_RETRIEVAL_THRESHOLD
                  }
              }
         }
     }
    ]
    },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    },
    "user_context": {
     "languageCode: "LANGUAGE_CODE",
     "latLng": {
       "latitude": LATITUDE,
       "longitude": LONGITUDE
     },
    }
    }'
    

    Substitua:

    • PROJECT_NUMBER: o número do seu Google Cloud projeto.
    • PROMPT_TEXT: o comando do usuário.
    • SYSTEM_INSTRUCTION: um campo opcional para fornecer um preâmbulo ou algum contexto adicional.
    • DYNAMIC_RETRIEVAL_THRESHOLD: um campo opcional para definir o limite para invocar a configuração de recuperação dinâmica. É um valor de ponto flutuante no intervalo [0,1]. Se você adicionar o campo dynamicRetrievalConfig, mas não definir o campo predictor ou threshold, o valor de limite será 0,7. Se você não definir o campo dynamicRetrievalConfig, a resposta será sempre fundamentada.
    • MODEL_ID: um campo opcional para definir o ID do modelo do Gemini que você quer usar para gerar a resposta com base. Para conferir uma lista de IDs de modelos disponíveis, consulte Modelos compatíveis.
    • TEMPERATURE: um campo opcional para definir a temperatura usada para a amostragem. O Google recomenda uma temperatura de 0,0. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_P: um campo opcional para definir o valor de P máximo para o modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_K: um campo opcional para definir o valor top-K do modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • LANGUAGE_CODE: um campo opcional que pode ser usado para definir o idioma da resposta gerada e do texto do bloco retornado. Se o idioma não puder ser determinado pela consulta, esse campo será usado. O valor padrão é en. Para conferir uma lista de códigos de idioma, consulte Idiomas.
    • LATITUDE: um campo opcional para definir a latitude. Insira o valor em graus decimais, por exemplo, -25.34.
    • LONGITUDE: um campo opcional para definir a longitude. Insira o valor em graus decimais, por exemplo, 131.04.

Python

from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_number = "YOUR_PROJECT_NUMBER"

client = discoveryengine.GroundedGenerationServiceClient()

request = discoveryengine.GenerateGroundedContentRequest(
    # The full resource name of the location.
    # Format: projects/{project_number}/locations/{location}
    location=client.common_location_path(project=project_number, location="global"),
    generation_spec=discoveryengine.GenerateGroundedContentRequest.GenerationSpec(
        model_id="gemini-1.5-flash",
    ),
    # Conversation between user and model
    contents=[
        discoveryengine.GroundedGenerationContent(
            role="user",
            parts=[
                discoveryengine.GroundedGenerationContent.Part(
                    text="How much is Google stock?"
                )
            ],
        )
    ],
    system_instruction=discoveryengine.GroundedGenerationContent(
        parts=[
            discoveryengine.GroundedGenerationContent.Part(text="Be comprehensive.")
        ],
    ),
    # What to ground on.
    grounding_spec=discoveryengine.GenerateGroundedContentRequest.GroundingSpec(
        grounding_sources=[
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                google_search_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.GoogleSearchSource(
                    # Optional: For Dynamic Retrieval
                    dynamic_retrieval_config=discoveryengine.GenerateGroundedContentRequest.DynamicRetrievalConfiguration(
                        predictor=discoveryengine.GenerateGroundedContentRequest.DynamicRetrievalConfiguration.DynamicRetrievalPredictor(
                            threshold=0.7
                        )
                    )
                )
            ),
        ]
    ),
)
response = client.generate_grounded_content(request)

# Handle the response
print(response)

No exemplo abaixo, a solicitação especifica a Pesquisa Google como a fonte de referência. Este exemplo usa o método generateGroundedContent. Esse exemplo também usa uma instrução do sistema para encerrar a resposta com um emoji de sorriso.

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
-d '
{
"contents": [{
  "role": "user",
  "parts": [{
    "text": "What is vertex ai agent builder?"
}]
}],
"systemInstruction": {
   "parts": {
      "text": "Add a smiley emoji after the answer."
   }
},
"groundingSpec": {
  "groundingSources": [
  {
      "googleSearchSource": {
        "dynamicRetrievalConfig": {
               "predictor":{
                   "threshold": 0.6
               }
           }
      }
  }
 ]
},
"generationSpec": {
  "modelId": "gemini-1.5-flash"
}
}
'

Gerar uma resposta fundamentada em várias rodadas

Na geração de respostas com vários turnos, em cada solicitação, você precisa enviar todo o texto trocado entre o usuário e o modelo em todos os turnos anteriores. Isso garante a continuidade e mantém o contexto para gerar a resposta para a última solicitação.

Para receber uma resposta com base na geração de respostas de várias etapas, faça o seguinte:

REST

Os exemplos a seguir mostram como enviar o texto de solicitação de acompanhamento em várias rodadas. Esses exemplos usam o método generateGroundedContent e baseiam as respostas na Pesquisa Google. Você pode usar etapas semelhantes para gerar respostas com base em outras fontes.

  1. Envie a primeira solicitação na solicitação curl a seguir.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT_TURN_1"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION_TURN_1"
       }
    },
    "groundingSpec": {
     "groundingSources": [
       {
         "googleSearchSource": {}
       }
     ]
    },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    },
    "user_context": {
     "languageCode: "LANGUAGE_CODE",
     "latLng": {
       "latitude": LATITUDE,
       "longitude": LONGITUDE
     },
    }
    }'
    

    Substitua:

    • PROJECT_NUMBER: o número do seu Google Cloud projeto.
    • PROMPT_TEXT_TURN_1: o texto do comando do usuário na primeira vez.
    • SYSTEM_INSTRUCTION_TURN_1: um campo opcional para fornecer um preâmbulo ou algum contexto adicional. Para gerar respostas com vários turnos, você precisa fornecer as instruções do sistema para cada turno.
    • MODEL_ID: um campo opcional para definir o ID do modelo do Gemini que você quer usar para gerar a resposta com base. Para conferir uma lista de IDs de modelos disponíveis, consulte Modelos compatíveis.
    • TEMPERATURE: um campo opcional para definir a temperatura usada para a amostragem. O Google recomenda uma temperatura de 0,0. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_P: um campo opcional para definir o valor de P máximo para o modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_K: um campo opcional para definir o valor top-K do modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • LANGUAGE_CODE: um campo opcional que pode ser usado para definir o idioma da resposta gerada e do texto do bloco retornado. Se o idioma não puder ser determinado pela consulta, esse campo será usado. O valor padrão é en. Para conferir uma lista de códigos de idioma, consulte Idiomas.
    • LATITUDE: um campo opcional para definir a latitude. Insira o valor em graus decimais, por exemplo, -25.34.
    • LONGITUDE: um campo opcional para definir a longitude. Insira o valor em graus decimais, por exemplo, 131.04.
  2. Envie a segunda solicitação como uma ação de acompanhamento. Adicione a primeira instrução do usuário seguida pela resposta correspondente do modelo para o contexto.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT_TURN_1"
         }
       ]
     },
     {
       "role": "model",
       "parts": [
         {
           "text": "ANSWER_TEXT_TURN_1"
         }
       ]
     },
     {
       "role": "user",
       "parts": [
         {
           "text": "PROMPT_TEXT_TURN_2"
         }
       ]
     }
    ],
    "systemInstruction": {
       "parts": {
           "text": "SYSTEM_INSTRUCTION_TURN_2"
       }
    },
    "groundingSpec": {
     "groundingSources": [
       {
         "googleSearchSource": {}
       }
     ]
    },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    },
    "user_context": {
     "languageCode: "LANGUAGE_CODE",
     "latLng": {
       "latitude": LATITUDE,
       "longitude": LONGITUDE
     },
    }
    }'
    

    Substitua:

    • PROJECT_NUMBER: o número do seu Google Cloud projeto.
    • PROMPT_TEXT_TURN_1: o texto do comando do usuário na primeira vez.
    • ANSWER_TEXT_TURN_1: o texto da resposta do modelo na primeira vez.
    • PROMPT_TEXT_TURN_2: o texto do comando do usuário na segunda vez.
    • SYSTEM_INSTRUCTION_TURN_2: um campo opcional para fornecer um preâmbulo ou algum contexto adicional. Para gerar respostas com várias etapas, você precisa fornecer as instruções do sistema para cada etapa.
    • MODEL_ID: um campo opcional para definir o ID do modelo do Gemini que você quer usar para gerar a resposta com base. Para conferir uma lista de IDs de modelos disponíveis, consulte Modelos compatíveis.
    • TEMPERATURE: um campo opcional para definir a temperatura usada para a amostragem. O Google recomenda uma temperatura de 0,0. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_P: um campo opcional para definir o valor de P máximo para o modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_K: um campo opcional para definir o valor top-K do modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • LANGUAGE_CODE: um campo opcional que pode ser usado para definir o idioma da resposta gerada e do texto do bloco retornado. Se o idioma não puder ser determinado pela consulta, esse campo será usado. O valor padrão é en. Para conferir uma lista de códigos de idioma, consulte Idiomas.
    • LATITUDE: um campo opcional para definir a latitude. Insira o valor em graus decimais, por exemplo, -25.34.
    • LONGITUDE: um campo opcional para definir a longitude. Insira o valor em graus decimais, por exemplo, 131.04.
  3. Repita esse processo para receber mais respostas. Em cada turno, adicione todas as solicitações anteriores do usuário seguidas pelas respostas correspondentes do modelo.

Exemplo de geração de respostas com várias interações

No exemplo abaixo, a solicitação especifica três textos de fato inline como a fonte de base para gerar respostas em duas rodadas. Este exemplo usa o método generateGroundedContent. Esse exemplo também usa uma instrução do sistema para encerrar a resposta na primeira vez com um emoji sorridente.

REST

  1. Envie a primeira solicitação na solicitação curl a seguir.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "Summarize what happened in 2023 in one paragraph."
         }
       ]
     }
    ],
    "systemInstruction": {
      "parts": {
          "text": "Add a smiley emoji after the answer."
      }
    },
    "grounding_spec": {
     "grounding_sources": [
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the world population surpassed 8 billion. This milestone marked a significant moment in human history, highlighting both the rapid growth of our species and the challenges of resource management and sustainability in the years to come.",
               "attributes": {
                 "title": "title_1",
                 "uri": "some-uri-1"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, global e-commerce sales reached an estimated $5.7 trillion. The continued rise of online shopping solidified its position as a dominant force in retail, with major implications for traditional brick-and-mortar stores and the logistics networks supporting worldwide deliveries.",
               "attributes": {
                 "title": "title_2",
                 "uri": "some-uri-2"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the global average surface temperature was approximately 0.2 degrees Celsius higher than the 20th-century average. This continued the worrying trend of global warming, underscoring the urgency of worldwide climate initiatives, carbon reduction efforts, and investment in renewable energy sources.",
               "attributes": {
                 "title": "title_3",
                 "uri": "some-uri-3"
               }
             }
           ]
         }
       }
     ]
    },
    "generationSpec": {
     "modelId": "gemini-1.5-flash"
    }
    }'
    
  2. Envie a segunda solicitação como uma ação de acompanhamento. Adicione a primeira instrução do usuário seguida pela resposta correspondente do modelo para o contexto.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1/projects/123456/locations/global:generateGroundedContent" \
    -d '
    {
    "contents": [
     {
       "role": "user",
       "parts": [
         {
           "text": "Summarize what happened in 2023 in one paragraph."
         }
       ]
     },
     {
       "role": "model",
       "parts": [
         {
           "text": "In 2023, the global average surface temperature increased, the world population surpassed 8 billion, and global e-commerce sales reached an estimated $5.7 trillion.  😊 \n"
         }
       ]
     },
     {
       "role": "user",
       "parts": [
         {
           "text": "Rephrase the answer in an abstracted list."
         }
       ]
     }
    ],
    "grounding_spec": {
     "grounding_sources": [
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the world population surpassed 8 billion. This milestone marked a significant moment in human history, highlighting both the rapid growth of our species and the challenges of resource management and sustainability in the years to come.",
               "attributes": {
                 "title": "title_1",
                 "uri": "some-uri-1"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, global e-commerce sales reached an estimated $5.7 trillion. The continued rise of online shopping solidified its position as a dominant force in retail, with major implications for traditional brick-and-mortar stores and the logistics networks supporting worldwide deliveries.",
               "attributes": {
                 "title": "title_2",
                 "uri": "some-uri-2"
               }
             }
           ]
         }
       },
       {
         "inline_source": {
           "grounding_facts": [
             {
               "fact_text": "In 2023, the global average surface temperature was approximately 0.2 degrees Celsius higher than the 20th-century average. This continued the worrying trend of global warming, underscoring the urgency of worldwide climate initiatives, carbon reduction efforts, and investment in renewable energy sources.",
               "attributes": {
                 "title": "title_3",
                 "uri": "some-uri-3"
               }
             }
           ]
         }
       }
     ]
    },
    "generationSpec": {
     "modelId": "gemini-1.5-flash"
    }
    }'
    

Mostrar respostas empíricas

Você pode transmitir as respostas do modelo. Isso é útil nos casos em que a resposta é especialmente longa e o envio de toda a resposta de uma só vez causa um atraso significativo. O streaming da resposta divide a resposta em uma matriz de vários candidatos que contêm partes sequenciais do texto da resposta.

Para receber uma resposta com base em dados, faça o seguinte:

REST

O exemplo a seguir mostra como transmitir uma resposta com base em dados. Este exemplo usa o método streamGenerateGroundedContent e fundamenta a resposta com a Pesquisa Google sem a configuração de recuperação dinâmica. Você pode usar etapas semelhantes para gerar respostas com base em outras fontes.

  1. Envie a solicitação no curl a seguir.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global:streamGenerateGroundedContent" \
    -d '
    [
    {
     "contents": [
       {
         "role": "user",
         "parts": [
           {
             "text": "PROMPT_TEXT"
           }
         ]
       }
     ],
     "systemInstruction": {
         "parts": {
             "text": "SYSTEM_INSTRUCTION"
         }
     },
     "groundingSpec": {
       "groundingSources": [
         {
           "googleSearchSource": {}
         }
       ]
     },
    "generationSpec": {
     "modelId": "MODEL_ID",
     "temperature": TEMPERATURE,
     "topP": TOP_P,
     "topK": TOP_K
    },
    "user_context": {
     "languageCode: "LANGUAGE_CODE",
     "latLng": {
       "latitude": LATITUDE,
       "longitude": LONGITUDE
     },
    }
    }
    ]'
    

    Substitua:

    • PROJECT_NUMBER: o número do seu Google Cloud projeto.
    • PROMPT_TEXT: o comando do usuário.
    • SYSTEM_INSTRUCTION: um campo opcional para fornecer um preâmbulo ou algum contexto adicional.
    • MODEL_ID: um campo opcional para definir o ID do modelo do Gemini que você quer usar para gerar a resposta com base. Para conferir uma lista de IDs de modelos disponíveis, consulte Modelos compatíveis.
    • TEMPERATURE: um campo opcional para definir a temperatura usada para a amostragem. O Google recomenda uma temperatura de 0,0. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_P: um campo opcional para definir o valor de P máximo para o modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • TOP_K: um campo opcional para definir o valor top-K do modelo. Para mais informações, consulte Parâmetros do modelo Gemini.
    • LANGUAGE_CODE: um campo opcional que pode ser usado para definir o idioma da resposta gerada e do texto do bloco retornado. Se o idioma não puder ser determinado pela consulta, esse campo será usado. O valor padrão é en. Para conferir uma lista de códigos de idioma, consulte Idiomas.
    • LATITUDE: um campo opcional para definir a latitude. Insira o valor em graus decimais, por exemplo, -25.34.
    • LONGITUDE: um campo opcional para definir a longitude. Insira o valor em graus decimais, por exemplo, 131.04.

Python

from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"

client = discoveryengine.GroundedGenerationServiceClient()

request = discoveryengine.GenerateGroundedContentRequest(
    # The full resource name of the location.
    # Format: projects/{project_number}/locations/{location}
    location=client.common_location_path(project=project_number, location="global"),
    generation_spec=discoveryengine.GenerateGroundedContentRequest.GenerationSpec(
        model_id="gemini-1.5-flash",
    ),
    # Conversation between user and model
    contents=[
        discoveryengine.GroundedGenerationContent(
            role="user",
            parts=[
                discoveryengine.GroundedGenerationContent.Part(
                    text="Summarize how to delete a data store in Vertex AI Agent Builder?"
                )
            ],
        )
    ],
    grounding_spec=discoveryengine.GenerateGroundedContentRequest.GroundingSpec(
        grounding_sources=[
            discoveryengine.GenerateGroundedContentRequest.GroundingSource(
                google_search_source=discoveryengine.GenerateGroundedContentRequest.GroundingSource.GoogleSearchSource()
            ),
        ]
    ),
)
responses = client.stream_generate_grounded_content(iter([request]))

for response in responses:
    # Handle the response
    print(response)

Exemplo de streaming de respostas embasadas

No exemplo abaixo, a solicitação especifica a Pesquisa Google como a origem de referência para transmitir uma resposta sem a configuração de recuperação dinâmica. A resposta transmitida é distribuída em vários candidatos de resposta. Este exemplo usa o método streamGenerateGroundedContent.

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1alpha/projects/123456/locations/global:streamGenerateGroundedContent" \
-d '
[
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Summarize How to delete a data store in Vertex AI Agent Builder?"
        }
      ]
    }
  ],
  "groundingSpec": {
    "groundingSources": [
      {
        "googleSearchSource": {}
      }
    ]
  },
  "generationSpec": {
    "modelId": "gemini-1.5-flash"
  }
}
]'

Modelos compatíveis

Os seguintes modelos dão suporte ao embasamento:

  • Gemini 1.5 Pro apenas com entrada de texto
  • Gemini 1.5 Flash apenas com entrada de texto
  • Gemini 1.0 Pro apenas com entrada de texto

Para saber mais sobre esses modelos do Gemini, consulte Versões e ciclo de vida do modelo Gemini.

Ao chamar o método generateGroundedContent, você pode usar os seguintes IDs de modelo:

ID do modelo Atualização automática
default Sim
gemini-1.0-pro Sim
gemini-1.0-pro-001 Não
gemini-1.0-pro-002 Não
gemini-1.5-flash Sim
gemini-1.5-flash-001 Não
gemini-1.5-flash-002 Não
gemini-1.5-pro Sim
gemini-1.5-pro-001 Não
gemini-1.5-pro-002 Não

Modelos de alta fidelidade

Para casos de uso gerais, como assistência para viagens, o método de geração de respostas fundamentadas pode gerar bons resultados ao mesclar o contexto fornecido, como texto inline ou dados corporativos, com o treinamento do modelo. No entanto, setores especializados, como serviços financeiros, saúde e seguros, geralmente exigem que os resultados gerados sejam provenientes exclusivamente do contexto fornecido. Para oferecer suporte a esses casos de uso, o seguinte modelo de alta fidelidade está disponível para uso com o método de geração de respostas com embasamento:

Nome do modelo ID do modelo Baseado em Janela de contexto Descrição
Gemini 1.5 Flash de alta fidelidade gemini-1.5-flash-002-high-fidelity Modelo Gemini 1.5 Flash 32K Aceita comandos de texto como entradas e gera respostas de texto com base no contexto. Foco na precisão, confiabilidade e segurança.

A seguir

Aprenda a usar o método de geração de embasamento com outras APIs de RAG para gerar respostas embasadas em dados não estruturados.