Sobre apps e repositórios de dados

Esta página descreve os apps e os repositórios de dados da Vertex AI para Pesquisa. Para informações sobre os repositórios de dados do Vertex AI Agents, consulte Repositórios de dados do Vertex AI Agents.

Com a Vertex AI para Pesquisa, você cria um app de pesquisa ou recomendações e o conecta a um repositório de dados. Um projeto do Google Cloud pode conter vários apps.

Relação entre apps e repositórios de dados

A relação entre apps e repositórios de dados depende do tipo de app:

  • Os apps de pesquisa genérica têm uma relação de muitos para muitos com os repositórios de dados. Quando vários repositórios de dados são conectados a um único app de pesquisa genérica, isso é chamado de pesquisa combinada. Para informações sobre as limitações de conexão de um app de pesquisa a mais de um repositório de dados, consulte Sobre a pesquisa combinada.

  • Um app de recomendações genéricas tem uma conexão um a um com o repositório de dados.

  • Um app de mídia tem uma relação de muitos para um com o repositório de dados. Um app só pode se conectar a um repositório de dados, enquanto um determinado repositório de dados pode ser conectado a vários apps. Por exemplo, um app de pesquisa de mídia e um app de recomendações de mídia podem compartilhar um repositório de dados.

  • Um app de pesquisa de saúde tem uma relação de muitos para um com o repositório de dados. Um app só pode se conectar a um repositório de dados, enquanto um determinado repositório de dados pode ser conectado a vários apps. Por exemplo, um app voltado ao paciente e um voltado ao provedor podem se conectar ao mesmo repositório de dados.

    Para uma importação em lote de dados de saúde, os dados são importados para um repositório de dados que está em um app. Para a importação de dados de streaming (pré-lançamento) de dados de saúde, os dados são importados para uma entidade, que é um tipo de repositório de dados que está em um conector de dados. Um conector de dados também é um tipo de repositório de dados que está em um app.

Depois que um repositório de dados é conectado a um app, ele não pode ser desconectado.

Método de criação de apps e ingestão de dados

A forma de criar um app e processar dados depende do tipo de dados que você tem:

  • Para dados de sites, use o console do Google Cloud, não a API, para criar o app e transferir dados.

  • Para dados estruturados ou não estruturados, use o console do Google Cloud ou a API.

  • Para dados de saúde, use o console do Google Cloud ou a API.

Documentos

Cada repositório de dados tem um ou mais registros de dados, chamados de documentos. O que um documento representa varia de acordo com o tipo de dados no repositório de dados:

  • Site. Um documento é uma página da Web.

  • Dados estruturados. Um documento é uma linha em uma tabela ou um registro JSON que segue um esquema específico. Você pode fornecer esse esquema por conta própria ou permitir que o Vertex AI Agent Builder derive o esquema dos dados ingeridos.

  • Dados estruturados para mídia. Um documento é uma linha em uma tabela ou um registro JSON que segue um esquema específico para mídia. Os documentos são registros relacionados a conteúdo de mídia, como vídeos, artigos de notícias, arquivos de música e podcasts. Um documento contém informações que descrevem o item de mídia, no mínimo: título, URI para o local do conteúdo, categorias, duração e data disponível.

  • Dados estruturados para origens de dados de terceiros (pré-lançamento com lista de permissões). Um documento é uma entidade específica da origem de dados de terceiros, como um problema do Jira ou um espaço do Confluence.

  • Dados não estruturados. Um documento é um arquivo em formato HTML, PDF com texto incorporado ou TXT. Os formatos PPTX e DOCX estão disponíveis na prévia.

  • Dados de FHIR em assistência médica. Um documento é um recurso FHIR R4 com suporte. Para conferir uma lista de recursos do FHIR R4 com suporte da Pesquisa da Vertex AI, consulte a referência do esquema de dados do FHIR R4 do Healthcare.

Armazenamentos de dados e apps

No Vertex AI Agent Builder, há vários tipos de repositórios de dados. Um repositório de dados pode conter apenas um tipo de dados.

Dados do site

Um repositório de dados com dados de sites usa dados indexados de sites públicos. Você pode fornecer um conjunto de domínios e configurar a pesquisa ou recomendações sobre os dados rastreados deles. Esses dados incluem texto, imagens marcadas com metadados e dados estruturados.

Por exemplo, você pode fornecer domínios como yourexamplewebsite.com/faq e yourexamplewebsite.com/events e ativar a pesquisa ou as recomendações no conteúdo desses domínios.

Há dois tipos de repositórios de dados de sites:

  • Pesquisa básica no site:

    • Oferece recursos de pesquisa no índice da Pesquisa Google para os sites incluídos.
    • Não exige verificação de domínio.
  • Indexação avançada de sites:

    • Oferece recursos de pesquisa avançada em um índice gerado com base no índice de pesquisa do Google para os sites incluídos. Os proprietários de apps do Vertex AI Agent Builder podem expandir a cobertura do índice refazendo a pesquisa nos sites sempre que necessário, mantendo-o atualizado. Para mais informações, consulte Atualizar páginas da Web. Os recursos avançados da indexação avançada de sites estão listados em Indexação avançada de sites.
    • É necessário confirmar o domínio. Para mais informações, consulte Verificar domínios de sites.
    • Fornece a capacidade de adicionar dados estruturados ao esquema do repositório de dados. Um site contém dados não estruturados, mas você pode adicionar dados estruturados na forma de tags meta, atributos do PageMap e dados do schema.org às suas páginas da Web. Em seguida, use esses dados estruturados para editar o esquema do repositório de dados, conforme explicado em Usar dados estruturados para indexação avançada de sites.

A seguir

Para a pesquisa de sites:

Para recomendações:

Dados estruturados

Um repositório de dados estruturados permite a pesquisa semântica ou recomendações sobre dados estruturados. É possível importar dados do BigQuery ou do Cloud Storage. Também é possível fazer o upload manual de dados JSON estruturados pela API.

Por exemplo, é possível ativar a pesquisa ou as recomendações em um catálogo de produtos para sua experiência de e-commerce ou um diretório de médicos para pesquisa ou recomendações de provedores.

O Vertex AI Agent Builder detecta automaticamente o esquema com base nos dados que você importa. Também é possível fornecer um esquema para seus dados. Fornecer um esquema para seus dados normalmente melhora a qualidade dos resultados.

A seguir

Para pesquisa genérica:

Para recomendações genéricas:

Dados estruturados para mídia

Os apps de mídia só podem ser conectados a repositórios de dados de mídia. Os repositórios de dados de mídia são repositórios de dados estruturados com um esquema definido pelo Google ou com seu próprio esquema personalizado que contém um conjunto específico de cinco campos relacionados à mídia. Para mais informações sobre o esquema, consulte Sobre documentos de mídia e armazenamentos de dados.

Por exemplo, é possível ativar as recomendações criando um app de recomendações de mídia para um catálogo de filmes ou um site de notícias. Assim, os usuários vão receber sugestões adequadas e personalizadas.

Além dos documentos de mídia, os repositórios de dados de mídia também contêm as informações de eventos do usuário que permitem que a Vertex AI para Pesquisa personalize recomendações e pesquise seus usuários. Os eventos do usuário são obrigatórios para apps de recomendações de mídia e são recomendados para apps de pesquisa de mídia. Para informações sobre eventos do usuário, consulte Gravar eventos do usuário em tempo real.

A seguir

Dados estruturados para repositórios de dados de terceiros

Os seguintes conectores de fonte de dados de terceiros estão disponíveis na pré-visualização com lista de permissões:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

Os dados dessas partes são considerados estruturados.

Ao configurar um novo conector, você seleciona uma frequência de sincronização. Você também seleciona quais entidades serão sincronizadas. As entidades variam de acordo com a origem, como problemas para Jira e conteúdo e espaços para Confluence. Um repositório de dados exclusivo é criado para cada entidade. Os repositórios de dados de entidades são agrupados por instância do conector.

A seguir

Para a rede de pesquisa:

Para recomendações:

Dados não estruturados

Um repositório de dados não estruturados permite a pesquisa semântica ou recomendações sobre dados como documentos e imagens.

Os repositórios de dados não estruturados oferecem suporte a documentos em HTML, PDF com texto incorporado e formato TXT. Os formatos PPTX e DOCX estão disponíveis na prévia.

A pesquisa fornece resultados na forma de 10 URLs e respostas resumidas para consultas em linguagem natural. Os documentos precisam ser enviados para um bucket do Cloud Storage com as permissões de acesso adequadas. Por exemplo, uma instituição financeira pode ativar a pesquisa ou as recomendações no corpus privado de publicações de pesquisa financeira, ou uma empresa de biotecnologia pode ativar a pesquisa ou as recomendações no repositório privado de pesquisa médica.

A seguir

Para a rede de pesquisa:

Para recomendações genéricas:

Dados FHIR de saúde

Um app de pesquisa de saúde usa dados FHIR R4 importados de um armazenamento FHIR da API Cloud Healthcare. Para conferir uma lista de recursos FHIR R4 compatíveis com a Pesquisa da Vertex AI, consulte a Referência do esquema de dados FHIR R4 do Healthcare. Um repositório de dados FHIR R4 precisa atender a alguns requisitos antes de ser usado como uma fonte de dados para o repositório de dados de pesquisa da Vertex AI. Para mais informações, consulte como preparar dados de FHIR de saúde para ingestão.

A seguir

Sobre a pesquisa combinada

É possível criar um app de pesquisa combinada, em que vários repositórios de dados podem ser conectados a um único app de pesquisa genérica. Esse recurso permite usar um app para pesquisar várias fontes e tipos de dados.

Para criar um app de pesquisa combinada, selecione vários repositórios de dados ao criar um novo app de pesquisa genérica. Se você não selecionar vários repositórios de dados durante a criação, não será possível adicionar outros repositórios de dados mais tarde.

Ao receber os resultados da pesquisa, você pode pesquisar em todos os repositórios de dados ou filtrar os resultados de um único repositório de dados.

Considere as seguintes limitações:

  • Adicionar e remover repositórios de dados:
    • Para ativar a pesquisa combinada em um app, conecte pelo menos duas armazenagens de dados a ele durante a criação.
    • É possível adicionar ou remover repositórios de dados de um app de pesquisa combinada, mas ele não pode ter menos de dois repositórios de dados conectados a ele a qualquer momento.
    • Se você conectar um único repositório de dados a um app de pesquisa durante a criação, não será possível adicionar ou remover esse repositório.
  • Os repositórios de dados de sites precisam ter a indexação avançada de sites ativada para serem usados na pesquisa combinada. Para mais informações, consulte Indexação avançada de sites.
  • Não há suporte para repositórios de dados não estruturados importados usando o BigQuery.
  • A pesquisa combinada permite os seguintes campos nas solicitações de pesquisa:
    • query
    • pageSize
    • offset
    • dataStoreSpecs
    • pageToken
    • filter
    • spellCorrectionSpec
    • session
    • contentSearchSpec
      • summarySpec
      • extractiveContentSpec
      • searchResultMode
      • chunkSpec
  • Além dos campos listados anteriormente, os seguintes campos são compatíveis somente com apps de pesquisa mescladas quando as solicitações de pesquisa são filtradas para receber resultados de um único repositório de dados. Eles não são compatíveis ao receber resultados de mais de um repositório de dados:
    • facetSpec
  • A pesquisa combinada permite os seguintes campos em dataStoreSpecs:
    • boostSpec
    • filter: se houver filtros especificados para SearchRequest e dataStoreSpecs, ambos serão aplicados aos resultados da pesquisa.
  • As operações de criar, ler, atualizar e excluir (CRUD, na sigla em inglês) em configurações de exibição têm suporte para apps mesclados. Somente os seguintes campos podem ser adicionados ou atualizados em uma configuração de veiculação:
    • name
    • displayName
    • solutionType
    • genericConfig:
      • contentSearchSpec:
        • summarySpec
        • extractiveContentSpec
        • searchResultMode
        • chunkSpec
    • boostControlIds
    • synonymsControlIds
    • onewaySynonymsControlIds
  • As operações CRUD nos seguintes controles são compatíveis com apps de pesquisa combinada:
    • boostAction
    • synonymACtion
  • Os apps de pesquisa mesclada não são compatíveis com os seguintes recursos:
    • Filtrar, redirecionar, ignorar, substituir e desvincular controles de serviço
    • Snippets que usam contentSearchSpec.snippetSpec em solicitações de pesquisa ou configurações de exibição
    • Pesquisar com acompanhamentos