Sobre apps e repositórios de dados

Nesta página, descrevemos os apps e repositórios de dados da Vertex AI para Pesquisa. Para informações sobre os repositórios de dados do Vertex AI Agents, consulte Repositórios de dados do Vertex AI Agents.

Com a Vertex AI para Pesquisa, você cria uma pesquisa ou e conectar a um repositório de dados. Um projeto do Google Cloud pode conter vários apps.

Relação entre apps e repositórios de dados

A relação entre apps e repositórios de dados depende do tipo de app:

  • Os aplicativos de pesquisa genéricos têm uma relação de muitos para muitos com os repositórios de dados. Quando vários repositórios de dados são conectados a um único app de pesquisa genérica, isso é chamado de pesquisa combinada. Para informações sobre as limitações de conexão de um app de pesquisa a mais de um repositório de dados, consulte Sobre a pesquisa combinada.

  • Um app de recomendações genéricas tem uma conexão um a um com o repositório de dados.

  • Um app de música tem uma relação de muitos para um com o repositório de dados. Um app só pode se conectar a um repositório de dados, enquanto um determinado repositório de dados pode ser conectado a vários apps. Por exemplo, uma pesquisa de mídia e um app de recomendações de mídia podem compartilhar um repositório de dados.

  • Um app de pesquisa de saúde tem uma relação de muitos para um com o repositório de dados. Um app só podem se conectar a um repositório de dados, enquanto um determinado repositório de dados pode ser conectada a vários apps. Por exemplo, um aplicativo voltado para o paciente e um do provedor podem se conectar ao mesmo repositório de dados.

    Para uma importação em lote de dados de saúde, os dados são importados para um repositório de dados que está em um app. Para a importação de dados de streaming (pré-lançamento) de dados de saúde, os dados são importados para uma entidade, que é um tipo de repositório de dados que está em um conector de dados. Um conector de dados também é um tipo de repositório de dados de um aplicativo.

Depois que um repositório de dados é conectado a um app, ele não pode ser desconectado.

Método de criação de apps e ingestão de dados

A forma como você cria um app e ingere dados depende do tipo de dados que você tem:

  • Para dados de sites, use o console do Google Cloud, não a API, para criar o app e transferir dados.

  • Para dados estruturados ou não, use o o console do Google Cloud ou a API.

  • Para dados de saúde, use o console do Google Cloud ou a API.

Documentos

Cada armazenamento de dados tem um ou mais registros de dados, chamados de documentos. Que documento representa varia de acordo com o tipo de dados no repositório de dados:

  • Site. Um documento é uma página da Web.

  • Dados estruturados. Um documento é uma linha em uma tabela ou um registro JSON que segue um esquema específico. Você pode fornecer esse esquema por conta própria ou permitir que o Vertex AI Agent Builder derive o esquema dos dados ingeridos.

  • Dados estruturados para mídia. Um documento é uma linha em uma tabela ou um registro JSON que segue um esquema específico para mídia. O documentos são registros referentes a conteúdo de mídia, como vídeos, notícias artigos, arquivos de música e podcasts. Um documento contém informações que descrevem o item de mídia, no mínimo: título, URI para o local do conteúdo, categorias, duração e data disponível.

  • Dados estruturados para fontes de terceiros (visualizar com lista de permissões) Um documento é uma entidade específica da origem de dados de terceiros, como um problema do Jira ou um espaço do Confluence.

  • Dados não estruturados. Um documento é um arquivo em formato HTML, PDF com texto incorporado ou TXT. Os formatos PPTX e DOCX estão disponíveis na visualização.

  • Dados de FHIR em assistência médica. Um documento é um FHIR R4 compatível. recurso. Para uma lista de recursos FHIR R4 que A Vertex AI para Pesquisa oferece suporte. Consulte Referência do esquema de dados FHIR R4 do Healthcare.

Armazenamentos de dados e apps

A Vertex AI Agent Builder oferece vários tipos de repositórios de dados. Um repositório de dados pode conter apenas um tipo de dados.

Dados do site

Um repositório de dados com dados de sites usa dados indexados de sites públicos. Você pode fornecer um conjunto de domínios e configurar a pesquisa ou recomendações sobre os dados rastreados deles. Esses dados incluem texto, imagens marcadas com metadados e dados estruturados.

Por exemplo, você pode fornecer domínios como yourexamplewebsite.com/faq e yourexamplewebsite.com/events e ativar a pesquisa ou as recomendações no conteúdo desses domínios.

Há dois tipos de repositórios de dados de sites:

  • Pesquisa básica em sites:

    • Fornece recursos de pesquisa sobre o índice atual da Pesquisa Google para os sites incluídos.
    • Não exige verificação de domínio.
  • Indexação avançada de sites:

    • Oferece recursos de pesquisa avançada em um índice gerado com base no índice de pesquisa do Google para os sites incluídos. Os proprietários de apps do Vertex AI Agent Builder podem expandir a cobertura do índice refazendo a pesquisa nos sites sempre que necessário, mantendo-o atualizado. Para mais informações, consulte Atualizar páginas da Web. Os recursos avançados da indexação avançada de sites estão listados em Indexação avançada de sites.
    • Exige a verificação do domínio. Para mais informações, consulte Verificar domínios de sites.
    • Fornece a capacidade de adicionar dados estruturados ao esquema do repositório de dados. Um site contém dados não estruturados, mas é possível adicionar dados estruturados no de tags meta, atributos PageMap e dados do schema.org páginas da Web. Você pode usar esses dados estruturados para editar o repositório de dados esquema, conforme explicado na Use dados estruturados para indexação avançada de sites.

A seguir

Para a pesquisa de sites:

Para recomendações:

Dados estruturados

Um repositório de dados com dados estruturados permite pesquisa ou recomendações semânticas sobre dados estruturados. É possível importar dados do BigQuery ou Cloud Storage. Também é possível fazer o upload manual de dados JSON estruturados por meio do API.

Por exemplo, é possível ativar a pesquisa ou as recomendações em um catálogo de produtos para sua experiência de e-commerce ou um diretório de médicos para pesquisa ou recomendações de provedores.

O Vertex AI Agent Builder detecta automaticamente o esquema com base nos dados que você importa. Também é possível fornecer um esquema para seus dados. Fornecer um esquema para seus dados normalmente melhora a qualidade dos resultados.

A seguir

Para pesquisa genérica:

Para recomendações genéricas:

Dados estruturados para mídia

Os apps de mídia só podem ser conectados a repositórios de dados de mídia. Dados de mídia são repositórios de dados estruturados com um esquema definido pelo Google ou seus esquema personalizado que contém um conjunto específico de cinco campos relacionados à mídia. Para mais informações sobre o esquema, consulte Sobre documentos de mídia e armazenamentos de dados.

Por exemplo, é possível ativar as recomendações criando uma recomendação de mídia de um catálogo de filmes ou um site de notícias para que os usuários tenham e sugestões personalizadas feitas para eles.

Além de documentos de mídia, os repositórios de dados de mídia também contêm as informações do evento do usuário que permitem que a Vertex AI para Pesquisa para personalizar recomendações e pesquisar para seus usuários. Os eventos do usuário são obrigatórios para apps de recomendações de mídia e são recomendados para apps de pesquisa de mídia. Para informações sobre eventos do usuário, consulte Gravar eventos do usuário em tempo real.

A seguir

Dados estruturados para repositórios de dados de terceiros

Os seguintes conectores de fonte de dados de terceiros estão disponíveis na pré-visualização com lista de permissões:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

Os dados desses terceiros são considerados estruturados.

Ao configurar um novo conector, você seleciona uma frequência de sincronização. Você também seleciona as entidades que serão sincronizadas. As entidades variam de acordo com a origem, como problemas para Jira e conteúdo e espaços para Confluence. Um repositório de dados único é criados para cada entidade. Os repositórios de dados de entidade são agrupados por instância de conector.

A seguir

Para a Rede de Pesquisa:

Para recomendações:

Dados não estruturados

Um repositório de dados não estruturados permite pesquisa semântica ou recomendações sobre dados como documentos e imagens.

Os repositórios de dados não estruturados oferecem suporte a documentos em HTML, PDF com texto incorporado e formato TXT. Os formatos PPTX e DOCX estão disponíveis na prévia.

A pesquisa fornece resultados na forma de 10 URLs e respostas resumidas para consultas em linguagem natural. Os documentos precisam ser enviados para o Cloud Storage com as permissões de acesso apropriadas. Por exemplo, uma instituição financeira pode ativar a pesquisa ou as recomendações no corpus privado de publicações de pesquisa financeira, ou uma empresa de biotecnologia pode ativar a pesquisa ou as recomendações no repositório privado de pesquisas médicas.

A seguir

Para a rede de pesquisa:

Para recomendações genéricas:

Dados FHIR de assistência médica

Um app de pesquisa em saúde usa dados FHIR R4 importados de um FHIR da API Cloud Healthcare. loja on-line. Para uma lista de recursos FHIR R4 que a Vertex AI para Pesquisa consulte a referência do esquema de dados FHIR R4 do Healthcare. Um repositório de dados FHIR R4 precisa atender a alguns requisitos antes de ser usado como um fonte de dados para o repositório de dados da Vertex AI para Pesquisa. Para mais informações, consulte como preparar dados de FHIR de saúde para ingestão.

A seguir

Sobre a pesquisa combinada

É possível criar um app de pesquisa combinada, em que vários repositórios de dados podem ser conectados a um único app de pesquisa genérica. Esse recurso permite usar um app para pesquisar em várias fontes e tipos de dados.

Para criar um app de pesquisa combinada, selecione vários repositórios de dados ao criar um novo app de pesquisa genérica. Se você não selecionar vários repositórios de dados durante a criação, não será possível adicionar outros repositórios de dados mais tarde.

Ao receber os resultados da pesquisa, você pode pesquisar em todos os repositórios de dados ou filtrar os resultados de um único repositório.

Considere as seguintes limitações:

  • Adicionar e remover repositórios de dados:
    • Para ativar a pesquisa combinada em um app, você precisa conectar pelo menos dois dados armazena durante a criação do app.
    • É possível adicionar ou remover repositórios de dados de um app de pesquisa combinada, mas o app não pode ter menos de dois repositórios de dados conectados a ele a qualquer momento.
    • Se você conectar um único repositório de dados a um app de pesquisa durante a criação, não será possível adicionar ou remover esse repositório.
  • Os repositórios de dados de sites precisam estar com a indexação avançada de sites ativada na para serem usados na pesquisa combinada. Para mais informações, consulte Indexação de sites avançada.
  • Não há suporte para repositórios de dados não estruturados importados usando o BigQuery.
  • A pesquisa combinada permite os seguintes campos em solicitações de pesquisa:
    • query
    • pageSize
    • offset
    • dataStoreSpec
    • pageToken
    • filter
    • spellCorrectionSpec
    • session
    • contentSearchSpec:
      • summarySpec
      • extractiveContentSpec
      • searchResultMode
      • chunkSpec
  • Além dos campos listados anteriormente, os seguintes campos são compatível com aplicativos de pesquisa combinada somente quando as solicitações de pesquisa são filtradas para e extrair resultados de um único repositório de dados. Eles não são compatíveis ao receber resultados de mais de um repositório de dados:
    • facetSpec
  • A pesquisa combinada permite os seguintes campos em dataStoreSpec:
    • filter: se houver filtros especificados para SearchRequest e dataStoreSpec, os dois filtros foram aplicados aos resultados da pesquisa
  • As operações de criação, leitura, atualização e exclusão (CRUD, na sigla em inglês) em configurações de exibição têm suporte para apps mesclados. Somente os campos a seguir podem ser adicionados ou atualizados em uma configuração de veiculação:
    • name
    • displayName
    • solutionType
    • genericConfig:
      • contentSearchSpec:
        • summarySpec
        • extractiveContentSpec
        • searchResultMode
        • chunkSpec
    • boostControlIds
    • synonymsControlIds
    • onewaySynonymsControlIds
  • As operações CRUD nos controles a seguir são compatíveis com aplicativos de pesquisa combinada:
    • boostAction
    • synonymACtion
  • Os apps de pesquisa combinada não são compatíveis com os seguintes recursos:
    • Filtrar, redirecionar, ignorar, substituir e desvincular controles de serviço
    • Snippets que usam contentSearchSpec.snippetSpec em solicitações de pesquisa ou configurações de veiculação
    • Pesquisar com acompanhamentos