Introdução aos conetores e às bases de dados

Os conetores obtêm dados de origens de dados da Google e de terceiros para o Gemini Enterprise, armazenando-os em repositórios de dados dedicados. Este documento oferece uma vista geral destes conetores. A centralização dos seus dados no Gemini Enterprise melhora a acessibilidade aos dados, a funcionalidade de pesquisa e as capacidades de análise.

Uma imagem de vista geral que mostra como os conetores introduzem dados no Gemini Enterprise.
Vista geral do conetor

Conceitos de conetores e repositórios de dados

Armazenamentos de dados
Cada origem de dados suporta um conjunto de tipos de entidades. Por exemplo, o Jira Cloud tem entidades, como problemas, anexos, comentários e registos de trabalho, que são exclusivos da origem de dados. O Gemini Enterprise cria um armazenamento de dados separado para cada entidade. Por conseguinte, quando cria um arquivo de dados através da consola, recebe uma coleção de arquivos de dados que representam estas entidades de dados carregadas. Google Cloud
Federação de dados versus carregamento (indexação)
A federação de dados obtém diretamente informações da origem de dados especificada. Uma vez que os dados não são copiados para o índice do Vertex AI Search, não tem de se preocupar com o armazenamento de dados. No entanto, uma vez que os dados não estão indexados, a qualidade da pesquisa pode ser inferior.

A obtenção de dados (indexação) copia os dados para o índice do Vertex AI Search. Isto pode resultar numa melhoria da qualidade da pesquisa. No entanto, este processo consome mais armazenamento e tempo.
Dados não estruturados
O formato de dados suportado é específico da origem de dados e do tipo de entidade. Se o conteúdo numa entidade estiver armazenado num formato não estruturado, como HTML, PDF, TXT, PPTX ou DOCX, o Vertex AI Search cria um repositório de dados não estruturados. Para mais informações e tipos de ficheiros suportados, consulte a secção Pesquisa não estruturada.
Dados estruturados
O formato de dados suportado é específico da origem de dados e do tipo de entidade. Se o conteúdo numa entidade for armazenado num formato estruturado, o Vertex AI Search cria um armazenamento de dados estruturados. Para mais informações, consulte Pesquisa estruturada.
Esquemas de dados
O esquema de dados define a estrutura de dados. Quando importa dados estruturados com o Gemini Enterprise, o sistema deteta automaticamente o esquema. Pode usar o esquema detetado automaticamente ou definir o esquema através da API. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.
Regiões de armazenamento de dados
Quando carregar dados, tem de selecionar a região onde quer armazená-los, como global, os EUA ou a UE. Para mais informações, consulte o artigo Localizações do Gemini Enterprise. Os dados armazenados nas regiões dos EUA ou da UE requerem encriptação de dados. A encriptação predefinida é com Google-owned and Google-managed encryption key, mas, em alternativa, pode usar chaves de encriptação geridas pelo cliente.
Sincronizações de dados

Uma sincronização de dados extrai e atualiza os dados de identidade (como funções, autorizações e utilizadores) e os dados de entidades (como dados relacionados com uma origem de dados específica) da origem de dados original. Para mais informações, consulte o artigo Tipos e programações de sincronização de dados.

Tipos e agendamentos de sincronização de dados

Uma sincronização de dados captura dados de entidades, dados de identidade ou ambos e atualiza o conteúdo do repositório de dados no Gemini Enterprise.

Tipos de sincronização

Os armazenamentos de dados no Gemini Enterprise usam dois tipos essenciais de sincronização de dados:

  • Uma sincronização completa capta o estado completo da app ou do serviço de terceiros. Isto inclui adições, atualizações e eliminações. Uma sincronização completa substitui o conteúdo existente do armazenamento de dados.

  • Uma sincronização incremental capta periodicamente os dados das entidades que foram adicionados ou atualizados desde a última sincronização. Não sincroniza dados de identidade nem eliminações de dados de entidades.

Pode agendar uma sincronização completa separadamente para os seguintes tipos de dados:

  • Uma sincronização de entidades capta dados específicos da origem de dados externa. Por exemplo, um repositório de dados para um sistema como o Jira pode sincronizar problemas, registos de trabalho, comentários e anexos. As sincronizações de entidades não incluem informações de identidade.

  • Uma sincronização de identidades capta dados sobre contas de utilizadores associadas a um grupo de ACL.

Interação entre a sincronização de identidades e a sincronização completa

Para compreender como uma execução de sincronização de identidades individuais funciona com uma execução de sincronização completa, considere um cenário de exemplo que inclua duas páginas: page_1, associada a um grupo de ACL group_1; e page_2, associada a um grupo de ACL group_2.

  1. É executada uma sincronização de identidade inicial e são obtidas informações sobre os grupos group_1 e group_2.

    • Suponha que group_1 contém o utilizador user_1.

    • Suponha que group_2 contém o utilizador user_2.

    Esta sincronização de identidades estabelece o seguinte mapeamento:

    • user_1 mapeia para group_1.

    • user_2 mapeia para group_2.

  2. Juntamente com a sincronização de identidades, é executada uma sincronização completa que obtém page_1 e page_2.

    Esta sincronização completa estabelece o seguinte mapeamento:

    • A app user_1 tem acesso a page_1 (através da app group_1).

    • A app user_2 tem acesso a page_2 (através da app group_2).

Sincronize horários

Para cada arquivo de dados, pode selecionar uma frequência para diferentes tipos de sincronização:

  • As sincronizações completas de todos os dados de identidade e dados de entidades podem ser agendadas simultaneamente a cada 3 horas, 6 horas, 12 horas, 1 dia ou 3 dias.

  • As sincronizações completas independentes de todos os dados de identidade e as sincronizações completas independentes de todos os dados de entidades podem ser agendadas separadamente através de qualquer uma das seguintes frequências de sincronização personalizadas:

    • Dados de entidades: a cada 3 horas, 6 horas, 12 horas, 1 dia, 3 dias, 5 dias e a cada 7 dias.

    • Dados de identidade: a cada 30 minutos, 1 hora, 3 horas, 6 horas, 12 horas, 1 dia, 3 dias, 5 dias e 7 dias.

  • As sincronizações incrementais de dados de entidades atualizados ou adicionados podem ser agendadas a cada 3 horas, 6 horas, 12 horas, 1 dia, 3 dias, 5 dias ou 7 dias. Por predefinição, é feita uma sincronização incremental a cada 3 horas.

Recomendações de frequência

Escolha uma frequência de sincronização de dados que esteja alinhada com o volume de registos obtidos e as consultas por segundo (QPS) recomendadas.

A tabela seguinte mostra o número típico de registos obtidos para sincronizações de um, três, cinco e sete dias. O número real de registos pode variar consoante a origem de dados e a respetiva configuração.

CPS Volume de registo para sincronização de 1 dia Volume de registos para sincronização de 3 dias Volume de registos para sincronização de 5 dias Volume de registos para sincronização de 7 dias
5 432 mil 1,296 M 2,16 M 3M
10 864 mil 2,592 M 4,32 M 6M
20 1,7 M 5,1 M 8,5 M 11,9 M
50 4,3 M 12,9 M 21,5 M 30,1 M
100 8,6 M 25,8 M 43M 60,2 M

Pausar e retomar sincronizações

Pode pausar e retomar as sincronizações completas e incrementais:

  • Quando pausa um tipo de sincronização, o armazenamento de dados cancela as sincronizações desse tipo em curso e deixa de agendar novas sincronizações desse tipo.

  • Quando retoma um tipo de sincronização, o armazenamento de dados agenda a nova sincronização com base na hora da última sincronização agendada, mas não continua a sincronização interrompida anteriormente.

Por exemplo, se pausar a sincronização completa enquanto esta está a ocorrer, o armazenamento de dados cancela essa sincronização. Se retomar posteriormente a sincronização completa, o repositório de dados agenda automaticamente uma nova sincronização completa de acordo com a programação de sincronização completa.

Origens de dados da Google

Pode estabelecer ligação a origens de dados Google, como o BigQuery, o Spanner e o Google Drive.

Lista de verificação para origens de dados da Google

Antes de enviar dados para o Gemini Enterprise, consulte a seguinte lista de verificação:

Origens de dados da Google compatíveis

Google Drive Gmail Calendário Google Pesquisa de pessoas
O ícone do Google Drive. O ícone do Gmail. O ícone do Calendário Google. O ícone da pesquisa de pessoas.

Origens de dados de terceiros

Os repositórios de dados de terceiros carregam dados de aplicações de terceiros no Gemini Enterprise.

Lista de verificação para origens de dados de terceiros

Antes de associar uma origem de dados de terceiros ao Gemini Enterprise, consulte a seguinte lista de verificação:

  • Têm de ser configurados âmbitos e autorizações específicos para determinadas origens de dados. Um administrador da aplicação de terceiros tem de rever as credenciais necessárias para associar uma origem de dados e configurar a autenticação e as autorizações. Para informações sobre os âmbitos e as autorizações específicos, consulte a documentação da origem de dados de terceiros respetiva.

  • Configure o controlo de acesso para o seu repositório de dados. Para mais informações, consulte o artigo Identidade e autorizações

  • Decida se os dados devem ser federados ou carregados (indexados).

  • Se os dados forem carregados, certifique-se de que os recursos não estão restritos para a credencial de utilizador que usa para carregar dados para a origem de dados.

  • Decida a frequência de sincronização dos dados.

  • Se estiver a usar chaves de encriptação geridas pelo cliente (CMEK), crie chaves multirregionais e de região única. Para mais informações, consulte o artigo Registe chaves de região única para arquivos de dados de terceiros.

  • Se tiver informações de identificação pessoal (PII) e pretender usar o preenchimento automático para sugestões de consultas, consulte o artigo Proteja-se contra fugas de PII.

Origens de dados de terceiros compatíveis

Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
O ícone do Microsoft Entra ID. O ícone do OneDrive. O ícone do Microsoft Outlook. O ícone do SharePoint.
Jira Cloud Confluence Cloud ServiceNow
O ícone do Jira Cloud. O ícone do Confluence Cloud. O ícone do ServiceNow.