Pode criar arquivos de dados a partir de tabelas do BigQuery de duas formas:
Ingestão única: importa dados de uma tabela do BigQuery para um armazenamento de dados. Os dados no repositório de dados não são alterados, a menos que atualize os dados manualmente.
Carregamento periódico: importa dados de uma ou mais tabelas do BigQuery e define uma frequência de sincronização que determina a frequência com que os arquivos de dados são atualizados com os dados mais recentes do conjunto de dados do BigQuery.
A tabela seguinte compara as duas formas de importar dados do BigQuery para os repositórios de dados do Gemini Enterprise.
Carregamento único | Carregamento periódico |
---|---|
Disponível de forma geral (GA). | Pré-visualização pública. |
Os dados têm de ser atualizados manualmente. | Os dados são atualizados automaticamente a cada 1, 3 ou 5 dias. Não é possível atualizar os dados manualmente. |
O Gemini Enterprise cria um único repositório de dados a partir de uma tabela no BigQuery. | O Gemini Enterprise cria um conector de dados para um conjunto de dados do BigQuery e um repositório de dados (denominado repositório de dados de entidades) para cada tabela especificada. Para cada conetor de dados, as tabelas têm de ter o mesmo tipo de dados (por exemplo, estruturados) e estar no mesmo conjunto de dados do BigQuery. |
Pode combinar dados de várias tabelas num único armazenamento de dados. Para tal, primeiro, ingira dados de uma tabela e, em seguida, mais dados de outra origem ou tabela do BigQuery. | Uma vez que a importação manual de dados não é suportada, os dados num arquivo de dados de entidades só podem ser provenientes de uma tabela do BigQuery. |
O controlo de acesso à origem de dados é suportado. | O controlo de acesso à origem de dados não é suportado. Os dados importados podem conter controlos de acesso, mas estes controlos não são respeitados. |
Pode criar um arquivo de dados através da Google Cloud consola ou da API. | Tem de usar a consola para criar conetores de dados e os respetivos armazenamentos de dados de entidades. |
Em conformidade com as CMEK. | Em conformidade com as CMEK. |
Importe uma vez a partir do BigQuery
Para carregar dados de uma tabela do BigQuery, siga estes passos para criar um repositório de dados e carregar dados através da Google Cloud consola ou da API.
Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.
Consola
Para usar a Google Cloud consola para carregar dados do BigQuery, siga estes passos:
Na Google Cloud consola, aceda à página Gemini Enterprise.
Aceda à página Armazenamentos de dados.
Clique em Criar arquivo de dados.
Na página Selecione uma origem de dados, selecione BigQuery.
Selecione o tipo de dados que está a importar.
Clique em Uma vez.
No campo Caminho do BigQuery, clique em Procurar, selecione uma tabela que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização da tabela diretamente no campo Caminho do BigQuery.
Clique em Continuar.
Se estiver a fazer uma importação única de dados estruturados:
Mapeie campos para propriedades principais.
Se faltarem campos importantes no esquema, use Adicionar novo campo para os adicionar.
Para mais informações, consulte o artigo Acerca da deteção e edição automáticas.
Clique em Continuar.
Escolha uma região para o seu repositório de dados.
Introduza um nome para o arquivo de dados.
Clique em Criar.
Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do armazenamento de dados para ver os respetivos detalhes na página Dados. Quando a coluna de estado no separador Atividade muda de Em curso para Importação concluída, a ingestão está concluída.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos a várias horas.
REST
Para usar a linha de comandos para criar um arquivo de dados e importar dados do BigQuery, siga estes passos.
Crie um repositório de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto.DATA_STORE_ID
: o ID do armazenamento de dados que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.DATA_STORE_DISPLAY_NAME
: o nome a apresentar da base de dados que quer criar.
Opcional: se estiver a carregar dados não estruturados e quiser configurar a análise de documentos ou ativar a divisão de documentos em partes para a RAG, especifique o objeto
documentProcessingConfig
e inclua-o no seu pedido de criação do arquivo de dados. Recomendamos que configure um analisador de OCR para PDFs se estiver a carregar PDFs digitalizados. Para saber como configurar as opções de análise ou divisão, consulte o artigo Analise e divida documentos.Importe dados do BigQuery.
Se definiu um esquema, certifique-se de que os dados estão em conformidade com esse esquema.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto.DATA_STORE_ID
: o ID do armazenamento de dados.DATASET_ID
: o ID do conjunto de dados do BigQuery.TABLE_ID
: o ID da tabela do BigQuery.- Se a tabela do BigQuery não estiver em
PROJECT_ID
, tem de conceder à conta de serviçoservice-<project number>@gcp-sa-discoveryengine.
a autorização "Visualizador de dados do BigQuery" para a tabela do BigQuery. Por exemplo, se estiver a importar uma tabela do BigQuery do projeto de origem "123" para o projeto de destino "456", concedaservice-456@gcp-sa-discoveryengine.
autorizações para a tabela do BigQuery no projeto "123".
- Se a tabela do BigQuery não estiver em
DATA_SCHEMA
: opcional. Os valores sãodocument
ecustom
. A predefinição édocument
.- : a tabela do BigQuery que usa tem de estar em conformidade com o esquema predefinido do BigQuery fornecido em Prepare os dados para carregamento.
document
Pode definir o ID de cada documento, enquanto envolve todos os dados na string jsonData. custom
: É aceite qualquer esquema de tabela do BigQuery, e o Gemini Enterprise gera automaticamente os IDs de cada documento importado.
- : a tabela do BigQuery que usa tem de estar em conformidade com o esquema predefinido do BigQuery fornecido em Prepare os dados para carregamento.
ERROR_DIRECTORY
: opcional. Um diretório do Cloud Storage para informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. A Google recomenda deixar este campo vazio para permitir que o Gemini Enterprise crie automaticamente um diretório temporário.RECONCILIATION_MODE
: opcional. Os valores sãoFULL
eINCREMENTAL
. A predefinição éINCREMENTAL
. A especificação deINCREMENTAL
faz com que os dados do BigQuery sejam atualizados incrementalmente para o seu repositório de dados. Esta ação faz uma operação de upsert, que adiciona novos documentos e substitui os documentos existentes por documentos atualizados com o mesmo ID. A especificação deFULL
provoca uma nova base completa dos documentos no seu armazenamento de dados. Por outras palavras, os documentos novos e atualizados são adicionados ao seu arquivo de dados, e os documentos que não estão no BigQuery são removidos do seu arquivo de dados. O modoFULL
é útil se quiser eliminar automaticamente documentos de que já não precisa.AUTO_GENERATE_IDS
: opcional. Especifica se os IDs dos documentos devem ser gerados automaticamente. Se estiver definido comotrue
, os IDs dos documentos são gerados com base num hash da carga útil. Tenha em atenção que os IDs dos documentos gerados podem não permanecer consistentes em várias importações. Se gerar automaticamente IDs em várias importações, a Google recomenda vivamente que definareconciliationMode
comoFULL
para manter IDs de documentos consistentes.Especifique
autoGenerateIds
apenas quandobigquerySource.dataSchema
estiver definido comocustom
. Caso contrário, é devolvido um erroINVALID_ARGUMENT
. Se não especificarautoGenerateIds
ou o definir comofalse
, tem de especificaridField
. Caso contrário, a importação dos documentos falha.ID_FIELD
: opcional. Especifica os campos que são os IDs dos documentos. Para ficheiros de origem do BigQuery,idField
indica o nome da coluna na tabela do BigQuery que contém os IDs dos documentos.Especifique
idField
apenas quando: (1)bigquerySource.dataSchema
estiver definido comocustom
e (2)auto_generate_ids
estiver definido comofalse
ou não estiver especificado. Caso contrário, é devolvido um erroINVALID_ARGUMENT
.O valor do nome da coluna do BigQuery tem de ser do tipo string, ter entre 1 e 63 carateres e estar em conformidade com a RFC-1034. Caso contrário, a importação dos documentos falha.
Associe ao BigQuery com sincronização periódica
Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.
O procedimento seguinte descreve como criar um repositório de dados do BigQuery que sincroniza periodicamente os dados de um conjunto de dados do BigQuery. Se o seu conjunto de dados tiver várias tabelas, pode adicioná-las ao repositório de dados do BigQuery que está a criar. Cada tabela que adicionar é denominada entidade. O Gemini Enterprise cria um armazenamento de dados separado para cada entidade. Por conseguinte, quando cria o arquivo de dados através da Google Cloud consola, recebe uma coleção de arquivos de dados que representam estas entidades de dados carregadas.
Os dados do conjunto de dados são sincronizados periodicamente com os arquivos de dados de entidades. Pode especificar a sincronização diariamente, a cada três dias ou a cada cinco dias.
Consola
Para criar um arquivo de dados que sincronize periodicamente os dados de um conjunto de dados do BigQuery para o Gemini Enterprise, siga estes passos:
Na Google Cloud consola, aceda à página Gemini Enterprise.
No menu de navegação, clique em Armazenamentos de dados.
Clique em Criar arquivo de dados.
Na página Origem, selecione BigQuery.
Selecione o tipo de dados que está a importar.
Clique em Periódico.
Selecione a Frequência de sincronização, ou seja, a frequência com que quer que o conector do Gemini Enterprise seja sincronizado com o conjunto de dados do BigQuery. Pode alterar a frequência mais tarde.
No campo Caminho do conjunto de dados do BigQuery, clique em Procurar, selecione o conjunto de dados que contém as tabelas que preparou para carregar. Em alternativa, introduza a localização da tabela diretamente no campo Caminho do BigQuery. O formato do caminho é
projectname.datasetname
.No campo Tabelas a sincronizar, clique em Procurar e, de seguida, selecione uma tabela que contenha os dados que quer para o seu repositório de dados.
Se existirem tabelas adicionais no conjunto de dados que quer usar para armazenamentos de dados, clique em Adicionar tabela e especifique também essas tabelas.
Clique em Continuar.
Escolha uma região para o seu repositório de dados, introduza um nome para o conector de dados e clique em Criar.
Criou um conetor de dados que vai sincronizar periodicamente os dados com o conjunto de dados do BigQuery. Além disso, criou uma ou mais lojas de dados de entidades. Os armazenamentos de dados têm os mesmos nomes que as tabelas do BigQuery.
Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do conetor de dados para ver os respetivos detalhes na página Dados > separador Atividade de carregamento de dados. Quando a coluna de estado no separador Atividade muda de Em curso para Concluído, a primeira carregamento está concluído.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos a várias horas.
Depois de configurar a origem de dados e importar dados pela primeira vez, o armazenamento de dados sincroniza os dados dessa origem com uma frequência que seleciona durante a configuração. Cerca de uma hora após a criação do conetor de dados, ocorre a primeira sincronização. A sincronização seguinte ocorre cerca de 24 horas, 72 horas ou 120 horas mais tarde.
Passos seguintes
Para anexar o seu arquivo de dados a uma app, crie uma app e selecione o seu arquivo de dados seguindo os passos em Crie uma app de pesquisa.
Para pré-visualizar a apresentação dos resultados da pesquisa após a configuração da app e do arquivo de dados, consulte o artigo Pré-visualizar resultados da pesquisa.