Para criar um repositório de dados e carregar dados para recomendações personalizadas, aceda à secção da origem que planeia usar:
BigQuery
Pode criar arquivos de dados a partir de tabelas do BigQuery de duas formas:
Ingestão única: importa dados de uma tabela do BigQuery para um armazenamento de dados. Os dados no repositório de dados não são alterados, a menos que atualize os dados manualmente.
Ingestão periódica: importa dados de uma ou mais tabelas do BigQuery e define uma frequência de sincronização que determina a frequência com que os arquivos de dados são atualizados com os dados mais recentes do conjunto de dados do BigQuery.
A tabela seguinte compara as duas formas de importar dados do BigQuery para os repositórios de dados do Vertex AI Search.
Carregamento único | Carregamento periódico |
---|---|
Disponível globalmente (DG). | Pré-visualização pública. |
Os dados têm de ser atualizados manualmente. | Os dados são atualizados automaticamente a cada 1, 3 ou 5 dias. Não é possível atualizar os dados manualmente. |
O Vertex AI Search cria um único repositório de dados a partir de uma tabela no BigQuery. | O Vertex AI Search cria um conetor de dados para um conjunto de dados do BigQuery e um arquivo de dados (denominado arquivo de dados de entidades) para cada tabela especificada. Para cada conetor de dados, as tabelas têm de ter o mesmo tipo de dados (por exemplo, estruturados) e estar no mesmo conjunto de dados do BigQuery. |
Pode combinar dados de várias tabelas num único armazenamento de dados. Para tal, primeiro, ingira dados de uma tabela e, em seguida, mais dados de outra origem ou tabela do BigQuery. | Uma vez que a importação manual de dados não é suportada, os dados num arquivo de dados de entidades só podem ser provenientes de uma tabela do BigQuery. |
O controlo de acesso à origem de dados é suportado. | O controlo de acesso à origem de dados não é suportado. Os dados importados podem conter controlos de acesso, mas estes controlos não são respeitados. |
Pode criar um arquivo de dados através da Google Cloud consola ou da API. | Tem de usar a consola para criar conetores de dados e os respetivos armazenamentos de dados de entidades. |
Em conformidade com as CMEK. | Em conformidade com as CMEK. |
Importe uma vez a partir do BigQuery
Para carregar dados de uma tabela do BigQuery, siga estes passos para criar um repositório de dados e carregar dados através da Google Cloud consola ou da API.
Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.
Consola
Para usar a Google Cloud consola para carregar dados do BigQuery, siga estes passos:
Na Google Cloud consola, aceda à página Aplicações de IA.
Aceda à página Armazenamentos de dados.
Clique em
Criar arquivo de dados.Na página Origem, selecione BigQuery.
Selecione o tipo de dados que vai importar na secção Que tipo de dados está a importar.
Selecione Uma vez na secção Frequência de sincronização.
No campo Caminho do BigQuery, clique em Procurar, selecione uma tabela que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização da tabela diretamente no campo Caminho do BigQuery.
Clique em Continuar.
Se estiver a fazer uma importação única de dados estruturados:
Mapeie campos para propriedades principais.
Se faltarem campos importantes no esquema, use Adicionar novo campo para os adicionar.
Para mais informações, consulte o artigo Acerca da deteção e edição automáticas.
Clique em Continuar.
Escolha uma região para o seu repositório de dados.
Introduza um nome para o seu repositório de dados.
Clique em Criar.
Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do armazenamento de dados para ver os respetivos detalhes na página Dados. Quando a coluna de estado no separador Atividade muda de Em curso para Importação concluída, a ingestão está concluída.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos a várias horas.
REST
Para usar a linha de comandos para criar um arquivo de dados e importar dados do BigQuery, siga estes passos.
Crie um arquivo de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.DATA_STORE_DISPLAY_NAME
: o nome a apresentar do arquivo de dados do Vertex AI que quer criar.
Importar dados do BigQuery.
Se definiu um esquema, certifique-se de que os dados estão em conformidade com esse esquema.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search.DATASET_ID
: o ID do conjunto de dados do BigQuery.TABLE_ID
: o ID da tabela do BigQuery.- Se a tabela do BigQuery não estiver em
PROJECT_ID, tem de conceder à conta de serviço
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
autorização "Visualizador de dados do BigQuery" para a tabela do BigQuery. Por exemplo, se estiver a importar uma tabela do BigQuery do projeto de origem "123" para o projeto de destino "456", conceda autorizaçõesservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
para a tabela do BigQuery no projeto "123".
- Se a tabela do BigQuery não estiver em
PROJECT_ID, tem de conceder à conta de serviço
DATA_SCHEMA
: opcional. Os valores sãodocument
ecustom
. A predefinição édocument
.- : a tabela do BigQuery que usa tem de estar em conformidade com o esquema predefinido do BigQuery fornecido em Prepare os dados para carregamento.
document
Pode definir o ID de cada documento, enquanto envolve todos os dados na string jsonData. custom
: É aceite qualquer esquema de tabela do BigQuery, e a Pesquisa do Vertex AI gera automaticamente os IDs de cada documento importado.
- : a tabela do BigQuery que usa tem de estar em conformidade com o esquema predefinido do BigQuery fornecido em Prepare os dados para carregamento.
ERROR_DIRECTORY
: opcional. Um diretório do Cloud Storage com informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. A Google recomenda deixar este campo vazio para permitir que a Vertex AI Search crie automaticamente um diretório temporário.RECONCILIATION_MODE
: opcional. Os valores sãoFULL
eINCREMENTAL
. A predefinição éINCREMENTAL
. A especificação deINCREMENTAL
provoca uma atualização incremental dos dados do BigQuery para o seu repositório de dados. Esta ação faz uma operação de inserção/atualização, que adiciona novos documentos e substitui os documentos existentes por documentos atualizados com o mesmo ID. A especificação deFULL
provoca uma nova base completa dos documentos no seu armazenamento de dados. Por outras palavras, os documentos novos e atualizados são adicionados ao seu repositório de dados, e os documentos que não estão no BigQuery são removidos do seu repositório de dados. O modoFULL
é útil se quiser eliminar automaticamente documentos de que já não precisa.AUTO_GENERATE_IDS
: opcional. Especifica se os IDs dos documentos devem ser gerados automaticamente. Se estiver definido comotrue
, os IDs dos documentos são gerados com base num hash da carga útil. Tenha em atenção que os IDs dos documentos gerados podem não permanecer consistentes em várias importações. Se gerar automaticamente IDs em várias importações, a Google recomenda vivamente que definareconciliationMode
comoFULL
para manter IDs de documentos consistentes.Especifique
autoGenerateIds
apenas quandobigquerySource.dataSchema
estiver definido comocustom
. Caso contrário, é devolvido um erroINVALID_ARGUMENT
. Se não especificarautoGenerateIds
ou o definir comofalse
, tem de especificaridField
. Caso contrário, não é possível importar os documentos.ID_FIELD
: opcional. Especifica os campos que são os IDs dos documentos. Para ficheiros de origem do BigQuery,idField
indica o nome da coluna na tabela do BigQuery que contém os IDs dos documentos.Especifique
idField
apenas quando: (1)bigquerySource.dataSchema
estiver definido comocustom
e (2)auto_generate_ids
estiver definido comofalse
ou não estiver especificado. Caso contrário, é devolvido um erroINVALID_ARGUMENT
.O valor do nome da coluna do BigQuery tem de ser do tipo string, ter entre 1 e 63 carateres e estar em conformidade com a RFC-1034. Caso contrário, a importação dos documentos falha.
C#
Para mais informações, consulte a documentação de referência da API C# de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Go
Para mais informações, consulte a documentação de referência da API Go de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Java
Para mais informações, consulte a documentação de referência da API Java de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Node.js
Para mais informações, consulte a documentação de referência da API Node.js de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Python
Para mais informações, consulte a documentação de referência da API Python de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Ruby
Para mais informações, consulte a documentação de referência da API Ruby de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Associe ao BigQuery com sincronização periódica
Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.
O procedimento seguinte descreve como criar um conetor de dados que associa um conjunto de dados do BigQuery a um conetor de dados do Vertex AI Search e como especificar uma tabela no conjunto de dados para cada arquivo de dados que quer criar. Os arquivos de dados que são filhos de conetores de dados são denominados arquivos de dados de entidades.
Os dados do conjunto de dados são sincronizados periodicamente com os arquivos de dados de entidades. Pode especificar a sincronização diariamente, a cada três dias ou a cada cinco dias.
Consola
Para usar a Google Cloud consola para criar um conetor que sincronize periodicamente os dados de um conjunto de dados do BigQuery para a Pesquisa da Vertex AI, siga estes passos:
Na Google Cloud consola, aceda à página Aplicações de IA.
No menu de navegação, clique em Armazenamentos de dados.
Clique em Criar arquivo de dados.
Na página Origem, selecione BigQuery.
Selecione o tipo de dados que está a importar.
Clique em Periódico.
Selecione a Frequência de sincronização, ou seja, a frequência com que quer que o conector do Vertex AI Search seja sincronizado com o conjunto de dados do BigQuery. Pode alterar a frequência mais tarde.
No campo Caminho do conjunto de dados do BigQuery, clique em Procurar, selecione o conjunto de dados que contém as tabelas que preparou para o carregamento. Em alternativa, introduza a localização da tabela diretamente no campo Caminho do BigQuery. O formato do caminho é
projectname.datasetname
.No campo Tabelas a sincronizar, clique em Procurar e, de seguida, selecione uma tabela que contenha os dados que quer para o seu repositório de dados.
Se existirem tabelas adicionais no conjunto de dados que quer usar para armazenamentos de dados, clique em Adicionar tabela e especifique também essas tabelas.
Clique em Continuar.
Escolha uma região para o seu repositório de dados, introduza um nome para o conetor de dados e clique em Criar.
Criou um conetor de dados que vai sincronizar periodicamente os dados com o conjunto de dados do BigQuery. Além disso, criou uma ou mais lojas de dados de entidades. Os armazenamentos de dados têm os mesmos nomes que as tabelas do BigQuery.
Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do conetor de dados para ver os respetivos detalhes na página Dados > separador Atividade de carregamento de dados. Quando a coluna de estado no separador Atividade muda de Em curso para Concluído, a primeira importação está concluída.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos a várias horas.
Depois de configurar a origem de dados e importar dados pela primeira vez, o armazenamento de dados sincroniza os dados dessa origem com uma frequência que seleciona durante a configuração. Cerca de uma hora após a criação do conetor de dados, ocorre a primeira sincronização. A sincronização seguinte ocorre cerca de 24 horas, 72 horas ou 120 horas mais tarde.
Passos seguintes
Para anexar o seu repositório de dados a uma app, crie uma app e selecione o seu repositório de dados seguindo os passos em Crie uma app de recomendações personalizada.
Para pré-visualizar ou receber recomendações depois de configurar a app e o arquivo de dados, consulte Receba recomendações.
Cloud Storage
Pode criar arquivos de dados a partir de tabelas do Cloud Storage de duas formas:
Carregamento único: importa dados de uma pasta ou de um ficheiro do Cloud Storage para um arquivo de dados. Os dados no repositório de dados não são alterados, a menos que atualize os dados manualmente.
Carregamento periódico: importa dados de uma pasta ou de um ficheiro do Cloud Storage e define uma frequência de sincronização que determina a frequência com que o repositório de dados é atualizado com os dados mais recentes dessa localização do Cloud Storage.
A tabela seguinte compara as duas formas de importar dados do Cloud Storage para os arquivos de dados do Vertex AI Search.
Carregamento único | Carregamento periódico |
---|---|
Disponível globalmente (DG). | Pré-visualização pública. |
Os dados têm de ser atualizados manualmente. | Os dados são atualizados automaticamente a cada um, três ou cinco dias. Não é possível atualizar os dados manualmente. |
O Vertex AI Search cria um único repositório de dados a partir de uma pasta ou um ficheiro no Cloud Storage. | O Vertex AI Search cria um conetor de dados e associa-lhe um arquivo de dados (denominado arquivo de dados de entidades) para o ficheiro ou a pasta especificados. Cada conetor de dados do Cloud Storage pode ter um único arquivo de dados de entidades. |
Os dados de vários ficheiros, pastas e contentores podem ser combinados num único repositório de dados. Para tal, comece por carregar dados de uma localização do Cloud Storage e, em seguida, carregue mais dados de outra localização. | Uma vez que a importação manual de dados não é suportada, os dados num arquivo de dados de entidades só podem ser provenientes de um ficheiro ou uma pasta do Cloud Storage. |
O controlo de acesso à origem de dados é suportado. Para mais informações, consulte o artigo Controlo de acesso à origem de dados. | O controlo de acesso à origem de dados não é suportado. Os dados importados podem conter controlos de acesso, mas estes controlos não são respeitados. |
Pode criar um arquivo de dados através da Google Cloud consola ou da API. | Tem de usar a consola para criar conetores de dados e os respetivos armazenamentos de dados de entidades. |
Em conformidade com as CMEK. | Em conformidade com as CMEK. |
Importe uma vez a partir do Cloud Storage
Para carregar dados do Cloud Storage, siga estes passos para criar um arquivo de dados e carregar dados através da Google Cloud consola ou da API.
Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.
Consola
Para usar a consola para carregar dados de um contentor do Cloud Storage, siga estes passos:
Na Google Cloud consola, aceda à página Aplicações de IA.
Aceda à página Armazenamentos de dados.
Clique em
Criar arquivo de dados.Na página Origem, selecione Cloud Storage.
Na secção Selecione uma pasta ou um ficheiro que quer importar, selecione Pasta ou Ficheiro.
Clique em Procurar e escolha os dados que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização diretamente no campo
gs://
.Selecione o tipo de dados que está a importar.
Clique em Continuar.
Se estiver a fazer uma importação única de dados estruturados:
Mapeie campos para propriedades principais.
Se faltarem campos importantes no esquema, use Adicionar novo campo para os adicionar.
Para mais informações, consulte o artigo Acerca da deteção e edição automáticas.
Clique em Continuar.
Escolha uma região para o seu repositório de dados.
Introduza um nome para o seu repositório de dados.
Opcional: se selecionou documentos não estruturados, pode selecionar opções de análise e divisão em blocos para os seus documentos. Para comparar analisadores, consulte o artigo Analise documentos. Para obter informações sobre a divisão em partes, consulte o artigo Divida documentos para a geração aumentada por recuperação (RAG).
O analisador de OCR e o analisador de esquemas podem incorrer em custos adicionais. Consulte os preços das funcionalidades de IA do Document AI.
Para selecionar um analisador, expanda Opções de processamento de documentos e especifique as opções do analisador que quer usar.
Clique em Criar.
Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do armazenamento de dados para ver os respetivos detalhes na página Dados. Quando a coluna de estado no separador Atividade muda de Em curso para Importação concluída, a ingestão está concluída.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos ou várias horas.
REST
Para usar a linha de comandos para criar um arquivo de dados e carregar dados do Cloud Storage, siga estes passos.
Crie um arquivo de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.DATA_STORE_DISPLAY_NAME
: o nome a apresentar do arquivo de dados do Vertex AI que quer criar.
Importe dados do Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search.INPUT_FILE_PATTERN
: um padrão de ficheiro no Cloud Storage que contém os seus documentos.Para dados estruturados ou dados não estruturados com metadados, um exemplo do padrão de ficheiro de entrada é
gs://<your-gcs-bucket>/directory/object.json
e um exemplo de padrão que corresponde a um ou mais ficheiros égs://<your-gcs-bucket>/directory/*.json
.Para documentos não estruturados, um exemplo é
gs://<your-gcs-bucket>/directory/*.pdf
. Cada ficheiro que corresponda ao padrão torna-se um documento.Se
<your-gcs-bucket>
não estiver em PROJECT_ID, tem de conceder à conta de serviçoservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
autorizações de "Visualizador de objetos do Storage" para o contentor do Cloud Storage. Por exemplo, se estiver a importar um contentor do Cloud Storage do projeto de origem "123" para o projeto de destino "456", conceda autorizaçõesservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
no contentor do Cloud Storage no projeto "123".DATA_SCHEMA
: opcional. Os valores sãodocument
,custom
,csv
econtent
. A predefinição édocument
.document
: carregue dados não estruturados com metadados para documentos não estruturados. Cada linha do ficheiro tem de seguir um dos seguintes formatos. Pode definir o ID de cada documento:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: carregue JSON para documentos estruturados. Os dados são organizados de acordo com um esquema. Pode especificar o esquema; caso contrário, é detetado automaticamente. Pode colocar a string JSON do documento num formato consistente diretamente em cada linha e o Vertex AI Search gera automaticamente os IDs para cada documento importado.content
: carregue documentos não estruturados (PDF, HTML, DOC, TXT e PPTX). O ID de cada documento é gerado automaticamente como os primeiros 128 bits de SHA256(GCS_URI) codificados como uma string hexadecimal. Pode especificar vários padrões de ficheiros de entrada, desde que os ficheiros correspondentes não excedam o limite de 100 000 ficheiros.csv
: inclua uma linha de cabeçalho no ficheiro CSV, com cada cabeçalho mapeado para um campo do documento. Especifique o caminho para o ficheiro CSV através do campoinputUris
.
ERROR_DIRECTORY
: opcional. Um diretório do Cloud Storage para informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. A Google recomenda deixar este campo vazio para permitir que a Vertex AI Search crie automaticamente um diretório temporário.RECONCILIATION_MODE
: opcional. Os valores sãoFULL
eINCREMENTAL
. A predefinição éINCREMENTAL
. A especificação deINCREMENTAL
provoca uma atualização incremental dos dados do Cloud Storage para o seu repositório de dados. Esta ação faz uma operação de inserção/atualização, que adiciona novos documentos e substitui os documentos existentes por documentos atualizados com o mesmo ID. A especificação deFULL
provoca uma nova base completa dos documentos no seu armazenamento de dados. Por outras palavras, os documentos novos e atualizados são adicionados ao seu repositório de dados, e os documentos que não estão no Cloud Storage são removidos do seu repositório de dados. O modoFULL
é útil se quiser eliminar automaticamente documentos de que já não precisa.AUTO_GENERATE_IDS
: opcional. Especifica se os IDs dos documentos devem ser gerados automaticamente. Se estiver definido comotrue
, os IDs dos documentos são gerados com base num hash da carga útil. Tenha em atenção que os IDs dos documentos gerados podem não permanecer consistentes em várias importações. Se gerar automaticamente IDs em várias importações, a Google recomenda vivamente definirreconciliationMode
comoFULL
para manter IDs de documentos consistentes.Especifique
autoGenerateIds
apenas quandogcsSource.dataSchema
estiver definido comocustom
oucsv
. Caso contrário, é devolvido um erroINVALID_ARGUMENT
. Se não especificarautoGenerateIds
ou o definir comofalse
, tem de especificaridField
. Caso contrário, a importação dos documentos falha.ID_FIELD
: opcional. Especifica os campos que são os IDs dos documentos. Para documentos de origem do Cloud Storage,idField
especifica o nome nos campos JSON que são IDs de documentos. Por exemplo, se{"my_id":"some_uuid"}
for o campo de ID do documento num dos seus documentos, especifique"idField":"my_id"
. Isto identifica todos os campos JSON com o nome"my_id"
como IDs de documentos.Especifique este campo apenas quando: (1)
gcsSource.dataSchema
estiver definido comocustom
oucsv
e (2)auto_generate_ids
estiver definido comofalse
ou não estiver especificado. Caso contrário, é devolvido um erroINVALID_ARGUMENT
.Tenha em atenção que o valor do campo JSON do Google Cloud Storage tem de ser do tipo string, ter entre 1 e 63 carateres e estar em conformidade com a RFC-1034. Caso contrário, a importação dos documentos falha.
Tenha em atenção que o nome do campo JSON especificado por
id_field
tem de ser do tipo string, ter entre 1 e 63 carateres e estar em conformidade com a RFC-1034. Caso contrário, a importação dos documentos falha.
C#
Para mais informações, consulte a documentação de referência da API C# de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Go
Para mais informações, consulte a documentação de referência da API Go de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Java
Para mais informações, consulte a documentação de referência da API Java de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Node.js
Para mais informações, consulte a documentação de referência da API Node.js de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Python
Para mais informações, consulte a documentação de referência da API Python de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Ruby
Para mais informações, consulte a documentação de referência da API Ruby de aplicações de IA.
Para se autenticar em aplicações de IA, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Crie um arquivo de dados
Importe documentos
Estabeleça ligação ao Cloud Storage com sincronização periódica
Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.
O procedimento seguinte descreve como criar um conetor de dados que associa uma localização do Cloud Storage a um conetor de dados do Vertex AI Search e como especificar uma pasta ou um ficheiro nessa localização para o repositório de dados que quer criar. Os repositórios de dados que são filhos de conetores de dados são denominados repositórios de dados de entidades.
Os dados são sincronizados periodicamente com o repositório de dados de entidades. Pode especificar a sincronização diária, a cada três dias ou a cada cinco dias.
Consola
Na Google Cloud consola, aceda à página Aplicações de IA.
Aceda à página Armazenamentos de dados.
Clique em Criar arquivo de dados.
Na página Origem, selecione Cloud Storage.
Selecione o tipo de dados que está a importar.
Clique em Periódico.
Selecione a Frequência de sincronização, ou seja, a frequência com que quer que o conector do Vertex AI Search seja sincronizado com a localização do Cloud Storage. Pode alterar a frequência mais tarde.
Na secção Selecione uma pasta ou um ficheiro que quer importar, selecione Pasta ou Ficheiro.
Clique em Procurar e escolha os dados que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização diretamente no campo
gs://
.Clique em Continuar.
Escolha uma região para o conetor de dados.
Introduza um nome para o conetor de dados.
Opcional: se selecionou documentos não estruturados, pode selecionar opções de análise e divisão em blocos para os seus documentos. Para comparar analisadores, consulte o artigo Analise documentos. Para obter informações sobre a divisão em partes, consulte o artigo Divida documentos para a geração aumentada por recuperação (RAG).
O analisador de OCR e o analisador de esquemas podem incorrer em custos adicionais. Consulte os preços das funcionalidades de IA do Document AI.
Para selecionar um analisador, expanda Opções de processamento de documentos e especifique as opções do analisador que quer usar.
Clique em Criar.
Criou um conetor de dados que vai sincronizar periodicamente os dados com a localização do Cloud Storage. Também criou um arquivo de dados de entidades com o nome
gcs_store
.Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do conetor de dados para ver os respetivos detalhes na página Dados.
Separador Atividade de carregamento de dados. Quando a coluna de estado no separador Atividade de carregamento de dados muda de Em curso para Concluído com êxito, o primeiro carregamento está concluído.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos a várias horas.
Depois de configurar a origem de dados e importar dados pela primeira vez, os dados são sincronizados a partir dessa origem com uma frequência que seleciona durante a configuração. Cerca de uma hora após a criação do conetor de dados, ocorre a primeira sincronização. A sincronização seguinte ocorre cerca de 24 horas, 72 horas ou 120 horas mais tarde.
Passos seguintes
Para anexar o seu repositório de dados a uma app, crie uma app e selecione o seu repositório de dados seguindo os passos em Crie uma app de recomendações personalizada.
Para pré-visualizar ou receber recomendações depois de configurar a app e o arquivo de dados, consulte Receba recomendações.
Carregue dados JSON estruturados com a API
Para carregar diretamente um documento ou um objeto JSON através da API, siga estes passos.
Antes de importar os dados, prepare os dados para carregamento.
REST
Para usar a linha de comandos para criar um repositório de dados e importar dados JSON estruturados, siga estes passos:
Crie um arquivo de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do armazenamento de dados de recomendações que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.DATA_STORE_DISPLAY_NAME
: o nome a apresentar da loja de dados de recomendações que quer criar.
Opcional: forneça o seu próprio esquema. Quando fornece um esquema, normalmente obtém melhores resultados. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do armazenamento de dados de recomendações.JSON_SCHEMA_OBJECT
: o seu esquema JSON como um objeto JSON, por exemplo:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importe dados estruturados em conformidade com o esquema definido.
Existem algumas abordagens que pode usar para carregar dados, incluindo:
Carregue um documento JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Substitua
JSON_DOCUMENT_STRING
pelo documento JSON como uma única string. Isto tem de estar em conformidade com o esquema JSON que forneceu no passo anterior, por exemplo:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Carregue um objeto JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Substitua
JSON_DOCUMENT_OBJECT
pelo documento JSON como um objeto JSON. Isto tem de estar em conformidade com o esquema JSON que forneceu no passo anterior. Por exemplo:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Atualize com um documento JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Atualize com um objeto JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Passos seguintes
Para anexar o seu repositório de dados a uma app, crie uma app e selecione o seu repositório de dados seguindo os passos em Crie uma app de recomendações personalizada.
Para pré-visualizar o aspeto das recomendações depois de configurar a app e o repositório de dados, consulte o artigo Receba recomendações.
Crie um repositório de dados com o Terraform
Pode usar o Terraform para criar um arquivo de dados vazio. Depois de criar o arquivo de dados vazio, pode introduzir dados no arquivo de dados através da Google Cloud consola ou de comandos da API.
Para saber como aplicar ou remover uma configuração do Terraform, consulte os comandos básicos do Terraform.
Para criar um arquivo de dados vazio com o Terraform, consulte
google_discovery_engine_data_store
.