Esta página explica como criar um repositório de dados para multimédia e importar dados para o mesmo.
Antes de começar
Certifique-se de que faz o seguinte:
Reveja os conceitos relacionados com os dados de multimédia e o esquema:
Decida se está a usar o esquema Google predefinido para os seus dados de multimédia ou o seu próprio esquema.
Se estiver a usar o seu próprio esquema, certifique-se de que este tem campos que mapeiam bem as propriedades de multimédia para o esquema personalizado:
title
,url
,category
e assim sucessivamente.Coloque os seus documentos multimédia no esquema JSON e carregue os dados para o BigQuery ou o Cloud Storage.
Reveja o artigo Acerca dos eventos do utilizador de multimédia e prepare os eventos do utilizador para importação. Os eventos de utilizador são obrigatórios para todas as apps de multimédia.
Escolha o procedimento de acordo com a sua origem de dados
Para criar um repositório de dados multimédia e importar documentos, aceda à secção da origem que planeia usar:
Importação a partir do BigQuery
Consola
Para usar a Google Cloud consola para criar um arquivo de dados de multimédia e importar documentos e eventos do utilizador do BigQuery, siga estes passos:
Na Google Cloud consola, aceda à página Aplicações de IA.
Aceda à página Armazenamentos de dados.
Clique em Criar arquivo de dados.
Na página Origem, selecione BigQuery.
Selecione Conteúdo multimédia – Tabela do BigQuery com dados multimédia estruturados como o tipo de dados que está a importar.
No campo Caminho do BigQuery, clique em Procurar, selecione os dados do BigQuery que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização diretamente no campo Caminho do BigQuery.
Se os seus dados estiverem no esquema predefinido da Google, escolha Esquema predefinido da Google, clique em Continuar e avance para o passo 11.
Se os seus dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.
Reveja o esquema detetado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.
Clique em Continuar.
Não pode continuar até que as propriedades de chave necessárias sejam mapeadas, o que é indicado por marcas de verificação verdes
em vez de marcas de aviso laranja .Introduza um nome para o seu repositório de dados e clique em Criar.
Importe a partir do Cloud Storage
Consola
Para usar a Google Cloud consola para criar um arquivo de dados multimédia e importar documentos do Cloud Storage, siga estes passos:
Na Google Cloud consola, aceda à página Aplicações de IA.
Aceda à página Armazenamentos de dados.
Clique em Criar arquivo de dados.
Na página Origem, selecione Cloud Storage.
Selecione Dados de multimédia estruturados (JSONL com ficheiros multimédia) como o tipo de dados que está a importar.
Na secção Selecione uma pasta ou um ficheiro que quer importar, selecione Pasta ou Ficheiro.
Clique em Procurar e escolha os dados que preparou para carregamento. Em seguida, clique em Selecionar. Em alternativa, introduza a localização diretamente no campo
gs://
.Se os seus dados estiverem no esquema predefinido da Google, escolha Esquema predefinido da Google, clique em Continuar e avance para o passo 11.
Se os seus dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.
Reveja o esquema detetado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.
Clique em Continuar.
Não pode continuar até que as propriedades de chave necessárias sejam mapeadas, o que é indicado por marcas de verificação verdes
em vez de marcas de aviso laranja .Introduza um nome para o seu repositório de dados e clique em Criar.
Importe documentos através da API
Se estiver a usar o esquema predefinido da Google, pode importar os seus documentos
fazendo um pedido POST
ao método REST
Documents:import
, usando o objeto
InlineSource
para especificar os seus dados.
Para ver um exemplo do formato de documento JSON, consulte o formato de documento JSON.
Requisitos de importação
Seguem-se os requisitos para importar documentos multimédia através da API:
Cada documento tem de estar na sua própria linha.
O número máximo de documentos numa única importação é 100.
Procedimento
Para importar documentos multimédia através da API, faça o seguinte:
Crie um arquivo de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto Google Cloud .DATA_STORE_ID
: o ID do arquivo de dados do Vertex AI Search que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.DATA_STORE_DISPLAY_NAME
: o nome a apresentar do arquivo de dados do Vertex AI que quer criar.
Crie o ficheiro JSON para o seu documento e atribua-lhe o nome
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Chame o método POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto.DATA_STORE_ID
: o ID do seu armazenamento de dados.
Formato de documento JSON
Os exemplos seguintes mostram entradas Document
no formato JSON.
Faculte um documento completo numa única linha. Cada documento deve estar na sua própria linha.
Campos mínimos obrigatórios:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objeto completo:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Monitorize a importação e veja os dados
Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do armazenamento de dados para ver os respetivos detalhes na página Dados.
Clique no separador Atividade.
Quando a coluna de estado no separador Atividade muda de Em curso para Importação concluída, a ingestão está concluída.
Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos ou várias horas.
Clique em Documentos para ver os dados que importou.
Importe eventos do utilizador
Para importar eventos de utilizadores para o seu repositório de dados de multimédia:
- Siga as instruções em Importe eventos de utilizadores históricos.
O que se segue?
Crie uma app de recomendações de multimédia ou uma app de pesquisa de multimédia.
Mantenha os dados dos documentos atualizados.
Idealmente, deve atualizar a sua base de dados diariamente, importando dados novos. A programação de importações periódicas impede que a qualidade do modelo se degrade ao longo do tempo. Pode usar o Google Cloud Scheduler para automatizar as importações.
Pode atualizar apenas documentos novos ou alterados, ou importar todo o arquivo de dados. Se importar documentos que já se encontram no seu repositório de dados, estes não são adicionados novamente. Todos os documentos que foram alterados são atualizados.
Mantenha os dados de eventos do utilizador atualizados.
É particularmente importante que mantenha os eventos do utilizador atualizados. A app de recomendações deixa de funcionar se não existirem eventos de utilizadores recentes suficientes para cumprir os requisitos de dados.
Para obter informações sobre a importação de dados de eventos do utilizador em tempo real, consulte o artigo Registe eventos do utilizador em tempo real.
Para obter informações sobre a monitorização dos requisitos de eventos do utilizador, consulte o artigo Verifique a qualidade dos dados para recomendações de multimédia.