Esta página explica como criar um repositório de dados de mídia e importar dados para ele.
Antes de começar
Faça o seguinte:
Revise os conceitos relacionados aos dados de mídia e ao esquema:
Decida se você está usando o esquema predefinido do Google para seus dados de mídia ou seu próprio esquema.
Se você estiver usando seu próprio esquema, verifique se ele tem campos que mapeiam bem as propriedades da chave de mídia:
title
,url
,category
e assim por diante.Coloque seus documentos de mídia no esquema JSON e faça o upload dos dados para o BigQuery ou o Cloud Storage.
Leia Sobre os eventos do usuário e prepare seus eventos do usuário para importação. Os eventos do usuário são necessários para recomendações de mídia e são recomendados para pesquisas de mídia.
Escolha o procedimento de acordo com a fonte de dados
Para criar um repositório de dados de mídia e importar documentos, acesse a seção da origem que você planeja usar:
Importar do BigQuery
Console
Para usar o console do Google Cloud e criar um repositório de dados de mídia e importar documentos e eventos do usuário do BigQuery, siga estas etapas:
No Console do Google Cloud, acesse a página Criador de agentes.
Acesse a página Repositórios de dados.
Clique em Criar repositório de dados.
Na página Origem, selecione BigQuery.
Selecione Mídia: tabela do BigQuery com dados de mídia estruturados como o tipo de dados que você está importando.
No campo Caminho do BigQuery, clique em Procurar, selecione os dados do BigQuery que você preparou para ingestão e clique em Selecionar. Se preferir, insira o local diretamente no campo Caminho do BigQuery.
Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.
Se os dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.
Analise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.
Clique em Continuar.
Não é possível continuar até que as propriedades de chave necessárias sejam mapeadas, indicadas por marcas de seleção verdes
em vez de marcas de aviso laranja .Insira um nome para o repositório de dados e clique em Criar.
Importar do Cloud Storage
Console
Para usar o console do Google Cloud e criar um repositório de dados de mídia e importar documentos do Cloud Storage, siga estas etapas:
No Console do Google Cloud, acesse a página Criador de agentes.
Acesse a página Repositórios de dados.
Clique em Criar repositório de dados.
Na página Origem, selecione Cloud Storage.
Selecione Dados estruturados de mídia (JSONL contendo arquivos de mídia) como o tipo de dados que você está importando.
Na seção Selecionar uma pasta ou um arquivo para importar, selecione Pasta ou Arquivo.
Clique em Procurar e escolha os dados que você preparou para ingestão. Em seguida, clique em Selecionar. Como alternativa, insira o local diretamente no campo
gs://
.Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.
Se os dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.
Analise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.
Clique em Continuar.
Não é possível continuar até que as propriedades de chave necessárias sejam mapeadas, indicadas por marcas de seleção verdes
em vez de marcas de aviso laranja .Insira um nome para o repositório de dados e clique em Criar.
Importar documentos usando a API
Se você estiver usando o esquema predefinido do Google, poderá importar seus documentos
fazendo uma solicitação POST
para o método REST
Documents:import
, usando o objeto
InlineSource
para especificar seus dados.
Para conferir um exemplo do formato de documento JSON, consulte Formato de documento JSON.
Requisitos de importação
Estes são os requisitos para importar documentos de mídia usando a API:
Cada documento precisa estar em uma linha.
O número máximo de documentos em uma única importação é 100.
Procedimento
Para importar documentos de mídia usando a API, faça o seguinte:
Crie um repositório de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Substitua:
PROJECT_ID
: o ID do seu projeto do Google Cloud.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hifens.DATA_STORE_DISPLAY_NAME
: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.
Crie o arquivo JSON para seu documento e chame-o
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Chame o método POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
- PROJECT_ID: o ID do seu projeto.
- DATA_STORE_ID: o ID do repositório de dados.
Formato de documento JSON
Os exemplos a seguir mostram entradas Document
no formato JSON.
Envie um documento inteiro em uma única linha. Cada documento precisa estar em uma linha.
Campos obrigatórios mínimos:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objeto completo:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Monitorar a importação e conferir os dados
Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do repositório de dados para conferir os detalhes na página Dados.
Clique na guia Atividade.
Quando a coluna de status na guia Atividade muda de Em andamento para Importação concluída, a transferência é concluída.
Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.
Clique em Documentos para conferir os dados importados.
Importar eventos de usuário
Os eventos do usuário são necessários se você quiser usar o repositório de dados com um app de recomendações de mídia.
Embora os eventos do usuário não sejam obrigatórios para apps de pesquisa de mídia, inclua-os para ter resultados de pesquisa de melhor qualidade.
Para importar eventos do usuário para o repositório de dados de mídia:
- Siga as instruções em Importar eventos históricos do usuário.
A seguir
Mantenha os dados do documento atualizados.
O ideal é atualizar o repositório de dados diariamente, importando dados novos. A programação de importações periódicas evita que a qualidade do modelo se degrade com o tempo. Use o Google Cloud Scheduler para automatizar as importações.
É possível atualizar apenas documentos novos ou alterados ou importar todo o repositório de dados. Se você importar documentos que já estão na sua repositório de dados, eles não serão adicionados novamente. Todos os documentos que foram alterados são atualizados.
Mantenha os dados dos eventos do usuário atualizados.
É particularmente importante manter os eventos de usuários atualizados. O app de recomendações vai parar de funcionar se não houver eventos de usuário novos suficientes para atender aos requisitos de dados.
Para informações sobre como importar dados de eventos do usuário em tempo real, consulte Gravar eventos do usuário em tempo real.
Para saber mais sobre como monitorar os requisitos de eventos do usuário, consulte Verificar a qualidade dos dados das recomendações de mídia.