Criar um repositório de dados de mídia

Esta página explica como criar um repositório de dados para mídia e importar dados para ele.

Antes de começar

Faça o seguinte:

Escolha o procedimento de acordo com a fonte de dados

Para criar um repositório de dados de mídia e importar documentos, acesse a seção da fonte que você planeja usar:

Importar do BigQuery

Console

Para usar o console do Google Cloud e criar um repositório de dados de mídia e importar documentos e eventos do usuário do BigQuery, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Criador de agentes.

    Agent Builder.

  2. Acesse a página Repositórios de dados.

  3. Clique em Criar armazenamento de dados.

  4. Na página Origem, selecione BigQuery.

  5. Selecione Mídia: tabela do BigQuery com dados de mídia estruturados como o tipo de dados que você está importando.

  6. No campo Caminho do BigQuery, clique em Procurar, selecione os dados do BigQuery que você preparou para ingestão e clique em Selecionar. Se preferir, insira o local diretamente no campo Caminho do BigQuery.

  7. Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.

  8. Caso os dados estejam no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.

  9. Revise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.

  10. Clique em Continuar.

    Não é possível continuar até que as propriedades de chave necessárias sejam mapeadas, indicadas por marcas de seleção verdes em vez de marcas de aviso laranja .

  11. Insira um nome para o repositório de dados e clique em Criar.

Importar do Cloud Storage

Console

Para usar o console do Google Cloud e criar um armazenamento de dados de mídia e importar documentos do Cloud Storage, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Criador de agentes.

    Agent Builder.

  2. Acesse a página Repositórios de dados.

  3. Clique em Criar armazenamento de dados.

  4. Na página Origem, selecione Cloud Storage.

  5. Selecione Dados de mídia estruturados (JSONL com arquivos de mídia) como o tipo de dados que estão sendo importados.

  6. Na seção Selecionar uma pasta ou um arquivo para importar, selecione Pasta ou Arquivo.

  7. Clique em Procurar e escolha os dados que você preparados para ingestão e depois clique em Selecionar. Como alternativa, insira o local diretamente no campo gs://.

  8. Se os dados estiverem no esquema predefinido do Google, escolha a opção Predefinido schema, clique em Continuar e pule para a etapa 11.

  9. Caso os dados estejam no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.

  10. Revise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.

  11. Clique em Continuar.

    Não é possível continuar até que as propriedades de chave necessárias sejam mapeadas, indicadas por marcas de seleção verdes em vez de marcas de aviso laranja .

  12. Insira um nome para o repositório de dados e clique em Criar.

Importar documentos usando a API

Se você estiver usando o esquema predefinido do Google, poderá importar seus documentos fazendo uma solicitação POST para o método REST Documents:import, usando o objeto InlineSource para especificar seus dados.

Para ver um exemplo do formato de documento JSON, consulte Formato de documento JSON.

Requisitos de importação

Estes são os requisitos para importar documentos de mídia usando a API:

  • Cada documento precisa estar em uma linha.

  • O número máximo de documentos em uma única importação é 100.

Procedimento

Para importar documentos de mídia usando a API, faça o seguinte:

  1. Criar um repositório de dados.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto do Google Cloud.
    • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hifens.
    • DATA_STORE_DISPLAY_NAME: o nome de exibição da Vertex AI. Pesquise o repositório de dados que você quer criar.
  2. Crie o arquivo JSON para seu documento com o nome ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Chame o método POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.

Formato de documento JSON

Os exemplos a seguir mostram entradas Document no formato JSON.

Envie um documento inteiro em uma única linha. Cada documento precisa estar em uma linha.

Campos obrigatórios mínimos:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objeto completo:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Monitorar a importação e visualizar dados

  1. Para verificar o status do seu processamento, acesse a página Repositórios de dados. e clique no nome do repositório de dados para ver detalhes sobre ele na página Dados.

  2. Clique na guia Atividade.

    Quando a coluna de status na guia Atividade muda de Em andamento para Importação concluída, a transferência é concluída.

    Dependendo do tamanho dos dados, a ingestão pode demorar minutos ou várias horas.

  3. Clique em Documentos para consultar os dados que você importou.

Importar eventos de usuário

Os eventos do usuário são necessários se você quiser usar o repositório de dados com um app de recomendações de mídia.

Embora os eventos do usuário não sejam obrigatórios para apps de pesquisa de mídia, inclua-os para ter resultados de pesquisa de melhor qualidade.

Se quiser importar eventos do usuário para seu repositório de dados de mídia:

A seguir

  • Crie um app de recomendações de mídia ou um app de pesquisa de mídia.

  • Mantenha os dados do seu documento atualizados.

    O ideal é atualizar o repositório de dados diariamente, importando dados novos. Programar importações periódicas evita que a qualidade do modelo se degrade ao longo do tempo. Use o Google Cloud Scheduler para automatizar as importações.

    Só é possível atualizar documentos novos ou alterados, ou importar todo o repositório de dados. Se você importar documentos que já estejam no seu repositório de dados, eles não serão adicionados novamente. Qualquer documento que tenha sido alterado será atualizado.

  • Mantenha os dados de eventos dos usuários sempre atualizados.

    É particularmente importante manter os eventos de usuário atualizados. O app de recomendações vai parar de funcionar se não houver eventos de usuário novos suficientes para atender aos requisitos de dados.

    Para informações sobre como importar dados de eventos do usuário em tempo real, consulte Gravar eventos do usuário em tempo real.

    Saiba como monitorar os requisitos de eventos dos usuários em Verificar a qualidade dos dados para recomendações de mídia.