Criar um repositório de dados de mídia

Esta página explica como criar um repositório de dados de mídia e importar dados para ele.

Antes de começar

Faça o seguinte:

Escolha o procedimento de acordo com a fonte de dados

Para criar um repositório de dados de mídia e importar documentos, acesse a seção da origem que você planeja usar:

Importar do BigQuery

Console

Para usar o console do Google Cloud e criar um repositório de dados de mídia e importar documentos e eventos do usuário do BigQuery, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Criador de agentes.

    Agent Builder.

  2. Acesse a página Repositórios de dados.

  3. Clique em Criar repositório de dados.

  4. Na página Origem, selecione BigQuery.

  5. Selecione Mídia: tabela do BigQuery com dados de mídia estruturados como o tipo de dados que você está importando.

  6. No campo Caminho do BigQuery, clique em Procurar, selecione os dados do BigQuery que você preparou para ingestão e clique em Selecionar. Se preferir, insira o local diretamente no campo Caminho do BigQuery.

  7. Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.

  8. Se os dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.

  9. Analise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.

  10. Clique em Continuar.

    Não é possível continuar até que as propriedades de chave necessárias sejam mapeadas, indicadas por marcas de seleção verdes em vez de marcas de aviso laranja .

  11. Insira um nome para o repositório de dados e clique em Criar.

Importar do Cloud Storage

Console

Para usar o console do Google Cloud e criar um repositório de dados de mídia e importar documentos do Cloud Storage, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Criador de agentes.

    Agent Builder.

  2. Acesse a página Repositórios de dados.

  3. Clique em Criar repositório de dados.

  4. Na página Origem, selecione Cloud Storage.

  5. Selecione Dados estruturados de mídia (JSONL contendo arquivos de mídia) como o tipo de dados que você está importando.

  6. Na seção Selecionar uma pasta ou um arquivo para importar, selecione Pasta ou Arquivo.

  7. Clique em Procurar e escolha os dados que você preparou para ingestão. Em seguida, clique em Selecionar. Como alternativa, insira o local diretamente no campo gs://.

  8. Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.

  9. Se os dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.

  10. Analise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.

  11. Clique em Continuar.

    Não é possível continuar até que as propriedades de chave necessárias sejam mapeadas, indicadas por marcas de seleção verdes em vez de marcas de aviso laranja .

  12. Insira um nome para o repositório de dados e clique em Criar.

Importar documentos usando a API

Se você estiver usando o esquema predefinido do Google, poderá importar seus documentos fazendo uma solicitação POST para o método REST Documents:import, usando o objeto InlineSource para especificar seus dados.

Para conferir um exemplo do formato de documento JSON, consulte Formato de documento JSON.

Requisitos de importação

Estes são os requisitos para importar documentos de mídia usando a API:

  • Cada documento precisa estar em uma linha.

  • O número máximo de documentos em uma única importação é 100.

Procedimento

Para importar documentos de mídia usando a API, faça o seguinte:

  1. Crie um repositório de dados.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto do Google Cloud.
    • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hifens.
    • DATA_STORE_DISPLAY_NAME: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.
  2. Crie o arquivo JSON para seu documento e chame-o ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Chame o método POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.

Formato de documento JSON

Os exemplos a seguir mostram entradas Document no formato JSON.

Envie um documento inteiro em uma única linha. Cada documento precisa estar em uma linha.

Campos obrigatórios mínimos:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objeto completo:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Monitorar a importação e conferir os dados

  1. Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do repositório de dados para conferir os detalhes na página Dados.

  2. Clique na guia Atividade.

    Quando a coluna de status na guia Atividade muda de Em andamento para Importação concluída, a transferência é concluída.

    Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.

  3. Clique em Documentos para conferir os dados importados.

Importar eventos de usuário

Os eventos do usuário são necessários se você quiser usar o repositório de dados com um app de recomendações de mídia.

Embora os eventos do usuário não sejam obrigatórios para apps de pesquisa de mídia, inclua-os para ter resultados de pesquisa de melhor qualidade.

Para importar eventos do usuário para o repositório de dados de mídia:

A seguir

  • Crie um app de recomendações ou pesquisa de mídia.

  • Mantenha os dados do documento atualizados.

    O ideal é atualizar o repositório de dados diariamente, importando dados novos. A programação de importações periódicas evita que a qualidade do modelo se degrade com o tempo. Use o Google Cloud Scheduler para automatizar as importações.

    É possível atualizar apenas documentos novos ou alterados ou importar todo o repositório de dados. Se você importar documentos que já estão na sua repositório de dados, eles não serão adicionados novamente. Todos os documentos que foram alterados são atualizados.

  • Mantenha os dados dos eventos do usuário atualizados.

    É particularmente importante manter os eventos de usuários atualizados. O app de recomendações vai parar de funcionar se não houver eventos de usuário novos suficientes para atender aos requisitos de dados.

    Para informações sobre como importar dados de eventos do usuário em tempo real, consulte Gravar eventos do usuário em tempo real.

    Para saber mais sobre como monitorar os requisitos de eventos do usuário, consulte Verificar a qualidade dos dados das recomendações de mídia.