Como analisar rótulos de vídeos

A API Video Intelligence pode identificar entidades mostradas em filmagens usando o recurso LABEL_DETECTION e anotar essas entidades com rótulos (tags). Esse recurso identifica objetos gerais, locais, atividades, espécies de animais, produtos e muito mais.

A detecção de rótulos é diferente do rastreamento de objetos. Ao contrário do rastreamento de objetos, a detecção de rótulos fornece rótulos para todo o frame (sem caixas delimitadoras).

Por exemplo, no vídeo de um trem em um cruzamento, a API Video Intelligence retorna rótulos como "trem", "transporte", "passagem de nível" e assim por diante. Cada rótulo inclui um segmento de tempo com o ajuste de horário (carimbo de data/hora) referente à aparição da entidade desde o início do vídeo. As anotações também contêm outras informações da entidade, incluindo um código que pode ser usado para saber mais sobre a entidade na API Knowledge Graph Search do Google.

Cada entidade retornada também pode incluir entidades de categoria associadas no campo categoryEntities. Por exemplo, o rótulo de entidade "Terrier" tem uma categoria para "cachorro". As entidades de categoria têm uma hierarquia. Por exemplo, a categoria "Cachorro" é filha da categoria "Mamífero" na hierarquia. Para ver uma lista das entidades de categoria comuns usadas pela Video Intelligence, consulte entry-level-categories.json.

A análise pode ser dividida da seguinte maneira:

  • Nível do segmento:
    os segmentos selecionados por usuários de um vídeo podem ser especificados para análise estipulando carimbos de data/hora inicias e finais para fins de anotação (consulte VideoSegment). As entidades são identificadas e rotuladas dentro de cada segmento. Se nenhum segmento for especificado, o vídeo inteiro será tratado como um segmento.

  • Nível da imagem:
    as imagens (também conhecidas como cenas) são detectadas automaticamente em cada segmento (ou vídeo). As entidades são identificadas e rotuladas dentro de cada cena. Para ver mais detalhes, consulte Detecção de alteração na imagem
  • Nível do frame:
    entidades são identificadas e rotuladas dentro de cada frame (com amostragem de um frame por segundo).

Para detectar rótulos em um vídeo, chame o método annotate e especifique LABEL_DETECTION no campo features.

Para ver exemplos, consulte Como analisar vídeos para detectar rótulos e Tutorial sobre detecção de rótulos.