Cette page a été traduite par l'API Cloud Translation.
Switch to English

Analyser les étiquettes des vidéos

L'API Video Intelligence peut identifier les entités qui s'affichent dans les séquences vidéo à l'aide de la fonctionnalité LABEL_DETECTION et annoter ces entités avec des étiquettes (tags). Cette caractéristique identifie les objets, les lieux, les activités, les espèces animales, les produits, etc.

La détection des thèmes diffère du suivi des objets. Contrairement au suivi des objets, la détection des thèmes fournit des libellés sans cadres de délimitation.

Par exemple, pour la vidéo d'un train à un passage à niveau, l'API Video Intelligence renvoie des libellés tels que "train", "transport", "passage à niveau", etc. Chaque libellé est associé à un segment de temps sous forme de décalage temporel (horodatage) depuis le début de la vidéo. Chaque annotation contient également des informations supplémentaires, y compris un ID d'entité que vous pouvez utiliser pour rechercher davantage d'informations sur l'entité dans l'API Google Knowledge Graph Search.

Chaque entité renvoyée peut également inclure des entités de catégorie associées dans le champ categoryEntities. Par exemple, le libellé d'entité "Terrier" est associée à la catégorie "Chien". Les entités de catégories ont une hiérarchie. Par exemple, la catégorie "Chien" est un enfant de la catégorie "Mammifère" dans la hiérarchie. Pour obtenir la liste des entités de catégories communes utilisées par Video Intelligence, reportez-vous au fichier entry-level-categories.json.

L'analyse peut être compartimentée comme suit :

  • Niveau du segment :
    l'utilisateur peut sélectionner des segments d'une vidéo et les spécifier pour l'analyse en indiquant les horodatages de début et de fin à prendre en compte pour l'annotation (voir le type VideoSegment). Les entités sont alors identifiées et libellées dans chaque segment. Si aucun segment n'est spécifié, l'intégralité de la vidéo est traitée comme un segment unique.

  • Niveau de prise de vue: les prises de vue
    (également appelées scenes) sont automatiquement détectées dans chaque section (ou vidéo). Les entités sont alors identifiées et étiquetées dans chaque scène. Pour en savoir plus, consultez l'article Détection de changement de plan.
  • Niveau du cadre :
    les entités sont identifiées et étiquetées dans chaque image (avec un échantillonnage d'une image par seconde).

Pour détecter les libellés dans une vidéo, appelez la méthode annotate et spécifiez LABEL_DETECTION dans features.

Pour obtenir des exemples, consultez les pages Analyser les thèmes des vidéos et Didacticiel de détection de thèmes.