Merkmale

In den folgenden Abschnitten werden die Funktionen und Merkmale der Google Cloud Video Intelligence API kurz umrissen.

Unterstützte Videoformate

Cloud Video Intelligence-API unterstützt gängige Videoformate, einschließlich .MOV, .MPEG4, .MP4 und .AVI.

Labelerkennung

Mit der Labelerkennung werden Videos mit Labels (Tags) für Entitäten versehen, die in einem Video oder in Videosegmenten erkannt werden. Hierbei wird Folgendes zurückgegeben:

  • Eine Liste von Anmerkungen zu den Videosegmenten, in denen eine Entität erkannt wurde
  • Eine Liste von Anmerkungen zu den Einzelbildern, in denen ein Element erkannt wurde
  • Sofern in der Anfrage angegeben, eine Liste von Aufnahmen, in denen eine Entität erkannt wurde. Ausführliche Informationen finden Sie unter Erkennung von Aufnahmeänderungen

Beispiel: Die Video Intelligence API kann für ein Video von einem Zug an einem Bahnübergang Labels wie "Zug", "Verkehr", "Bahnübergang" usw. erzeugen. Jedes Label enthält ein Zeitsegment mit dem Zeitversatz (Zeitstempel) für das Erscheinungsbild der Entität ab Beginn des Videos. Die Anmerkung enthält außerdem zusätzliche Informationen wie eine Entitäts-ID, mit der Sie weitere Informationen zu dieser Entität in der Google Knowledge Graph Search API finden können.

Jede zurückgegebene Entität kann auch zugehörige Kategorieentitäten im Feld categoryEntities zurückgeben. Das Entitätslabel "Terrier" hat beispielsweise die Kategorie "Hund". Kategorieentitäten haben eine Hierarchie. Beispielsweise ist die Kategorie "Hund" der Kategorie "Säugetier" in der Hierarchie untergeordnet. Eine Liste der allgemeinen Kategorieentitäten, die von der Video Intelligence API verwendet werden, finden Sie unter entry-level-categories.json.

Rufen Sie die Methode annotate auf und geben Sie im Feld features den Wert SHOT_CHANGE_DETECTION ein, um Labels in einem Video zu erkennen.

Beispiele finden Sie unter Videos für Labels analysieren und Anleitungen für Labelerkennung.

Szenenwechsel erkennen

Standardmäßig untersucht die Video Intelligence API ein Video oder Videosegment nach Einzelbildern, also nach jedem vollständigen Bild in der Serie, aus dem das Video besteht. Sie können die Video Intelligence API auch dazu veranlassen, ein Video oder Videosegment entsprechend jeder Aufnahme (Szene) zu kommentieren, die im Eingangsvideo erkannt wird.

Mit Szenenwechsel erkennen wird ein Video mit Videosegmenten versehen, die basierend auf den Inhaltsübergängen (Szenen) im Gegensatz zu den einzelnen Bildern ausgewählt werden. Zum Beispiel würde ein Video von zwei Spielern auf dem Golfplatz, das einen Schwenk auf den Wald als Hintergrund verwendet, in zwei Szenen unterteilt: "Spieler" und "Wald". So haben Entwickler Zugriff auf die relevantesten Videosegmente, in denen die Spieler zu sehen sind, und können diese hervorheben.

Rufen Sie die Methode annotate auf und geben im Feld features den Wert SHOT_CHANGE_DETECTION ein, um Aufnahmeänderungen in einem Video zu erkennen.

Beispiele finden Sie unter Videos für Aufnahmeänderungen analysieren und Anleitung zur Labelerkennung.

Erkennung expliziter Inhalte

Die Erkennung expliziter Inhalte findet Inhalte in einem Video, die nur für Erwachsene geeignet sind. Inhalte nur für Erwachsene sind im Allgemeinen für Personen ab 18 Jahren geeignet, darunter die Darstellung von Nacktheit sowie sexuelle Aktivitäten und Pornografie (einschließlich in Zeichentrickfilmen und Animes).

Mit der Erkennung expliziter Inhalte wird ein Video mit Anmerkungen (Tags) expliziter Inhalte für Entitäten versehen, die im angegebenen Video oder in den Videosegmenten erkannt wurden. Die Antwort gibt Informationen darüber zurück, in welchem Zeitstempel explizite Inhalte erkannt werden.

Rufen Sie die Methode annotate auf und geben Sie im Feld features den Wert EXPLICIT_CONTENT_DETECTION ein, um explizite Inhalte in einem Video zu ermitteln.

Ein Beispiel finden Sie unter Videos auf explizite Inhalte analysieren.

Regionalisierung

Sie können den Parameter location_id in AnnotateVideoRequest verwenden, um die Google Cloud Platform-Region anzugeben, in der die Anmerkung durchgeführt wird. Folgende Regionen werden derzeit unterstützt:

  • us-east1
  • us-west1
  • europe-west1
  • asia-east1

Wenn keine Region angegeben wurde, wird sie anhand des Speicherorts der Videodatei festgelegt.

Sprachtranskription

Mit der Sprachtranskription werden gesprochene Wörter in einem Video oder Videosegment in Text transkribiert und Textblöcke für jeden Teil des transkribierten Audios zurückgegeben.

Rufen Sie die Methode annotate auf und geben Sie SPEECH_TRANSCRIPTION im Feld features ein, um Sprache aus einem Video zu transkribieren.

Sie können die folgenden Funktionen beim Transkribieren von Sprache verwenden:

  • Alternative Wörter: Mit der Option maxAlternatives können Sie die maximale Anzahl Optionen für erkannte Textübersetzungen angeben, die in die Antwort aufgenommen werden sollen. Dieser Wert kann eine Ganzzahl von 1 bis 30 sein. Der Standardwert ist 1. Die API gibt mehrere Transkriptionen in absteigender Reihenfolge basierend auf dem Konfidenzwert für die Transkription zurück. Alternative Transkriptionen enthalten keine Einträge auf Wortebene.

  • Filtern von vulgärer Sprache: Mit der Option filterProfanity können Sie bekannte vulgäre Ausdrücke in Transkriptionen herausfiltern. Übereinstimmende Wörter werden durch den Anfangsbuchstaben des Worts gefolgt von Sternchen ersetzt. Der Standardwert ist "false".

  • Transkriptionshinweise: Verwenden Sie die Option speechContexts, um allgemeine oder ungewöhnliche Wortgruppen in der Audiodatei zu verwenden. Diese Wortgruppen werden dann verwendet, um den Transkriptionsdienst dabei zu unterstützen, genauere Transkriptionen zu erstellen. Sie geben einen Transkriptionshinweis als SpeechContext-Objekt an.

  • Auswahl von Audiospuren: Mit der Option audioTracks legen Sie die zu transkribierenden Spuren aus mehrspurigen Videodateien fest. Dieser Wert kann eine Ganzzahl von 0 bis 2 sein. Der Standardwert ist 0.

  • Automatische Satzzeichen: Mit der Option enableAutomaticPunctuation fügen Sie Satzzeichen in den transkribierten Text ein. Der Standardwert ist "false".

  • Mehrere Sprecher: Mit der Option enableSpeakerDiarization können Sie unterschiedliche Sprecher in einem Video identifizieren. In der Antwort enthält jedes erkannte Wort das Feld speakerTag. In diesem Feld wird angegeben, welchem Sprecher das erkannte Wort zugeordnet wird.

Optimale Ergebnisse erzielen Sie, wenn Sie Audiodaten bereitstellen, die mit einer Abtastrate von mindestens 16.000 Hz aufgezeichnet wurden.

Ein Beispiel finden Sie unter Sprachtranskription.

Objekt-Tracking (Beta)

Mit Objekt-Tracking können in einem Eingabevideo oder Videosegmenten mehrere Objekte erkannt werden. Hierbei werden Labels (Tags) für erkannte Entitäten zusammen mit der Stelle der Entität im Einzelbild zurückgegeben. Zum Beispiel können für ein Video von Fahrzeugen, die über eine Ampel fahren, Labels wie "Auto", "LKW", "Fahrrad", "Reifen", "Ampel", "Fenster" usw. erzeugt werden. Jedes Label enthält eine Reihe von Markierungsrahmen, die die Stelle des Objekts im Einzelbild angeben. Jeder Markierungsrahmen enthält außerdem ein Zeitsegment mit einem Zeitversatz (Zeitstempel) für jedes Label, das den Zeitpunkt ab Beginn des Videos angibt. Die Anmerkung enthält außerdem zusätzliche Elementinformationen wie eine Element-ID, mit der Sie weitere Informationen zu diesem Element in der Google Knowledge Graph Search API finden können.

Objekt-Tracking unterscheidet sich von der Labelerkennung darin, dass die Labelerkennung Labels für das gesamte Einzelbild ohne Markierungsrahmen bereitstellt, während Objekt-Tracking das Vorhandensein einzelner abgrenzbarer Objekte in einem bestimmten Video sowie den Markierungsrahmen für jedes Objekt erkennt.

Rufen Sie die Methode annotate auf und geben Sie im Feld features den Wert OBJECT_TRACKING ein, um eine Objekt-Tracking-Anfrage zu stellen.

Ein Beispiel finden Sie unter Objekt-Tracking.

Texterkennung (Beta)

Mit der Texterkennung wird die optische Zeichenerkennung (Optical Character Recognition, OCR) durchgeführt, um sichtbaren Text aus Einzelbildern in einem Video oder in Videosegmenten zu erkennen. Hiermit wird der erkannte Text zusammen mit den Informationen zu der Stelle im Video zurückgegeben, an der der Text erkannt wurde.

Die Texterkennung ist für alle Sprachen verfügbar, die von der Cloud Vision API unterstützt werden.

Rufen Sie die Methode annotate auf und geben im Feld features den Wert TEXT_DETECTION ein, um sichtbaren Text in einem Video zu erkennen.

Ein Beispiel finden Sie unter Texterkennung.