機能

このセクションでは、Google Cloud Video Intelligence API の機能について説明します。

サポートされている動画形式

Cloud Video Intelligence API では、.MOV.MPEG4.MP4.AVI などの一般的な動画形式をサポートしています。

ラベル検出

ラベル検出は、動画または動画セグメントで検出されたエンティティに対応するラベル(タグ)を付けて、次のものを返します。

  • エンティティが検出された動画セグメントのアノテーションのリスト。
  • エンティティが検出されたフレームのアノテーションのリスト。
  • リクエストで指定された場合、エンティティが検出されたショットのリスト。詳細については、ショット変更の検出をご覧ください。

たとえば、踏切を通過する列車の動画では、「train」、「transportation」、「railroad crossing」などのラベルが返されます。各ラベルには時間セグメントがあり、エンティティが検出された時点を、動画の先頭からの時間オフセット(タイムスタンプ)として示します。各アノテーションには、その他の追加情報も含まれます。たとえば、この中のエンティティ ID を使用すると、Google Knowledge Graph Search API でエンティティの詳細を確認できます。

返される各エンティティに、関連付けられたカテゴリ エンティティを示す categoryEntities フィールドが含まれる場合もあります。たとえば、「テリア」エンティティ ラベルには「犬」カテゴリが関連付けられます。カテゴリ エンティティには階層があります。たとえば、「犬」カテゴリは階層内で「哺乳類」カテゴリの子になります。Video Intelligence API で使用される共通カテゴリ エンティティの一覧については、entry-level-categories.json をご覧ください。

動画内のラベルを検出するには、annotate メソッドを呼び出して、features フィールドで SHOT_CHANGE_DETECTION を指定します。

例については、動画のラベル分析ラベル検出のチュートリアルをご覧ください。

ショット変更の検出

デフォルトでは、Video Intelligence API は動画または動画セグメントをフレームごとに調べます。つまり、動画を構成する個々の連続した静止画像が調べられます。Video Intelligence API では、入力された動画で検出された各ショット(シーン)に従って動画または動画セグメントにアノテーションを付けることもできます。

ショット変更の検出は、個々のフレームではなく、コンテンツの遷移(シーン)に基づいて選択された動画セグメントにアノテーションを付けます。たとえば、ゴルフコースにいる 2 人のプレーヤーを映した後に背景の木々にパンする動画の場合、「players」と「woods」の 2 つのショットが生成されます。これにより、プレーヤーが中心に映っている動画セグメントにアクセスできます。

動画のショット変更を検出するには、annotate メソッドを呼び出し、features フィールドで SHOT_CHANGE_DETECTION を指定します。

例については、動画のショット変更の分析ラベル検出のチュートリアルをご覧ください。

不適切なコンテンツの検出

不適切なコンテンツの検出は、動画内のアダルト コンテンツを検出します。通常、アダルト コンテンツとは 18 歳以上を対象としたもので、ヌードや性的描写、ポルノ(漫画やアニメを含む)などを指します(ただし、これらに限定されません)。

不適切なコンテンツの検出は、指定された動画または動画セグメントで検出されたエンティティに対応する不適切なコンテンツのアノテーション(タグ)を付けます。レスポンスでは、不適切なコンテンツが検出された動画フレームのタイムスタンプが返されます。

動画内の不適切なコンテンツを検出するには、annotate メソッドを呼び出し、features フィールドで EXPLICIT_CONTENT_DETECTION を指定します。

例については、動画の不適切なコンテンツの分析をご覧ください。

リージョン指定

AnnotateVideoRequestlocation_id パラメータを使用して、アノテーション付けを行う Google Cloud Platform リージョンを指定できます。現在サポートされているリージョンは次のとおりです。

  • us-east1
  • us-west1
  • europe-west1
  • asia-east1

リージョンを指定しないと、動画ファイルの場所に基づいてリージョンが判断されます。

音声文字変換

音声文字変換は、動画または動画セグメント内の話し言葉の音声をテキストに変換し、変換された音声の各部分に対応するテキストのブロックを返します。

動画の音声文字変換を行うには、annotate メソッドを呼び出し、features フィールドで SPEECH_TRANSCRIPTION を指定します。

音声文字変換を行うとき、次の機能を使用できます。

  • 代替候補: maxAlternatives オプションを使用して、レスポンスに含める認識結果候補の最大数を指定できます。指定できる値は 1~30 の整数です。デフォルトは 1 です。認識結果の信頼値に基づいて、複数の候補が降順で返されます。代替候補には単語レベルのエントリは含まれません。

  • 冒とく的な表現のフィルタリング: filterProfanity オプションを使用して、既知の冒とく的な表現を除去できます。該当する単語は先頭の文字のみが残され、以降はアスタリスクに置き換えられます。デフォルトは false です。

  • 音声文字変換のヒント: speechContexts オプションを使用して、動画の中で話されている一般的なフレーズや珍しいフレーズを提供できます。音声文字変換サービスはこれらのフレーズを参考にして、文字起こしの精度を向上させます。音声文字変換のヒントは SpeechContext オブジェクトとして提供します。

  • 音声トラックの選択: audioTracks オプションを使用して、マルチトラック音声の中から文字変換対象のトラックを指定できます。指定できる値は 0~2 の整数です。デフォルトは 0 です。

  • 自動句読点: enableAutomaticPunctuation オプションを使用して、文字起こしされたテキストに句読点を入れることができます。デフォルトは false です。

  • 複数の話者: enableSpeakerDiarization オプションを使用して、動画内の異なる話者を識別できます。レスポンスでは、認識された単語ごとに、その単語を発した話者を識別する speakerTag フィールドが含められます。

最良の結果を得るには、16,000 Hz 以上のサンプリング レートで録音された音声を使用してください。

例については、音声文字変換をご覧ください。

オブジェクト トラッキング(ベータ版)

オブジェクト トラッキングは、入力された動画または動画セグメントで検出された複数のオブジェクトを追跡し、検出されたエンティティに対応するラベル(タグ)と、フレーム内でのエンティティの位置を返します。たとえば、信号を通過する車両の動画では、「car」、「truck」、「bike」、「tires」、「lights」、「window」などのラベルが生成されます。各ラベルには、フレーム内でのエンティティの位置を示す一連の境界ボックスが含まれます。各境界ボックスには時間セグメントも関連付けられており、動画の先頭からの時間を、時間オフセット(タイムスタンプ)として示します。アノテーションには追加のエンティティ情報も含まれます。たとえば、この中のエンティティ ID を使用すると、Google Knowledge Graph Search API でエンティティの詳細を確認できます。

オブジェクト トラッキングとラベル検出の違いは、ラベル検出ではフレーム全体(境界ボックスなし)に対するラベルが提供されるのに対し、オブジェクト トラッキングでは個々のオブジェクトが検出され、ラベルとともに各オブジェクトのフレーム内での位置を示す境界ボックスも提供されるという点です。

オブジェクト トラッキングをリクエストするには、annotate メソッドを呼び出し、features フィールドで OBJECT_TRACKING を指定します。

例については、オブジェクト トラッキングをご覧ください。

テキスト検出(ベータ版)

テキスト検出は、光学式文字認識(OCR)を実行して動画または動画セグメント内のフレームから可視テキストを検出し、当該テキストと、動画内でのその検出位置情報を返します。

テキスト検出は、Cloud Vision API でサポートされているすべての言語で使用できます。

動画または動画セグメントから可視テキストを検出するには、annotate メソッドを呼び出し、features フィールドで TEXT_DETECTION を指定します。

例については、テキスト検出をご覧ください。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Video Intelligence API ドキュメント