機能リスト

現在、Vision API では次の機能を使用できます。

すべての機能タイプ

顔検出 1

アノテーションありとなしの 2 つの顔を含む画像
  • 顔を境界ポリゴンで特定し、目、耳、鼻、口など、顔にある特定の「ランドマーク」を対応する信頼値とともに識別します。
  • 感情(喜び、悲しみ、怒り、驚き)の可能性評価と一般的な画像プロパティ(露出不明、ぼかし、帽子あり)を返します。
  • 可能性評価は、UNKNOWNVERY_UNLIKELYUNLIKELYPOSSIBLELIKELYVERY_LIKELY の 6 つの異なる値で表されます。

ランドマーク検出 2

聖ワシリイ大聖堂の画像
  • ランドマークの名称、信頼スコア、ランドマークの画像の境界ボックスを提供します。
  • 検出されたエンティティの座標を返します。

ロゴ検出 3

アノテーション付きロゴ
  • ファイル内のロゴで識別されたエンティティに関するテキスト形式の説明、信頼スコア、境界ポリゴンを提供します。

ラベル検出 4

上海通りの画像
  • 画像の一般化されたラベルを提供します。
  • ラベルごとにテキスト形式の説明、信頼スコア、トピカリティ評価を返します。

テキスト検出

道路標識の画像
  • 画像の光学式文字認識(OCR)によって、テキストを認識し、マシンコード化されたテキストへ変換します。画像内の UTF-8 テキストを識別して抽出します。
  • 画像: 大きな画像内のテキストのスパース領域向けに最適化されます。
  • レスポンス: テキストであると識別された単語、境界ボックス、textAnnotations のリストに加え、OCR で検出されたテキスト(fullTextAnnotation)の構造的階層を返します。
    • 抽出されたテキスト構造の階層
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Page 以降の各構造要素には、検出された言語、区切りなどの独自のプロパティがある場合があります。
  • サポートされている言語: 現在サポートされている言語、マッピングされている言語、試験運用言語で動作します。
  • 機能の列挙値: TEXT_DETECTION

ドキュメント テキスト検出(高密度テキスト / 手書き)

アノテーション付き高密度テキストの画像
手書き画像
  • ファイル(PDF / TIFF)または高密度テキスト画像用の光学式文字認識(OCR)によって、高密度テキストを認識し、マシンコード化されたテキストに変換します。
  • ファイル: ドキュメント ファイル(PDF / TIFF)向けに最適化されます。
  • 画像: 画像内(文書の画像)の高密度テキスト領域、および手書きを文字を含む画像向けに最適化されます。
  • レスポンス: OCR で検出されたテキスト(fullTextAnnotation)の構造的階層を返します。
    • 抽出されたテキスト構造の階層
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Page 以降の各構造要素には、検出された言語、区切りなどの独自のプロパティがある場合があります。
  • サポートされている言語: 現在サポートされている言語、マッピングされている言語、試験運用言語で動作します。
  • 機能の列挙値: DOCUMENT_TEXT_DETECTION
    • DOCUMENT_TEXT_DETECTIONTEXT_DETECTION の両方がリクエストされた場合、優先されます。

画像プロパティ 5

バリ島のプロパティ付き画像
  • 画像のドミナント カラーを返します。
  • 各色は RGBA 色空間で表され、信頼スコアを持ち、色 [0,1] が占めるピクセルの割合を表示します。

オブジェクトのローカライズ 6

境界ボックスを含む画像
  • 1 つの画像で認識される複数のオブジェクトの一般的なラベルと境界ボックスのアノテーションを提供します。
  • 検出されたオブジェクトごとに、テキスト形式の説明、信頼スコア、オブジェクトの周囲の境界ポリゴンの正規化された頂点 [0,1] が返されます。

クロップヒント検出 7

切り抜きバージョンを含む画像
  • 切り抜いた画像の境界ポリゴン、信頼スコア、元の画像に対するこの注目領域の重要度の比率をリクエストごとに提示します。
  • 1 つの画像に対して最大 16 の画像比率値(幅 : 高さ)を指定できます。

ウェブ エンティティとページ 8

ウェブ エンティティ テーブルを含む画像
  • 一連の関連するウェブ コンテンツを画像に提供します。
  • 次の情報を返します。
    • ウェブ エンティティ: ウェブ上の類似する画像から推定されるエンティティ(ラベル / 説明)です。
    • 完全一致画像: インターネット上で完全に一致した、あらゆるサイズの画像の URL リストです。
    • 部分一致画像: 元の画像の切り抜きバージョンなど、主な特徴を共有する画像の URL リストです。
    • 画像が一致するページ: 上記の条件を満たす画像を含むウェブページ(ページ URL、ページタイトル、一致する画像 URL で識別)のリストです。
    • 視覚的に類似した画像: 元の画像と一部の特徴を共有する画像の URL リストです。
    • 最良の推測ラベル: インターネット上の類似画像から推測される、要求された画像のトピックに関する最良の推測です。

不適切なコンテンツの検出(セーフサーチ)

  • 次の不適切なコンテンツ カテゴリの可能性評価を提供します。adultspoofmedicalviolenceracy
  • 可能性評価は、UNKNOWNVERY_UNLIKELYUNLIKELYPOSSIBLELIKELYVERY_LIKELY の 6 つの異なる値で表されます。

1. 画像クレジット: Himanshu Singh GurjarUnsplash より抜粋(アノテーション入り)。

2. 画像クレジット: Nikolay VorobyevUnsplash より抜粋(アノテーション入り)。

3. 画像クレジット: Robert Scoble、(CC BY 2.0、アノテーション入り)。

4. 画像クレジット: Alex KnightUnsplash より抜粋。

5. 画像クレジット: Jeremy BishopUnsplash より抜粋。

6. 画像クレジット: Bogdan DadaUnsplash より(アノテーション入り)。

7. 画像クレジット: Yasmin DangorUnsplash より抜粋(元の画像と切り抜いた画像を表示)。

8. 画像クレジット: Quinten de GraafUnsplash より抜粋。