Liste des fonctionnalités

L'API Cloud Vision vous permet actuellement d'utiliser les fonctionnalités suivantes :

Tous les types de fonctionnalités

Détection de texte

Image d'un panneau de signalisation
  • Reconnaissance optique des caractères (OCR) dans une image, détection de texte et conversion du texte en code machine. Identifie et extrait le texte UTF-8 dans une image.
  • Images : optimisé pour les zones de texte épars dans une image plus grande.
  • Réponse : affiche la liste de mots identifiés avec le texte, des cadres de délimitation et des scores de confiance (textAnnotations), ainsi que la hiérarchie structurelle du texte détecté par la reconnaissance optique des caractères (fullTextAnnotation).
    • Hiérarchie de la structure du texte extrait :
      • TextAnnotation -> Page -> Bloc -> Paragraphe -> Mot -> Symbole.
      • Chaque composant structurel à partir de la page peut avoir ses propres propriétés, telles que les langues détectées, les sauts, etc.
  • Langues acceptées : fonctionne avec les langues acceptées, mappées et expérimentales.
  • Valeur d'énumération de la fonctionnalité : TEXT_DETECTION.

Détection de documents texte (texte dense/écriture manuscrite)

Image dense avec annotations
Image manuscrite
  • Reconnaissance optique de caractères (OCR) dans un fichier (PDF/TIFF) ou une image de texte dense ; reconnaissance de texte dense et conversion du texte en code machine.
  • Fichiers : optimisé pour les fichiers de document (PDF/TIFF).
  • Images : optimisé pour les zones de texte dense dans une image (images correspondant à des documents) et les images contenant du texte manuscrit.
  • Réponse : affiche la hiérarchie structurelle du texte détecté avec la reconnaissance optique des caractères (fullTextAnnotation).
    • Hiérarchie de la structure du texte extrait :
      • TextAnnotation -> Page -> Bloc -> Paragraphe -> Mot -> Symbole.
      • Chaque composant structurel à partir de la page peut avoir ses propres propriétés, telles que les langues détectées, les sauts, etc.
  • Langues acceptées : fonctionne avec les langues acceptées, mappées et expérimentales.
  • Valeur d'énumération de la fonctionnalité : DOCUMENT_TEXT_DETECTION.
    • Prioritaire lorsque DOCUMENT_TEXT_DETECTION et TEXT_DETECTION sont demandés.

Détection des points de repère1

image de la Cathédrale Saint-Basile-le-Bienheureux
  • Affiche le nom du point de repère, un score de confiance et un cadre de délimitation du point de repère sur l'image.
  • Indique les coordonnées de l'entité détectée.

Détection des logos2

logo annoté
  • Affiche une description textuelle de l'entité identifiée, un score de confiance et un polygone de délimitation du logo sur le fichier.

Détection de thèmes3

image d'une rue de Shanghai
  • Fournit des thèmes généralisés pour une image.
  • Pour chaque thème, vous obtenez une description textuelle, un score de confiance et une note de pertinence du thème.

Propriétés des images4

image de Bali avec des propriétés
  • Renvoie les couleurs dominantes d'une image.
  • Chaque couleur est représentée dans l'espace colorimétrique RVBA, possède un score de confiance et affiche la fraction de pixels occupée par la couleur [0, 1].

Localisation des objets5

image avec cadres de délimitation
  • Affiche un thème général et un cadre de délimitation pour plusieurs objets reconnus dans une seule image.
  • Pour chaque objet détecté, les éléments suivants sont renvoyés : une description textuelle, un score de confiance et des sommets normalisés [0,1] pour le polygone de délimitation autour de l'objet.

Détection des suggestions de recadrage6

image avec version recadrée
  • Fournit un polygone de délimitation pour l'image recadrée, un score de confiance et une fraction d'importance de cette région par rapport à l'image d'origine pour chaque requête.
  • Vous pouvez fournir jusqu'à 16 valeurs de proportions d'image (largeur:hauteur) pour une seule image.

Entités et pages Web7

image avec tableau d'entités Web
  • Fournit une série de contenus Web associés à une image.
  • Affiche les informations suivantes :
    • Entités Web : entités inférées (étiquettes/descriptions) à partir d'images similaires sur le Web.
    • Images à correspondance complète : liste des URL d'images parfaitement correspondantes de toute taille sur Internet.
    • Images à correspondance partielle : liste des URL d'images partageant des éléments clé, telles qu'une version recadrée de l'image d'origine.
    • Pages avec des images correspondantes : liste des pages Web (identifiées par l'URL de la page, le titre de la page, l'URL de l'image correspondante) avec une image qui satisfait les conditions décrites ci-dessus.
    • Images similaires : liste des URL des images qui partagent certains éléments avec l'image d'origine.
    • Thème le plus probable : hypothèse la plus probable du sujet de l'image demandée, déduit à partir d'images similaires sur Internet.

Détection de contenu explicite (SafeSearch)

  • Fournit des évaluations de probabilité pour les catégories de contenu explicites suivantes : adult, spoof, medical, violence et racy.
  • Les évaluations de probabilité sont exprimées sous forme de six valeurs différentes : UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.

Détection de visages

exemple d'image avec détection de visages
  • Localise les visages avec des polygones de délimitation et identifie des "points de repère" faciaux spécifiques tels que les yeux, les oreilles, le nez, la bouche, etc. avec leurs niveaux de confiance correspondants.
  • Affiche des évaluations de probabilité pour l'émotion (joie, tristesse, colère, surprise) et les propriétés générales de l'image (sous-exposée, floue, port éventuel d'un accessoire).
  • Les évaluations de probabilité sont exprimées sous forme de six valeurs différentes : UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.
  • La reconnaissance faciale d'individus spécifiques n'est pas disponible.

1. Crédit image : Nikolay Vorobyev sur Unsplash (annotations ajoutées).

2. Crédit image : Robert Scoble (CC BY 2.0, annotation ajoutée).

3. Crédit image : Alex Knight sur Unsplash.

4. Crédit image : Jeremy Bishop sur Unsplash.

5. Crédit image : Bogdan Dada sur Unsplash (annotations ajoutées).

6. Crédit image : Yasmin Dangor sur Unsplash (image d'origine et image recadrée affichées).

7. Crédit image : Quinten de Graaf sur Unsplash.