Cette page a été traduite par l'API Cloud Translation.

Liste des fonctionnalités

L'API Cloud Vision vous permet actuellement d'utiliser les fonctionnalités suivantes :

Tous les types de fonctionnalités
Détection de texte	Reconnaissance optique des caractères (OCR) dans une image, détection de texte et conversion du texte en code machine. Identifie et extrait le texte UTF-8 dans une image. Images : optimisé pour les zones de texte épars dans une image plus grande. Réponse : affiche la liste de mots identifiés avec le texte, des cadres de délimitation et des scores de confiance (`textAnnotations`), ainsi que la hiérarchie structurelle du texte détecté par la reconnaissance optique des caractères (`fullTextAnnotation`). Hiérarchie de la structure du texte extrait : TextAnnotation -> Page -> Bloc -> Paragraphe -> Mot -> Symbole. Chaque composant structurel à partir de la page peut avoir ses propres propriétés, telles que les langues détectées, les sauts, etc. Langues acceptées : fonctionne avec les langues acceptées, mappées et expérimentales. Valeur d'énumération de la fonctionnalité : `TEXT_DETECTION`.
Détection de documents texte (texte dense/écriture manuscrite)	Reconnaissance optique de caractères (OCR) dans un fichier (PDF/TIFF) ou une image de texte dense ; reconnaissance de texte dense et conversion du texte en code machine. Fichiers : optimisé pour les fichiers de document (PDF/TIFF). Images : optimisé pour les zones de texte *dense* dans une image (images correspondant à des documents) et les images contenant du texte manuscrit. Réponse : affiche la hiérarchie structurelle du texte détecté avec la reconnaissance optique des caractères (`fullTextAnnotation`). Hiérarchie de la structure du texte extrait : TextAnnotation -> Page -> Bloc -> Paragraphe -> Mot -> Symbole. Chaque composant structurel à partir de la page peut avoir ses propres propriétés, telles que les langues détectées, les sauts, etc. Langues acceptées : fonctionne avec les langues acceptées, mappées et expérimentales. Valeur d'énumération de la fonctionnalité : `DOCUMENT_TEXT_DETECTION`. Prioritaire lorsque `DOCUMENT_TEXT_DETECTION` et `TEXT_DETECTION` sont demandés. Si vous détectez du texte dans des documents analysés, essayez Document AI pour la reconnaissance optique des caractères, l'analyse de formulaires structurés et l'extraction d'entités. Vous pouvez utiliser la boîte à outils Document AI pour convertir le résultat du format Document AI au format Cloud Vision.
Détection des points de repère¹	Affiche le nom du point de repère, un score de confiance et un cadre de délimitation du point de repère sur l'image. Indique les coordonnées de l'entité détectée.
Détection des logos²	Affiche une description textuelle de l'entité identifiée, un score de confiance et un polygone de délimitation du logo sur le fichier.
Détection de thèmes³	Fournit des thèmes généralisés pour une image. Pour chaque thème, vous obtenez une description textuelle, un score de confiance et une note de pertinence du thème.
Propriétés des images⁴	Renvoie les couleurs dominantes d'une image. Chaque couleur est représentée dans l'espace colorimétrique RVBA, possède un score de confiance et affiche la fraction de pixels occupée par la couleur [0, 1].
Localisation des objets⁵	Affiche un thème général et un cadre de délimitation pour plusieurs objets reconnus dans une seule image. Pour chaque objet détecté, les éléments suivants sont renvoyés : une description textuelle, un score de confiance et des sommets normalisés [0,1] pour le polygone de délimitation autour de l'objet. Besoin d'une détection personnalisée des objets ? Avec la détection d'objets d'AutoML Vision, vous pouvez créer un modèle de machine learning personnalisé pour votre cas spécifique d'utilisation de la détection d'objets dans une image.
Détection des suggestions de recadrage⁶	Fournit un polygone de délimitation pour l'image recadrée, un score de confiance et une fraction d'importance de cette région par rapport à l'image d'origine pour chaque requête. Vous pouvez fournir jusqu'à 16 valeurs de proportions d'image (largeur:hauteur) pour une seule image.
Entités et pages Web⁷	Fournit une série de contenus Web associés à une image. Affiche les informations suivantes : Entités Web : entités inférées (étiquettes/descriptions) à partir d'images similaires sur le Web. Images à correspondance complète : liste des URL d'images parfaitement correspondantes de toute taille sur Internet. Images à correspondance partielle : liste des URL d'images partageant des éléments clé, telles qu'une version recadrée de l'image d'origine. Pages avec des images correspondantes : liste des pages Web (identifiées par l'URL de la page, le titre de la page, l'URL de l'image correspondante) avec une image qui satisfait les conditions décrites ci-dessus. Images similaires : liste des URL des images qui partagent certains éléments avec l'image d'origine. Thème le plus probable : hypothèse la plus probable du sujet de l'image demandée, déduit à partir d'images similaires sur Internet.
Détection de contenu explicite (SafeSearch)	Fournit des évaluations de probabilité pour les catégories de contenu explicites suivantes : `adult`, `spoof`, `medical`, `violence` et `racy`. Les évaluations de probabilité sont exprimées sous forme de six valeurs différentes : `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` ou `VERY_LIKELY`.
Détection de visages	Localise les visages avec des polygones de délimitation et identifie des "points de repère" faciaux spécifiques tels que les yeux, les oreilles, le nez, la bouche, etc. avec leurs niveaux de confiance correspondants. Affiche des évaluations de probabilité pour l'émotion (joie, tristesse, colère, surprise) et les propriétés générales de l'image (sous-exposée, floue, port éventuel d'un accessoire). Les évaluations de probabilité sont exprimées sous forme de six valeurs différentes : `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` ou `VERY_LIKELY`. La reconnaissance faciale d'individus spécifiques n'est pas disponible.

^{1.
Crédit image : Nikolay Vorobyev sur Unsplash (annotations ajoutées).
↩}

^{2.
Crédit image : Robert Scoble (CC BY 2.0, annotation ajoutée).
↩}

^{3.
Crédit image : Alex Knight sur Unsplash.
↩}

^{4.
Crédit image : Jeremy Bishop sur Unsplash.
↩}

^{5.
Crédit image :
Bogdan Dada sur Unsplash (annotations ajoutées).
↩}

^{6.
Crédit image : Yasmin Dangor sur Unsplash (image d'origine et image recadrée affichées).
↩}

^{7.
Crédit image : Quinten de Graaf sur Unsplash.
↩}