Essayez les modèles Gemini 1.5, les derniers modèles multimodaux de Vertex AI, et découvrez ce que vous pouvez créer avec une fenêtre de contexte pouvant comprendre jusqu'à deux millions de jetons.Essayez les modèles Gemini 1.5, les derniers modèles multimodaux de Vertex AI, et découvrez ce que vous pouvez créer avec une fenêtre de contexte pouvant comprendre jusqu'à deux millions de jetons.
Reconnaissance optique des caractères (OCR) dans une image, détection de texte et conversion du texte en code machine. Identifie et extrait le texte UTF-8 dans une image.
Images : optimisé pour les zones de texte épars dans une image plus grande.
Réponse : affiche la liste de mots identifiés avec le texte, des cadres de délimitation et des scores de confiance (textAnnotations), ainsi que la hiérarchie structurelle du texte détecté par la reconnaissance optique des caractères (fullTextAnnotation).
Reconnaissance optique de caractères (OCR) dans un fichier (PDF/TIFF) ou une image de texte dense ; reconnaissance de texte dense et conversion du texte en code machine.
Fichiers : optimisé pour les fichiers de document (PDF/TIFF).
Images : optimisé pour les zones de texte dense dans une image (images correspondant à des documents) et les images contenant du texte manuscrit.
Réponse : affiche la hiérarchie structurelle du texte détecté avec la reconnaissance optique des caractères (fullTextAnnotation).
Chaque couleur est représentée dans l'espace colorimétrique RVBA, possède un score de confiance et affiche la fraction de pixels occupée par la couleur [0, 1].
Affiche un thème général et un cadre de délimitation pour plusieurs objets reconnus dans une seule image.
Pour chaque objet détecté, les éléments suivants sont renvoyés : une description textuelle, un score de confiance et des sommets normalisés [0,1] pour le polygone de délimitation autour de l'objet.
Fournit un polygone de délimitation pour l'image recadrée, un score de confiance et une fraction d'importance de cette région par rapport à l'image d'origine pour chaque requête.
Vous pouvez fournir jusqu'à 16 valeurs de proportions d'image (largeur:hauteur) pour une seule image.
Fournit une série de contenus Web associés à une image.
Affiche les informations suivantes :
Entités Web : entités inférées (étiquettes/descriptions) à partir d'images similaires sur le Web.
Images à correspondance complète : liste des URL d'images parfaitement correspondantes de toute taille sur Internet.
Images à correspondance partielle : liste des URL d'images partageant des éléments clé, telles qu'une version recadrée de l'image d'origine.
Pages avec des images correspondantes : liste des pages Web (identifiées par l'URL de la page, le titre de la page, l'URL de l'image correspondante) avec une image qui satisfait les conditions décrites ci-dessus.
Images similaires : liste des URL des images qui partagent certains éléments avec l'image d'origine.
Thème le plus probable : hypothèse la plus probable du sujet de l'image demandée, déduit à partir d'images similaires sur Internet.
Fournit des évaluations de probabilité pour les catégories de contenu explicites suivantes : adult, spoof, medical, violence et racy.
Les évaluations de probabilité sont exprimées sous forme de six valeurs différentes : UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.
Localise les visages avec des polygones de délimitation et identifie des "points de repère" faciaux spécifiques tels que les yeux, les oreilles, le nez, la bouche, etc. avec leurs niveaux de confiance correspondants.
Affiche des évaluations de probabilité pour l'émotion (joie, tristesse, colère, surprise) et les propriétés générales de l'image (sous-exposée, floue, port éventuel d'un accessoire).
Les évaluations de probabilité sont exprimées sous forme de six valeurs différentes : UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2023/12/06 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2023/12/06 (UTC)."],[],[]]