Elenco delle funzionalità

L'API Vision attualmente consente di utilizzare le seguenti funzionalità:

Tutti i tipi di funzionalità

Rilevamento volti 1

immagine con due volti con e senza annotazioni
  • Individua i volti con poligoni di delimitazione e identifica specifici punti di riferimento del volto, ad esempio occhi, orecchie, naso, bocca e così via, insieme ai corrispondenti valori di confidenza.
  • Restituisce le valutazioni della probabilità di emozione (gioia, dolore, rabbia, sorpresa) e proprietà generali delle immagini (sottoesposta, sfocata, presente un copricapo).
  • Le classificazioni delle probabilità sono espresse in 6 valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

Rilevamento dei punti di riferimento 2

Immagine della Cattedrale di San Basilio
  • Fornisce il nome del punto di riferimento, un punteggio di affidabilità e un riquadro di delimitazione nell'immagine per il punto di riferimento.
  • Fornisce le coordinate per l'entità rilevata.

Rilevamento loghi 3

logo con annotazioni
  • Fornisce una descrizione testuale dell'entità identificata, un punteggio di affidabilità e un poligono di delimitazione per il logo nel file.

Rilevamento etichette 4

Immagine di Shanghai Street
  • Fornisce etichette generalizzate per un'immagine.
  • Per ogni etichetta restituisce una descrizione testuale, un punteggio di affidabilità e una valutazione dell'argomento.

Rilevamento del testo

Immagine di un cartello stradale
  • Riconoscimento ottico dei caratteri (OCR) per un'immagine; riconoscimento di testo e conversione in testo codificato automaticamente. Identifica ed estrae il testo UTF-8 in un'immagine.
  • Immagini: ottimizzate per aree di testo all'interno di un'immagine più grande.
  • Risposta: restituisce sia un elenco di parole identificate con testo, riquadri di delimitazione, sia textAnnotations, nonché la gerarchia strutturale per il testo rilevato dall'OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratto:
      • TextAnnotation -> Page -> Blocca -> Paragrafo -> Parola -> Simbolo.
      • Ogni componente strutturale della Pagina su potrebbe avere ulteriori proprietà, come lingue rilevate, interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum funzionalità: TEXT_DETECTION.

Rilevamento del testo di documenti (testo ad alta densità / scrittura a mano libera)

Immagine densa con annotazioni
immagine per la scrittura a mano libera
  • Riconoscimento ottico dei caratteri (OCR) per un file (PDF/TIFF) o immagine densa di testo; riconoscimento di testo ad alta densità e conversione in testo codificato automaticamente.
  • File: ottimizzati per i file di documenti (PDF/TIFF).
  • Immagini: ottimizzata per densamente aree di testo in un'immagine (immagini) e immagini che contengono scrittura a mano libera.
  • Risposta: restituisce la gerarchia strutturale per il testo rilevato nell'OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratto:
      • TextAnnotation -> Page -> Blocca -> Paragrafo -> Parola -> Simbolo.
      • Ogni componente strutturale della Pagina su potrebbe avere ulteriori proprietà, come lingue rilevate, interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum funzionalità: DOCUMENT_TEXT_DETECTION.
    • Ha la precedenza quando vengono richiesti sia DOCUMENT_TEXT_DETECTION che TEXT_DETECTION.

Proprietà delle immagini 5

Immagine di Bali con proprietà
  • Restituisce colori predominanti in un'immagine.
  • Ogni colore è rappresentato nello spazio colore RGBA, ha un punteggio di affidabilità e mostra la frazione di pixel occupati dal colore [0, 1].

Localizzazione oggetti 6

immagine con riquadri di delimitazione
  • Fornisce annotazioni generali su etichette e riquadri di delimitazione per più oggetti riconosciuti in una singola immagine.
  • Per ogni oggetto rilevato vengono restituiti i seguenti elementi: una descrizione testuale, un punteggio di affidabilità e vertici normalizzati [0,1] per il poligono di delimitazione intorno all'oggetto.

Rilevamento dei suggerimenti di ritaglio 7

immagine con versione ritagliata
  • Fornisce un poligono di delimitazione per l'immagine ritagliata, un punteggio di affidabilità e una frazione di importanza di questa area geografica rispetto all'immagine originale per ogni richiesta.
  • Puoi fornire fino a 16 valori per le proporzioni delle immagini (larghezza:altezza) per una singola immagine.

Entità web e pagine 8

immagine con tabella delle entità web
  • Offre una serie di contenuti web correlati a un'immagine.
  • Restituisce le seguenti informazioni:
    • Entità web: entità dedotte (etichette/descrizioni) da immagini simili sul Web.
    • Immagini con corrispondenza completa: un elenco di URL per immagini con immagini di tutte le dimensioni su Internet.
    • Immagini corrispondenti parziali: un elenco di URL per le immagini che condividono elementi chiave, come una versione ritagliata dell'immagine originale.
    • Pagine con immagini corrispondenti: un elenco di pagine web (identificate dall'URL della pagina, titolo della pagina, URL dell'immagine corrispondente) con un'immagine che soddisfa le condizioni descritte sopra.
    • Immagini visivamente simili: un elenco di URL di immagini che condividono alcune funzionalità con l'immagine originale.
    • Etichetta con la migliore ipotesi: una migliore ipotesi sull'argomento dell'immagine richiesta dedotta da immagini simili su Internet.

Rilevamento di contenuti espliciti (SafeSearch)

  • Fornisce classificazioni di probabilità per le seguenti categorie di contenuti espliciti: adult, spoof, medical, violence e racy.
  • Le classificazioni delle probabilità sono espresse in 6 valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

1. Immagine di credito: Himanshu Singh Gurjar su Unsplash (annotazioni aggiunte).

2. Immagine di credito: Nikolay Vorobyev su Unsplash (annotazioni aggiunte).

3. Immagine di credito: Robert Scoble (CC BY 2.0, annotazione aggiunta).

4. Immagine di credito: Alex Knight su Unsplash.

5. Immagine di credito: Jeremy Bishop su Unsplash.

6. Immagine di credito: Bogdan Dada su Unsplash (annotazioni aggiunte).

7. Credito immagine: Yasmin Dangor su Unsplash (immagine originale e ritagliata mostrata).

8. Immagine di credito: Quinten de Graaf su Unsplash.