Elenco delle funzionalità

Al momento, l'API Vision consente di utilizzare le seguenti funzionalità:

Tutti i tipi di funzionalità

Rilevamento testo

Immagine del segnale stradale
  • Riconoscimento ottico dei caratteri (OCR) per un'immagine; riconoscimento del testo e conversione in testo codificato automaticamente. Identifica ed estrae il testo UTF-8 in un'immagine.
  • Immagini: ottimizzate per aree di testo sparse all'interno di un'immagine più grande.
  • Risposta: restituisce sia un elenco di parole identificate con testo, riquadri di delimitazione e textAnnotations, sia la gerarchia strutturale del testo OCR rilevato (fullTextAnnotation).
    • Gerarchia della struttura del testo estratta:
      • TextAnnotation -> Pagina -> Blocca -> Paragrafo -> Parola -> Simbolo.
      • Ogni componente strutturale da Page in poi può avere ulteriori proprietà come lingue rilevate, interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum della caratteristica: TEXT_DETECTION.

Rilevamento del testo dei documenti (testo ad alta densità / scrittura a mano libera)

Immagine densa con annotazioni
immagine scrittura a mano libera
  • Riconoscimento ottico dei caratteri (OCR) per un file (PDF/TIFF) o un'immagine di testo densa; riconoscimento ottico del testo e conversione in testo codificato automaticamente.
  • File: ottimizzata per i file di documenti (PDF/TIFF).
  • Immagini: ottimizzate per aree di testo compatte in un'immagine (immagini che sono documenti) e immagini che contengono scrittura a mano libera.
  • Risposta: restituisce la gerarchia strutturale per il testo rilevato dall'OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratta:
      • TextAnnotation -> Pagina -> Blocca -> Paragrafo -> Parola -> Simbolo.
      • Ogni componente strutturale da Page in poi può avere ulteriori proprietà come lingue rilevate, interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum della caratteristica: DOCUMENT_TEXT_DETECTION.
    • Ha la precedenza quando vengono richiesti entrambi i valori DOCUMENT_TEXT_DETECTION e TEXT_DETECTION.

Rilevamento dei punti di riferimento 1

Immagine Cattedrale di San Basilio
  • Fornisce il nome del punto di riferimento, un punteggio di affidabilità e un riquadro di delimitazione nell'immagine del punto di riferimento.
  • Fornisce le coordinate per l'entità rilevata.

Rilevamento loghi 2

logo con annotazioni
  • Fornisce una descrizione testuale dell'entità identificata, un punteggio di affidabilità e un poligono di delimitazione per il logo nel file.

Rilevamento etichette 3

Immagine di una strada di Shanghai
  • Fornisce etichette generalizzate per un'immagine.
  • Per ogni etichetta restituisce una descrizione testuale, un punteggio di affidabilità e una valutazione dell'attualità.

Proprietà delle immagini 4

Immagine di Bali con proprietà
  • Restituisce i colori predominanti in un'immagine.
  • Ogni colore è rappresentato nello spazio colore RGBA, ha un punteggio di affidabilità e mostra la frazione di pixel occupati dal colore [0, 1].

Localizzazione degli oggetti 5

immagine con riquadri di delimitazione
  • Fornisce annotazioni generali di etichette e riquadro di delimitazione per più oggetti riconosciuti in una singola immagine.
  • Per ogni oggetto rilevato vengono restituiti i seguenti elementi: una descrizione testuale, un punteggio di affidabilità e vertici normalizzati [0,1] per il poligono di delimitazione attorno all'oggetto.

Rilevamento dei suggerimenti di ritaglio 6

immagine con versione ritagliata
  • Fornisce un poligono di delimitazione per l'immagine ritagliata, un punteggio di affidabilità e una frazione di importanza di questa regione importante rispetto all'immagine originale per ogni richiesta.
  • Puoi fornire fino a 16 valori di proporzioni (larghezza:altezza) per una singola immagine.

Entità e pagine web 7

immagine con tabella delle entità web
  • Fornisce una serie di contenuti web correlati a un'immagine.
  • Restituisce le seguenti informazioni:
    • Entità web: entità dedotte (etichette/descrizioni) da immagini simili sul web.
    • Immagini corrispondenti complete: un elenco di URL per immagini completamente corrispondenti di qualsiasi dimensione su Internet.
    • Immagini corrispondenti parzialmente: un elenco di URL di immagini che condividono caratteristiche chiave, ad esempio una versione ritagliata dell'immagine originale.
    • Pagine con immagini corrispondenti: un elenco di pagine web (identificate in base all'URL della pagina, al titolo della pagina, all'URL dell'immagine corrispondente) con un'immagine che soddisfi le condizioni descritte sopra.
    • Immagini visivamente simili: un elenco di URL di immagini che condividono alcune funzionalità con l'immagine originale.
    • Etichetta più plausibile: la migliore ipotesi in merito all'argomento dell'immagine richiesta dedotta da immagini simili su internet.

Rilevamento di contenuti espliciti (SafeSearch)

  • Fornisce valutazioni della probabilità per le seguenti categorie di contenuti espliciti: adult, spoof, medical, violence e racy.
  • Le valutazioni delle probabilità sono espresse in sei valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

Rilevamento facciale

immagine di esempio con rilevamento dei volti
  • Individua i volti con poligoni di delimitazione e identifica "punti di riferimento" specifici del volto, come occhi, orecchie, naso, bocca e così via, insieme ai valori di confidenza corrispondenti.
  • Restituisce le valutazioni della probabilità per le emozioni (gioia, dolore, rabbia, sorpresa) e proprietà generali dell'immagine (sottoesposta, sfocata, presenza di copricapo).
  • Le valutazioni delle probabilità sono espresse in sei valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.
  • Il riconoscimento facciale di una persona specifica non è supportato.

1. Credito immagine: Nikolay Vorobyev su Unsplash (annotazioni aggiunte).

2. Credito immagine: Robert Scoble (CC BY 2.0, annotazione aggiunta).

3. Credito immagine: Alex Knight su Unsplash.

4. Credito immagine: Jeremy Bishop su Unsplash.

5. Image credit: Bogdan Dada su Unsplash (annotazioni aggiunte).

6. Credito immagine: Yasmin Dangor su Unsplash (immagine originale e ritagliata mostrata).

7. Credito immagine: Quinten de Graaf su Unsplash.