Elenco delle funzionalità

Al momento l'API Vision ti consente di utilizzare le seguenti funzionalità:

Tutti i tipi di elementi

Rilevamento del testo

Immagine del segnale stradale
  • Riconoscimento ottico dei caratteri (OCR) per un'immagine; riconoscimento del testo e conversione in testo codificato automaticamente. Identifica ed estrae il testo UTF-8 in un'immagine.
  • Immagini: ottimizzate per aree di testo sparso all'interno di un'immagine più grande.
  • Risposta: restituisce sia un elenco di parole identificate con testo, bounding box e textAnnotations, sia la gerarchia strutturale per il testo rilevato dall'OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratta:
      • Annotazione testo -> Pagina -> Blocco -> Paragrafo -> Parola -> Simbolo.
      • Ogni componente strutturale di Page on può avere inoltre le proprie proprietà, come le lingue rilevate, le interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum della funzionalità: TEXT_DETECTION.

Rilevamento del testo del documento (testo / scrittura a mano libera denso)

Immagine densa con annotazioni
immagine di scrittura a mano libera
  • Riconoscimento ottico dei caratteri (OCR) per un file (PDF/TIFF) o un'immagine con testo ad alta densità; riconoscimento e conversione del testo ad alta densità in testo codificato automaticamente.
  • File: ottimizzato per i file di documenti (PDF/TIFF).
  • Immagini: ottimizzate per aree di testo fitte in un'immagine (immagini che sono documenti) e immagini che contengono scrittura a mano libera.
  • Risposta: restituisce la gerarchia strutturale per il testo rilevato dall'OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratta:
      • Annotazione testo -> Pagina -> Blocco -> Paragrafo -> Parola -> Simbolo.
      • Ogni componente strutturale di Page on può avere inoltre le proprie proprietà, come le lingue rilevate, le interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum della funzionalità: DOCUMENT_TEXT_DETECTION.
    • Ha la precedenza quando sono richiesti sia DOCUMENT_TEXT_DETECTION che TEXT_DETECTION.

Rilevamento di punti di riferimento 1

Immagine della Cattedrale di San Basilio
  • Fornisce il nome del punto di riferimento, un punteggio di attendibilità e un riquadro di delimitazione nell'immagine del punto di riferimento.
  • Fornisce le coordinate dell'entità rilevata.

Rilevamento dei loghi 2

logo annotato
  • Fornisce una descrizione testuale dell'entità identificata, un punteggio di confidenza e un poligono di delimitazione per il logo nel file.

Rilevamento delle etichette 3

Immagine di una strada di Shanghai
  • Fornisce etichette generalizzate per un'immagine.
  • Per ogni etichetta restituisce una descrizione testuale, un punteggio di affidabilità e una valutazione dell'attualità.

Proprietà immagine 4

Immagine di Bali con proprietà
  • Restituisce i colori dominanti di un'immagine.
  • Ogni colore è rappresentato nello spazio di colore RGBA, ha un punteggio di attendibilità e mostra la frazione di pixel occupata dal colore [0, 1].

Localizzazione degli oggetti 5

immagine con riquadri di delimitazione
  • Fornisce annotazioni generali di etichette e riquadro di delimitazione per più oggetti riconosciuti in una singola immagine.
  • Per ogni oggetto rilevato vengono restituiti i seguenti elementi: una descrizione text, un punteggio di affidabilità e vertici normalizzati [0,1] per il poligono di delimitazione attorno all'oggetto.

Rilevamento di suggerimenti di ritaglio 6

Immagine con versione ritagliata
  • Fornisce un poligono di delimitazione per l'immagine ritagliata, un punteggio di confidenza e una frazione di importanza di questa regione saliente rispetto all'immagine originale per ogni richiesta.
  • Puoi fornire fino a 16 valori del rapporto immagine (larghezza:altezza) per una singola immagine.

Entità e pagine web 7

immagine con tabella delle entità web
  • Fornisce una serie di contenuti web correlati a un'immagine.
  • Restituisce le seguenti informazioni:
    • Entità web: entità dedotte (etichette/descrizioni) da immagini simili sul web.
    • Immagini con corrispondenza completa: un elenco di URL di immagini con corrispondenza completa di qualsiasi dimensione su internet.
    • Immagini con corrispondenza parziale: un elenco di URL di immagini che condividono elementi chiave, ad esempio una versione ritagliata dell'immagine originale.
    • Pagine con immagini corrispondenti: un elenco di pagine web (identificate dall'URL pagina, dal titolo pagina e dall'URL immagine corrispondente) con un'immagine che soddisfa le condizioni descritte sopra.
    • Immagini visivamente simili: un elenco di URL di immagini che condividono alcune caratteristiche con l'immagine originale.
    • Etichetta di stima migliore: una stima migliore dell'argomento dell'immagine richiesta dedotta da immagini simili su internet.

Rilevamento di contenuti espliciti (SafeSearch)

  • Fornisce valutazioni di probabilità per le seguenti categorie di contenuti espliciti: adult, spoof, medical, violence e racy.
  • Le valutazioni delle probabilità sono espresse come 6 valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

Rilevamento dei volti

immagine di esempio con rilevamento dei volti
  • Individua i volti con poligoni di delimitazione e identifica "punti di riferimento" facciali specifici come occhi, orecchie, naso, bocca e così via, insieme ai relativi valori di affidabilità.
  • Restituisce valutazioni di probabilità per le emozioni (gioia, tristezza, rabbia, sorpresa) e proprietà generali delle immagini (sottoesposte, sfocate, presenza di copricapo).
  • Le valutazioni delle probabilità sono espresse come 6 valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.
  • Il riconoscimento facciale di persone specifiche non è supportato.

1. Credito immagine: Nikolay Vorobyev su Unsplash (annotazioni aggiunte).

2. Credito immagine: Robert Scoble (CC BY 2.0, annotazione aggiunta).

3. Credito immagine: Alex Knight su Unsplash.

4. Credito immagine: Jeremy Bishop su Unsplash.

5. Credito immagine: Bogdan Dada su Unsplash (annotazioni aggiunte).

6. Credito immagine: Yasmin Dangor su Unsplash (è mostrata l'immagine originale e ritagliata).

7. Credito immagine: Quinten de Graaf su Unsplash.