Elenco delle funzionalità

L'API Vision attualmente ti consente di utilizzare le seguenti funzionalità:

Tutti i tipi di funzionalità

Rilevamento del testo

Immagine del segnale stradale
  • Riconoscimento ottico dei caratteri (OCR) per un'immagine; riconoscimento del testo e conversione in testo codificato automaticamente. Identifica ed estrae il testo UTF-8 in un'immagine.
  • Immagini: ottimizzate per aree di testo sparse all'interno di un'immagine più grande.
  • Risposta: restituisce sia un elenco di parole identificate con testo, riquadri di selezione e textAnnotations, sia la gerarchia strutturale per il testo rilevato dall'OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratto:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Ogni componente strutturale di Page on può avere ulteriori proprietà, come lingue rilevate, interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum della funzionalità: TEXT_DETECTION.

Rilevamento del testo del documento (testo denso / scrittura a mano libera)

Immagine densa con annotazioni
immagine della scrittura a mano libera
  • Riconoscimento ottico dei caratteri (OCR) per un file (PDF/TIFF) o un'immagine di testo ad alta densità; riconoscimento del testo ad alta densità e conversione in testo codificato automaticamente.
  • File: ottimizzato per i file di documenti (PDF/TIFF).
  • Immagini: ottimizzate per aree di testo dense in un'immagine (immagini che sono documenti) e immagini che contengono scrittura a mano libera.
  • Risposta: restituisce la gerarchia strutturale per il testo rilevato tramite OCR (fullTextAnnotation).
    • Gerarchia della struttura del testo estratto:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Ogni componente strutturale di Page on può avere ulteriori proprietà, come lingue rilevate, interruzioni e così via.
  • Lingue supportate: funziona con le lingue attualmente supportate, mappate e sperimentali.
  • Valore enum della funzionalità: DOCUMENT_TEXT_DETECTION.
    • Ha la precedenza quando vengono richiesti sia DOCUMENT_TEXT_DETECTION che TEXT_DETECTION.

Rilevamento di punti di riferimento 1

Immagine della Cattedrale di San Basilio
  • Fornisce il nome del punto di riferimento, un punteggio di confidenza e un riquadro di delimitazione nell'immagine per il punto di riferimento.
  • Fornisce le coordinate dell'entità rilevata.

Rilevamento dei loghi 2

logo annotato
  • Fornisce una descrizione testuale dell'entità identificata, un punteggio di confidenza e un poligono di delimitazione per il logo nel file.

Rilevamento delle etichette 3

Immagine di una strada di Shanghai
  • Fornisce etichette generalizzate per un'immagine.
  • Per ogni etichetta restituisce una descrizione testuale, un punteggio di affidabilità e un indice di attualità.

Proprietà immagini 4

Immagine di Bali con proprietà
  • Restituisce i colori dominanti in un'immagine.
  • Ogni colore è rappresentato nello spazio colore RGBA, ha un punteggio di confidenza e mostra la frazione di pixel occupati dal colore [0, 1].

Localizzazione degli oggetti 5

immagine con riquadri di delimitazione
  • Fornisce annotazioni generali di etichette e riquadro di delimitazione per più oggetti riconosciuti in una singola immagine.
  • Per ogni oggetto rilevato vengono restituiti i seguenti elementi: una descrizione testuale, un punteggio di confidenza e vertici normalizzati [0,1] per il poligono di delimitazione intorno all'oggetto.

Rilevamento suggerimenti di ritaglio 6

immagine con la versione ritagliata
  • Fornisce un poligono di delimitazione per l'immagine ritagliata, un punteggio di confidenza e una frazione di importanza di questa regione saliente rispetto all'immagine originale per ogni richiesta.
  • Puoi fornire fino a 16 valori di proporzioni dell'immagine (larghezza:altezza) per una singola immagine.

Entità e pagine web 7

immagine con la tabella delle entità web
  • Fornisce una serie di contenuti web correlati a un'immagine.
  • Restituisce le seguenti informazioni:
    • Entità web: entità dedotte (etichette/descrizioni) da immagini simili sul web.
    • Immagini con corrispondenza esatta: un elenco di URL per immagini con corrispondenza esatta di qualsiasi dimensione su internet.
    • Immagini con corrispondenza parziale: un elenco di URL di immagini che condividono caratteristiche dei punti chiave, ad esempio una versione ritagliata dell'immagine originale.
    • Pagine con immagini corrispondenti: un elenco di pagine web (identificate da URL pagina, titolo della pagina, URL immagine corrispondente) con un'immagine che soddisfa le condizioni descritte sopra.
    • Immagini visivamente simili: un elenco di URL di immagini che condividono alcune caratteristiche con l'immagine originale.
    • Etichetta della migliore ipotesi: la migliore ipotesi sull'argomento dell'immagine richiesta dedotta da immagini simili su internet.

Rilevamento di contenuti espliciti (SafeSearch)

  • Fornisce valutazioni di probabilità per le seguenti categorie di contenuti espliciti: adult, spoof, medical, violence e racy.
  • Le valutazioni di probabilità sono espresse come 6 valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

Rilevamento facciale

immagine di esempio con riconoscimento facciale
  • Individua i volti con poligoni di delimitazione e identifica punti di riferimento facciali specifici, come occhi, orecchie, naso, bocca e così via, insieme ai valori di confidenza corrispondenti.
  • Restituisce valutazioni della probabilità di reso per l'emozione (gioia, tristezza, rabbia, sorpresa) e le proprietà generali dell'immagine (sottoesposta, sfocata, presenza di copricapo).
  • Le valutazioni di probabilità sono espresse come 6 valori diversi: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.
  • Specific individual Facial Recognition is not supported.

1. Attribuzione immagine: Nikolay Vorobyev su Unsplash (annotazioni aggiunte).

2. Riconoscimento immagine: Robert Scoble (CC BY 2.0, annotazione aggiunta).

3. Crediti immagine: Alex Knight su Unsplash.

4. Crediti immagine: Jeremy Bishop su Unsplash.

5. Credito immagine: Bogdan Dada su Unsplash (annotazioni aggiunte).

6. Attribuzione dell'immagine: Yasmin Dangor su Unsplash (immagine originale e ritagliata mostrata).

7. Crediti immagine: Quinten de Graaf su Unsplash.