Lista de funcionalidades

Atualmente, a API Vision permite-lhe usar as seguintes funcionalidades:

Todos os tipos de funcionalidades

Deteção de texto

Imagem de sinal de trânsito
  • Reconhecimento ótico de carateres (OCR) para uma imagem; reconhecimento de texto e conversão em texto codificado por máquina. Identifica e extrai texto UTF-8 numa imagem.
  • Imagens: otimizadas para áreas esparsas de texto numa imagem maior.
  • Resposta: devolve uma lista de palavras identificadas com texto, caixas delimitadoras e textAnnotations, bem como a hierarquia estrutural do texto detetado pelo OCR (fullTextAnnotation).
    • Hierarquia da estrutura do texto extraído:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Cada componente estrutural de Page on pode ter ainda as suas próprias propriedades, como idiomas detetados, pausas, etc.
  • Idiomas suportados: funciona com os idiomas atualmente suportados, mapeados e experimentais.
  • Valor enum do elemento: TEXT_DETECTION.

Deteção de texto em documentos (texto denso / escrita manual)

Imagem densa com anotações
imagem de escrita manual
  • Reconhecimento ótico de carateres (OCR) para um ficheiro (PDF/TIFF) ou uma imagem de texto densa; reconhecimento de texto denso e conversão em texto codificado por máquina.
  • Ficheiros: otimizado para ficheiros de documentos (PDF/TIFF).
  • Imagens: otimizadas para áreas densas de texto numa imagem (imagens que são documentos) e imagens que contêm escrita manual.
  • Resposta: devolve a hierarquia estrutural do texto detetado pelo OCR (fullTextAnnotation).
    • Hierarquia da estrutura do texto extraído:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Cada componente estrutural de Page on pode ter ainda as suas próprias propriedades, como idiomas detetados, pausas, etc.
  • Idiomas suportados: funciona com os idiomas atualmente suportados, mapeados e experimentais.
  • Valor enum do elemento: DOCUMENT_TEXT_DETECTION.
    • Tem precedência quando são pedidos DOCUMENT_TEXT_DETECTION e TEXT_DETECTION.

Deteção de pontos de referência 1

Imagem da Catedral de São Basílio
  • Fornece o nome do ponto de referência, uma pontuação de confiança e uma caixa delimitadora na imagem para o ponto de referência.
  • Fornece as coordenadas da entidade detetada.

Deteção de logótipos 2

logótipo com anotações
  • Fornece uma descrição textual da entidade identificada, uma pontuação de confiança e um polígono delimitador para o logótipo no ficheiro.

Deteção de etiquetas 3

Imagem de rua de Xangai
  • Fornece etiquetas generalizadas para uma imagem.
  • Para cada etiqueta, é devolvida uma descrição textual, uma pontuação de confiança e uma classificação de topicalidade.

Propriedades da imagem 4

Imagem de Bali com propriedades
  • Devolve as cores dominantes numa imagem.
  • Cada cor é representada no espaço de cores RGBA, tem uma pontuação de confiança e apresenta a fração de píxeis ocupados pela cor [0, 1].

Localização de objetos 5

Imagem com caixas limitadoras
  • Fornece anotações gerais de etiquetas e caixas delimitadoras para vários objetos reconhecidos numa única imagem.
  • Para cada objeto detetado, são devolvidos os seguintes elementos: uma descrição textual, uma pontuação de confiança e vértices normalizados [0,1] para o polígono delimitador à volta do objeto.

Deteção de sugestões de recorte 6

imagem com versão recortada
  • Fornece um polígono delimitador para a imagem recortada, uma pontuação de confiança e uma fração de importância desta região saliente relativamente à imagem original para cada pedido.
  • Pode fornecer até 16 valores de proporção de imagem (largura:altura) para uma única imagem.

Entidades e páginas Web 7

imagem com tabela de entidades Web
  • Fornece uma série de conteúdos Web relacionados com uma imagem.
  • Devolve as seguintes informações:
    • Entidades Web: entidades inferidas (etiquetas/descrições) de imagens semelhantes na Web.
    • Imagens de correspondência total: uma lista de URLs de imagens de correspondência total de qualquer tamanho na Internet.
    • Imagens de correspondência parcial: uma lista de URLs de imagens que partilham caraterísticas de pontos-chave, como uma versão recortada da imagem original.
    • Páginas com imagens correspondentes: uma lista de páginas Web (identificadas pelo URL da página, título da página e URL da imagem correspondente) com uma imagem que cumpre as condições descritas acima.
    • Imagens visualmente semelhantes: uma lista de URLs de imagens que partilham algumas funcionalidades com a imagem original.
    • Etiqueta de melhor palpite: um melhor palpite sobre o tópico da imagem pedida inferido a partir de imagens semelhantes na Internet.

Deteção de conteúdo explícito (Pesquisa segura)

  • Fornece classificações de probabilidade para as seguintes categorias de conteúdo explícito: adult, spoof, medical, violence e racy.
  • As classificações de probabilidade são expressas como 6 valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.

Deteção de caras

Imagem de amostra com deteção facial
  • Localiza caras com polígonos delimitadores e identifica "pontos de referência" faciais específicos, como olhos, orelhas, nariz, boca, etc., juntamente com os respetivos valores de confiança.
  • Devolve classificações de probabilidade para a emoção (alegria, tristeza, raiva, surpresa) e propriedades gerais da imagem (subexposta, desfocada, presença de um acessório para a cabeça).
  • As classificações de probabilidade são expressas como 6 valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.
  • Indivíduo específico Reconhecimento facial não é suportado.

1. Crédito da imagem: Nikolay Vorobyev no Unsplash (anotações adicionadas).

2. Créditos da imagem: Robert Scoble (CC BY 2.0, anotação adicionada).

3. Crédito da imagem: Alex Knight no Unsplash.

4. Crédito da imagem: Jeremy Bishop no Unsplash.

5. Crédito da imagem: Bogdan Dada no Unsplash (anotações adicionadas).

6. Crédito da imagem: Yasmin Dangor no Unsplash (imagem original e recortada apresentada).

7. Crédito da imagem: Quinten de Graaf no Unsplash.