Lista de recursos

Atualmente, a API Vision permite que você use os seguintes recursos:

Todos os tipos de atributos

Detecção de texto

Imagem de sinal de trânsito
  • Oferece reconhecimento óptico de caracteres (OCR, na sigla em inglês) de uma imagem, reconhecimento de texto e conversão para texto codificado por máquina. Identifica e extrai o texto UTF-8 em uma imagem.
  • Imagens: otimizadas para áreas esparsas de texto em uma imagem maior.
  • Resposta: retorna uma lista de palavras identificadas com texto, caixas delimitadoras e textAnnotations, bem como a hierarquia estrutural do texto detectado pelo OCR (fullTextAnnotation).
    • Hierarquia da estrutura de texto extraída:
      • TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo.
      • Depois de "Página", cada componente estrutural pode ter propriedades próprias, como idiomas detectados, quebras de linha etc.
  • Idiomas compatíveis: funciona atualmente com idiomas compatíveis, mapeados e experimentais.
  • Valor de enumeração do atributo: TEXT_DETECTION.

Detecção de texto de documentos (texto denso/escrito à mão)

Imagem densa com anotações
imagem de escrita à mão
  • Reconhecimento óptico de caracteres (OCR, na sigla em inglês) de um arquivo (PDF/TIFF) ou imagem de texto densa, reconhecimento de texto denso e conversão para texto codificado por máquina.
  • Arquivos: otimizado para arquivos de documentos (PDF/TIFF).
  • Imagens: otimizado para áreas de textodensas em uma imagem (imagens que são documentos) e imagens que contêm texto escrito à mão.
  • Resposta: retorna a hierarquia estrutural do texto detectado pelo OCR (fullTextAnnotation).
    • Hierarquia da estrutura de texto extraída:
      • TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo.
      • Depois de "Página", cada componente estrutural pode ter propriedades próprias, como idiomas detectados, quebras de linha etc.
  • Idiomas compatíveis: funciona atualmente com idiomas compatíveis, mapeados e experimentais.
  • Valor de enumeração do atributo: DOCUMENT_TEXT_DETECTION.
    • Tem precedência quando DOCUMENT_TEXT_DETECTION e TEXT_DETECTION são solicitados.

Detecção de pontos de referência 1

Imagem de Catedral de São Basílio
  • Fornece o nome do ponto de referência, um índice de confiança e uma caixa delimitadora na imagem do ponto de referência.
  • Fornece coordenadas da entidade detectada.

Detecção de logotipos 2

logotipo anotado
  • Fornece uma descrição textual da entidade identificada, um índice de confiança e um polígono delimitador para o logotipo no arquivo.

Detecção de rótulos 3

Imagem de uma rua de Xangai
  • Fornece rótulos generalizados para uma imagem.
  • Para cada rótulo, são retornados uma descrição textual, um índice de confiança e uma classificação de utilidade.

Propriedades de imagens 4

Imagem de Bali com propriedades
  • Retorna as cores predominantes em uma imagem.
  • Representa cada cor no espaço de cores RGBA, tem um índice de confiança e exibe a fração de pixels ocupada pela cor [0, 1].

Localização de objetos 5

imagem com caixas delimitadoras
  • Fornece anotações gerais de rótulos e caixas delimitadoras para vários objetos reconhecidos em uma única imagem.
  • Para cada objeto detectado, os seguintes elementos são retornados: uma descrição textual, um índice de confiança e vértices normalizados [0,1] para o polígono delimitador ao redor do objeto.

Detecção de dicas de corte 6

imagem com versão cortada
  • Fornece um polígono delimitador para a imagem cortada, um índice de confiança e uma fração de importância desta região saliente em relação à imagem original para cada solicitação.
  • É possível fornecer até 16 valores de proporção de imagem (largura:altura) para uma única imagem.

Páginas e entidades da Web 7

imagem com tabela de entidades da Web
  • Fornece uma série de conteúdos da Web relacionados a uma imagem.
  • Retorna as seguintes informações:
    • Entidades da Web: entidades inferidas (rótulos/descrições) de imagens semelhantes na Web
    • Imagens completamente correspondentes: uma lista de URLs de imagens totalmente correspondentes de qualquer tamanho na Internet
    • Imagens parcialmente correspondentes: uma lista de URLs de imagens que compartilham atributos de pontos chave, como uma versão cortada da imagem original
    • Páginas com imagens correspondentes: uma lista de páginas da Web (identificadas pelo URL, título da página e URL da imagem correspondente) com uma imagem que satisfaça as condições descritas acima
    • Imagens visualmente semelhantes: uma lista de URLs de imagens que compartilham alguns atributos com a imagem original
    • Melhor rótulo de sugestões: um palpite sobre o assunto da imagem solicitada inferida de imagens semelhantes na Internet

Detecção explícita de conteúdo (SafeSearch)

  • Fornece classificações de probabilidade para as seguintes categorias de conteúdo explícito: adult, spoof, medical, violence e racy.
  • As avaliações de probabilidade são expressas como seis valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.

Detecção facial

imagem de amostra com detecção facial
  • Localiza rostos com polígonos delimitantes e identifica "pontos de referência" faciais específicos, como olhos, ouvidos, nariz, boca etc., junto aos níveis de confiança correspondentes.
  • Retorna as classificações de probabilidade de emoções (alegria, tristeza, raiva, surpresa) e propriedades gerais da imagem (subexposta, desfocada, exibindo chapéus e afins).
  • As avaliações de probabilidade são expressas como seis valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.
  • O reconhecimento facial específico individual não é compatível.

1. Crédito da imagem: Nikolay Vorobyev em Unsplash (anotações adicionadas) (links em inglês).

2. Crédito da imagem: Robert Scoble (CC BY 2.0, anotação adicionada) (links em inglês).

3. Crédito da imagem: Alex Knight em Unsplash. (links em inglês)

4. Crédito da imagem: Jeremy Bishop em Unsplash. (links em inglês)

5. Crédito da imagem: Bogdan Dada em Unsplash (anotações adicionadas) (links em inglês).

6. Crédito da imagem: Yasmin Dangor em Unsplash (imagem original e cortada exibida) (links em inglês).

7. Crédito da imagem: Quinten de Graaf no Unsplash (links em inglês).