Lista de recursos

No momento, a API Vision permite o uso dos seguintes recursos:

Todos os tipos de recursos

Detecção de texto

Imagem de sinal de trânsito
  • Reconhecimento óptico de caracteres (OCR) para imagens, reconhecimento de texto e conversão para texto codificado por máquina. Identifica e extrai textos UTF-8 em uma imagem.
  • Imagens: otimizadas para áreas esparsas de texto em uma imagem maior.
  • Resposta: retorna uma lista de palavras identificadas com o texto, caixas delimitadoras e textAnnotations, bem como a hierarquia estrutural do texto detectado pelo OCR (fullTextAnnotation).
    • Hierarquia da estrutura do texto extraído:
      • TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo.
      • Depois de Página, cada componente estrutural pode ter propriedades próprias, como idiomas detectados, quebras de linha etc.
  • Idiomas aceitos: funciona atualmente com idiomas aceitos, mapeados e experimentais.
  • Valor de enumeração do recurso: TEXT_DETECTION.

Detecção de texto de documentos (textos densos/escritos à mão)

Imagem densa com anotações
imagem de escrita à mão
  • Reconhecimento óptico de caracteres (OCR) de um arquivo (PDF/TIFF) ou imagem de texto denso, reconhecimento de texto denso e conversão para texto codificado por máquina.
  • Arquivos: otimizados para arquivos de documentos (PDF/TIFF).
  • Imagens: otimizadas para áreas de textodensas em uma imagem (imagens que são documentos) e imagens que contêm textos escritos à mão.
  • Resposta: retorna a hierarquia estrutural do texto detectado pelo OCR (fullTextAnnotation).
    • Hierarquia da estrutura do texto extraído:
      • TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo.
      • Depois de Página, cada componente estrutural pode ter propriedades próprias, como idiomas detectados, quebras de linha etc.
  • Idiomas aceitos: no momento, funciona com idiomas aceitos, mapeados e experimentais.
  • Valor de enumeração do recurso: DOCUMENT_TEXT_DETECTION.
    • Tem precedência quando DOCUMENT_TEXT_DETECTION e TEXT_DETECTION são solicitados.

Detecção de pontos de referência 1

Imagem da Catedral de São Basílio
  • Fornece o nome do ponto de referência, uma pontuação de confiança e uma caixa delimitadora para o ponto de referência da imagem.
  • Fornece as coordenadas da entidade detectada.

Detecção de logotipos 2

logotipo anotado
  • Fornece uma descrição textual da entidade identificada, um índice de confiança e um polígono delimitador para o logotipo no arquivo.

Detecção de rótulos 3

Imagem de uma rua de Xangai
  • Fornece rótulos generalizados para uma imagem.
  • Para cada rótulo, são retornadas uma descrição textual, uma pontuação de confiança e uma classificação de utilidade.

Propriedades da imagem 4

Imagem de Bali com propriedades
  • Retorna as cores predominantes em uma imagem.
  • Cada cor é representada no espaço de cores RGBA com uma pontuação de confiança e a fração de pixels ocupada pela cor [0, 1].

Localização de objetos 5

imagem com caixas delimitadoras
  • Fornece anotações gerais de rótulos e caixas delimitadoras para vários objetos reconhecidos em uma única imagem.
  • Para cada objeto detectado, os seguintes elementos são retornados: uma descrição textual, uma pontuação de confiança e vértices normalizados [0,1] para o polígono delimitador ao redor do objeto.

Detecção de dicas de corte 6

imagem com versão cortada
  • Fornece um polígono delimitador para a imagem cortada, uma pontuação de confiança e uma fração de importância da região saliente em relação à imagem original para cada solicitação.
  • É possível fornecer até 16 valores de proporção de imagem (largura:altura) para uma única imagem.

Páginas e entidades da Web 7

imagem com tabela de entidades da Web
  • Fornece uma série de conteúdos da Web relacionados a uma imagem.
  • Retorna as seguintes informações:
    • Entidades da Web: entidades inferidas (rótulos/descrições) com base em imagens semelhantes na Web.
    • Imagens completamente correspondentes: uma lista de URLs de imagens totalmente correspondentes e de qualquer tamanho na Internet.
    • Imagens parcialmente correspondentes: uma lista de URLs de imagens que compartilham atributos de pontos importantes, como uma versão cortada da imagem original.
    • Páginas com imagens correspondentes: uma lista de páginas da Web (identificadas por URL, título da página e URL da imagem correspondente) com uma imagem que atende às condições descritas acima.
    • Imagens visualmente semelhantes: uma lista de URLs de imagens que compartilham alguns atributos com a imagem original.
    • Rótulo com a melhor sugestão: um palpite sobre o assunto da imagem solicitada inferido com base em imagens semelhantes na Internet.

Detecção de conteúdo explícito (SafeSearch)

  • Fornece classificações de probabilidade para as seguintes categorias de conteúdo explícito: adult, spoof, medical, violence e racy.
  • As avaliações de probabilidade são expressas como seis valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.

Detecção facial

imagem de exemplo com detecção facial
  • Localiza rostos com polígonos delimitantes e identifica pontos de referência faciais específicos, como olhos, ouvidos, nariz, boca etc., além dos níveis de confiança correspondentes.
  • Retorna as classificações de probabilidade de emoções (alegria, tristeza, raiva, surpresa) e propriedades gerais da imagem (subexposta, desfocada, exibindo chapéus e afins).
  • As avaliações de probabilidade são expressas como seis valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY ou VERY_LIKELY.
  • O reconhecimento facial individual específico não é aceito.

1. Crédito da imagem: Nikolay Vorobyev em Unsplash (anotações adicionadas).

2. Crédito da imagem: Robert Scoble (CC BY 2.0, anotação adicionada).

3. Crédito da imagem: Alex Knight em Unsplash.

4. Crédito da imagem: Jeremy Bishop em Unsplash.

5. Crédito da imagem: Bogdan Dada em Unsplash (anotações adicionadas).

6. Crédito da imagem: Yasmin Dangor em Unsplash (a imagem original e a versão cortada são exibidas).

7. Crédito da imagem: Quinten de Graaf no Unsplash.