Teste o Gemini 3, nosso melhor modelo para raciocínio, programação e compreensão multimodal na plataforma de agentes do Gemini Enterprise

Vision AI

Extraia insights de imagens, documentos e vídeos

Acesse modelos de visão avançados usando APIs para automatizar tarefas de visão, simplificar análises e conseguir insights úteis. Ou crie apps personalizados com treinamento de modelo sem código e baixo custo em um ambiente gerenciado.

Novos clientes ganham até US$ 300 em créditos para testar a Vision AI e outros produtos do Google Cloud.

Além disso, tente implantar soluções recomendadas pelo Google para o resumo de documentos e o processamento de imagens de IA/ML.

Visão geral

O que é visão computacional?

A visão computacional é um campo da inteligência artificial (IA) que permite que computadores e sistemas interpretem e analisem dados visuais e extraiam informações significativas de imagens digitais, vídeos e outras entradas visuais. Algumas de suas aplicações típicas no mundo real incluem: detecção de objetos, processamento de conteúdo visual (imagens, documentos, vídeos), compreensão e análise, pesquisa de produtos, classificação e pesquisa de imagens e moderação de conteúdo.

IA generativa multimodal avançada

A plataforma de agentes do Gemini Enterprise do Google Cloud oferece acesso ao Gemini, uma família de modelos multimodais modernos que entendem praticamente qualquer entrada, combinando diferentes tipos de informações e gerando praticamente qualquer resultado.

IA generativa com foco em visão

Com o Imagen na Plataforma de Agentes, desenvolvedores de aplicativos usam uma API para ter acesso aos recursos de IA generativa de última geração do Google para imagens. Alguns dos principais recursos incluem geração e edição de imagens com comandos de texto, descrição de uma imagem em texto e ajuste do modelo de assunto.

Vision AI pronta para usar

Com a tecnologia dos modelos de ML de visão computacional pré-treinados do Google, a API Cloud Vision está prontamente disponível (REST e RPC) e permite aos desenvolvedores integrar facilmente recursos comuns de detecção de visão nos aplicativos, incluindo: rotulagem de imagens, detecção facial e de pontos de referência, reconhecimento óptico de caracteres (OCR) e marcação de conteúdo explícito.

Cada recurso que você aplica a uma imagem é uma unidade faturável. A API Cloud Vision permite usar 1.000 unidades dos recursos dela todo mês, sem custo financeiro. Veja a Tabela de preços.

Compreensão de documentos da IA generativa

A Document AI é uma plataforma de compreensão de documentos que combina visão computacional e outras tecnologias, como o processamento de linguagem natural, para extrair textos e dados de documentos digitalizados e transformar dados não estruturados em informações estruturadas e insights de negócios.

Ela oferece uma ampla variedade de processadores pré-treinados otimizados para diferentes tipos de documentos. Ela também facilita a criação de processadores personalizados para classificar, dividir e extrair dados estruturados de documentos por meio do Document AI Workbench.

palestrante ao lado do título do vídeo: Document AI - o futuro dos documentos

Introdução à Document AI

4:37

Vision AI pronta para usar em vídeos

Com a tecnologia de visão computacional como foco, a API Video Intelligence é uma maneira fácil de processar, analisar e entender o conteúdo de vídeo.

Os modelos de ML pré-treinados reconhecem automaticamente um grande número de objetos, lugares e ações em vídeos armazenados e via streaming com qualidade excepcional. Eles são altamente eficientes para casos de uso comuns, como moderação e recomendação de conteúdo, arquivos de mídia e publicidade contextual. Também é possível treinar modelos personalizados de ML com o Agent Platform Vision para suas necessidades específicas.

título do vídeo "Use ML para criar um arquivo de vídeo" sobre uma colagem de fotos de família

Demonstração: como usar a API Video Intelligence para criar um arquivo de vídeo pesquisável

6:21

Privacidade e segurança de dados

O Google Cloud tem recursos líderes do setor para você (nossos clientes) controlar seus dados e saber quando e como eles são acessados.

Como cliente do Google Cloud, os dados do cliente são propriedade sua. Temos medidas de segurança rigorosas para proteger seus dados, e oferecemos ferramentas e recursos para você controlá-los do jeito que achar melhor. Os dados são seus, e não do Google. Só tratamos seus dados de acordo com seus contratos.

Saiba mais na nossa Central de recursos de privacidade.

Comparar produtos de visão computacional

Ofertas	Ideal para	Principais recursos
API Cloud Vision	Integração rápida e fácil dos recursos básicos de visão.	Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura. Econômico e com pagamento por uso.
Document AI	Extração de insights de documentos e imagens digitalizados, automatizando fluxos de trabalho de documentos.	OCR (com tecnologia de IA generativa), PLN, ML para compreensão de documentos, extração de texto, identificação de entidades e categorização de documentos.
API Video Intelligence	Análise de conteúdo em vídeo, moderação e recomendação de conteúdo, arquivos de mídia e anúncios contextuais.	Detecção e rastreamento de objetos, compreensão de cena, reconhecimento de atividades, detecção e análise facial, detecção e reconhecimento de texto.
Imagen na plataforma de agentes do Gemini Enterprise	Receba descrições automatizadas de imagens. Classificação e pesquisa de imagens. Moderação e recomendações de conteúdo.	Geração e edição de imagens, legenda visual e embedding multimodal. Confira a lista completa de recursos e as etapas de lançamento.

Otimizados para diferentes finalidades, esses produtos permitem que você aproveite os modelos de ML pré-treinados e comece a trabalhar, com a capacidade de fazer ajustes facilmente.

API Cloud Vision

Ideal para

Integração rápida e fácil dos recursos básicos de visão.

Principais recursos

Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura.

Econômico e com pagamento por uso.

Document AI

Ideal para

Extração de insights de documentos e imagens digitalizados, automatizando fluxos de trabalho de documentos.

Principais recursos

OCR (com tecnologia de IA generativa), PLN, ML para compreensão de documentos, extração de texto, identificação de entidades e categorização de documentos.

API Video Intelligence

Ideal para

Análise de conteúdo em vídeo, moderação e recomendação de conteúdo, arquivos de mídia e anúncios contextuais.

Principais recursos

Detecção e rastreamento de objetos, compreensão de cena, reconhecimento de atividades, detecção e análise facial, detecção e reconhecimento de texto.

Imagen na plataforma de agentes do Gemini Enterprise

Ideal para

Receba descrições automatizadas de imagens.

Classificação e pesquisa de imagens.

Moderação e recomendações de conteúdo.

Principais recursos

Geração e edição de imagens, legenda visual e embedding multimodal.

Confira a lista completa de recursos e as etapas de lançamento.

Otimizados para diferentes finalidades, esses produtos permitem que você aproveite os modelos de ML pré-treinados e comece a trabalhar, com a capacidade de fazer ajustes facilmente.

Como funciona

O pacote de ferramentas da Vision AI do Google Cloud combina visão computacional com outras tecnologias para entender e analisar vídeos e integrar facilmente recursos de detecção de visão a aplicativos. Esses recursos incluem rotulagem de imagens, detecção facial e de pontos de referência, reconhecimento óptico de caracteres (OCR) e inclusão de tags em conteúdo explícito.
Essas ferramentas estão disponíveis por APIs, mas ainda podem ser personalizadas para necessidades específicas.

Como a visão computacional funciona

Demonstração

Saiba como a visão computacional funciona com seus próprios arquivos

Usos comuns

Detecta texto em arquivos brutos e faz resumos automáticos

Resuma documentos grandes com a IA generativa

A solução descrita no diagrama de arquitetura à direita implanta um pipeline que é acionado quando você adiciona um novo documento PDF ao bucket do Cloud Storage. O pipeline extrai o texto do documento, cria um resumo a partir do texto extraído e o armazena em um banco de dados para visualização e pesquisa.

Você pode invocar o aplicativo fazendo upload de arquivos pelo Notebook do Jupyter ou diretamente para o Cloud Storage no console do Google Cloud.

Arquitetura de referência do resumo de documentos usando a IA generativa

Arquitetura de referência: resumo de documentos usando IA generativa

Tempo estimado de implantação: 11 minutos (1 minuto para configurar, 10 minutos para implantar).

Tutoriais

Resuma documentos grandes com a IA generativa

A solução descrita no diagrama de arquitetura à direita implanta um pipeline que é acionado quando você adiciona um novo documento PDF ao bucket do Cloud Storage. O pipeline extrai o texto do documento, cria um resumo a partir do texto extraído e o armazena em um banco de dados para visualização e pesquisa.

Você pode invocar o aplicativo fazendo upload de arquivos pelo Notebook do Jupyter ou diretamente para o Cloud Storage no console do Google Cloud.

Arquitetura de referência: resumo de documentos usando IA generativa

Tempo estimado de implantação: 11 minutos (1 minuto para configurar, 10 minutos para implantar).

Criar um pipeline de processamento de imagem

Processamento de imagens escalonável em uma arquitetura sem servidor

Representada no diagrama à direita, a solução usa modelos de machine learning pré-treinados para analisar imagens fornecidas pelos usuários e gerar anotações nelas. A implantação dessa solução cria um serviço de processamento de imagens que ajuda você a lidar com conteúdo não seguro ou nocivo gerado pelo usuário, digitalizar textos de documentos físicos, detectar e classificar objetos em imagens e muito mais.

Você poderá revisar as definições de configuração e segurança para saber como adaptar o serviço de processamento de imagens às diferentes necessidades.

arquitetura de referência - pipeline de processamento de imagens

Tempo estimado de implantação: 12 minutos (2 minutos para configurar, 10 minutos para implantar).

Tutoriais

Processamento de imagens escalonável em uma arquitetura sem servidor

Representada no diagrama à direita, a solução usa modelos de machine learning pré-treinados para analisar imagens fornecidas pelos usuários e gerar anotações nelas. A implantação dessa solução cria um serviço de processamento de imagens que ajuda você a lidar com conteúdo não seguro ou nocivo gerado pelo usuário, digitalizar textos de documentos físicos, detectar e classificar objetos em imagens e muito mais.

Você poderá revisar as definições de configuração e segurança para saber como adaptar o serviço de processamento de imagens às diferentes necessidades.

Tempo estimado de implantação: 12 minutos (2 minutos para configurar, 10 minutos para implantar).

Receba descrições automatizadas de imagens com a IA generativa

O recurso de legenda visual do Imagen permite gerar uma descrição relevante para uma imagem. Você pode usá-lo para ver metadados mais detalhados sobre imagens, armazenar e pesquisar, gerar legendas automáticas para oferecer suporte a casos de uso de acessibilidade e receber descrições rápidas de produtos e recursos visuais.

Disponível em inglês, francês, alemão, italiano e espanhol, esse recurso pode ser acessado no console do Google Cloud ou por uma chamada de API.

Tutoriais

O recurso de legenda visual do Imagen permite gerar uma descrição relevante para uma imagem. Você pode usá-lo para ver metadados mais detalhados sobre imagens, armazenar e pesquisar, gerar legendas automáticas para oferecer suporte a casos de uso de acessibilidade e receber descrições rápidas de produtos e recursos visuais.

Disponível em inglês, francês, alemão, italiano e espanhol, esse recurso pode ser acessado no console do Google Cloud ou por uma chamada de API.

Extraia textos e insights de documentos com a IA generativa

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo de fundação, o Extrator personalizado do Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e acurácia. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Confira a lista completa de processadores.

Tutoriais

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo de fundação, o Extrator personalizado do Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e acurácia. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Confira a lista completa de processadores.

Preços

Como funcionam os preços da Vision AI	Cada oferta de visão tem um conjunto de recursos ou processadores com preços diferentes. Consulte as páginas de preços detalhadas para mais detalhes.
Nível sem custo financeiro	Produto/serviço	Preço com desconto	Detalhes
API Vision	Primeiras 1.000 unidades todos os meses são sem custo financeiro	Mais de 5.000,001 unidades por mês	Página de preços detalhada
Document AI	N/A Os preços dependem do processador.	mais de 5.000.001 páginas por mês para o processador Enterprise Document OCR	Página de preços detalhada
API Video Intelligence	Primeiros 1.000 minutos por mês são sem custo financeiro	mais de 100.000 minutos por mês	Página de preços detalhada
Imagem — embeddings multimodais			US$ 0,0001 por entrada de imagem
Imagen – legenda visual			US$ 0,0015 por imagem
Gemini Pro Vision			Página de preços detalhada

Como funcionam os preços da Vision AI

Cada oferta de visão tem um conjunto de recursos ou processadores com preços diferentes. Consulte as páginas de preços detalhadas para mais detalhes.

API Vision

Produto/serviço

Primeiras 1.000 unidades

todos os meses são sem custo financeiro

Preço com desconto

Mais de 5.000,001 unidades

por mês

Detalhes

Página de preços detalhada

Document AI

Produto/serviço

N/A

Os preços dependem do processador.

Preço com desconto

mais de 5.000.001 páginas

por mês para o processador Enterprise Document OCR

Detalhes

Página de preços detalhada

API Video Intelligence

Produto/serviço

Primeiros 1.000 minutos

por mês são sem custo financeiro

Preço com desconto

mais de 100.000 minutos

por mês

Detalhes

Página de preços detalhada

Imagem — embeddings multimodais

Produto/serviço

Preço com desconto

Detalhes

US$ 0,0001

por entrada de imagem

Imagen – legenda visual

Produto/serviço

Preço com desconto

Detalhes

US$ 0,0015

por imagem

Gemini Pro Vision

Produto/serviço

Preço com desconto

Detalhes

Página de preços detalhada

CALCULADORA DE PREÇOS

Estime o custo do seu projeto reunindo todas as ferramentas necessárias em um único lugar.

COTAÇÃO PERSONALIZADA

Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para as necessidades da sua organização.

Vision AI

Extraia insights de imagens, documentos e vídeos

Destaques

O que é visão computacional?

IA generativa multimodal avançada

IA generativa com foco em visão

Vision AI pronta para usar

Compreensão de documentos da IA generativa

Vision AI pronta para usar em vídeos

Privacidade e segurança de dados

Saiba como a visão computacional funciona com seus próprios arquivos

Detecta texto em arquivos brutos e faz resumos automáticos

Resuma documentos grandes com a IA generativa

Tutoriais

Resuma documentos grandes com a IA generativa

Criar um pipeline de processamento de imagem

Processamento de imagens escalonável em uma arquitetura sem servidor

Tutoriais

Processamento de imagens escalonável em uma arquitetura sem servidor

Receba descrições automatizadas de imagens com a IA generativa

Tutoriais

Extraia textos e insights de documentos com a IA generativa

Descubra insights de documentos diferenciados com a Document AI

Tutoriais

Descubra insights de documentos diferenciados com a Document AI

CALCULADORA DE PREÇOS

COTAÇÃO PERSONALIZADA

Comece sua prova de conceito

Novos clientes ganham até US$ 300 em créditos para testar a Vision AI e outros produtos do Google Cloud

1.000 páginas/mês sem custo financeiro com o OCR de documentos

Saiba como fazer streaming de vídeos ao vivo com a API Video Intelligence

Saiba como criar um app detector de objetos na plataforma de agentes do Gemini Enterprise

Confira exemplos de código da API Vision