Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

Teste o Gemini 3, nosso melhor modelo para raciocínio, programação e compreensão multimodal na plataforma de agentes do Gemini Enterprise

OCR (reconhecimento óptico de caracteres)

OCR (reconhecimento óptico de caracteres) com a melhor IA do Google Cloud

Extraia textos e dados de imagens e documentos, transforme conteúdo não estruturado em dados estruturados para empresas e receba insights valiosos.

Integre as funcionalidades de OCR aos seus aplicativos usando APIs.

Novos clientes ganham US$ 300 em créditos ao se inscreverem para usar documentos que resumem as soluções de OCR.

Visão geral

O que é OCR?

O reconhecimento óptico de caracteres (OCR) é uma tecnologia básica por trás da conversão de texto digitado, escrito à mão ou impresso de imagens em texto codificado por máquina.

Que tipos de OCR o Google Cloud oferece?

O Google Cloud oferece dois tipos de OCR: OCR para documentos e OCR para imagens e vídeos.

Embora tenham uma tecnologia fundamental, o Document AI é uma plataforma de compreensão de documentos otimizada para o processamento de documentos. O extrator personalizado usa a tecnologia de IA generativa, que processa documentos genéricos e específicos do domínio com maior precisão e rapidez, sem a necessidade de escolher um processador especializado.

O Cloud Vision costuma ser usado para detectar texto, escrita à mão e uma grande variedade de objetos de imagens e vídeos.

Como o OCR funciona no Google Cloud?

O Google Cloud gera OCR com a melhor IA do setor. Além de reconhecer o texto tradicional, ele é capaz de compreender, organizar e enriquecer dados, gerando insights prontos para os negócios.

Ele oferece flexibilidade para usar as ferramentas de OCR como um pacote unificado para melhorar a eficiência (por exemplo, Document AI) ou simplesmente chama as APIs relevantes diretamente no console do Google Cloud para integrar funcionalidades de OCR aos seus aplicativos.

imagem mostrando as funcionalidades da Document AI

VÍDEO

O que é a Document AI?

4:36

Como a IA do Google Cloud e o OCR funcionam juntos?

Todas as soluções de OCR mencionadas acima fornecem acesso a modelos de ML pré-treinados que podem ser implantados imediatamente por meio de uma API ou treinamento para melhorar a precisão para suas necessidades específicas.

Também é possível treinar seus próprios modelos personalizados com o AutoML, sem precisar de experiência em machine learning.

Confira a documentação do AutoML sobre como criar modelos de ML personalizados.

VÍDEO

Quando e como criar e treinar modelos de ML com o AutoML

2:11

Qual é a melhor solução de OCR para mim?

Se você quiser analisar um documento ou criar um pipeline de processamento de documentos automatizado, use Document AI: ele cuida de todo o fluxo de trabalho em um só lugar, desde a compreensão de documentos até a pesquisa, o armazenamento, a governança e o gerenciamento deles em conjunto com os dados extraídos.

Se você quiser analisar e processar imagens, use o Cloud Vision com outros produtos do Google Cloud para ter melhores resultados. Consulte a seção "Usos comuns" para ver detalhes e guias de início rápido.

O teste das duas APIs não tem custo financeiro ao usar uma conta do Google Cloud.

Comparar as opções de OCR

Opção de OCR		Ideal para	Principais recursos
API Cloud Vision		Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.	Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura.
Document AI	Enterprise Document OCR	Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).	Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão. Complementos para reconhecer fórmulas matemáticas, estilos etc.
	Document AI Workbench	Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)	Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva. Classificador personalizado e divisor de documentos para um processamento eficiente.
	Modelos pré-treinados	Extração de texto e campo de documentos específicos do domínio.	Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.

API Cloud Vision

Ideal para

Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.

Principais recursos

Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura.

Document AI

Enterprise Document OCR

Ideal para

Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).

Principais recursos

Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão.

Complementos para reconhecer fórmulas matemáticas, estilos etc.

Document AI Workbench

Ideal para

Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)

Principais recursos

Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva.

Classificador personalizado e divisor de documentos para um processamento eficiente.

Modelos pré-treinados

Ideal para

Extração de texto e campo de documentos específicos do domínio.

Principais recursos

Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.

Como funciona

Para entender e processar documentos, use a Document AI.
Para imagens, recomendamos o uso do Cloud Vision.
Ambos dão acesso a modelos de ML pré-treinados que podem ser implantados no estado em que se encontram por meio de APIs ou treinamento. Também é possível treinar seus próprios modelos personalizados do zero com o AutoML, sem precisar de experiência com ML.
As primeiras 1.000 unidades do mês não têm custo financeiro quando você usa o Cloud Vision ou o OCR de documentos. Faça um teste com uma simples chamada de API.

imagem mostrando os produtos de nuvem trabalhando juntos

Como o Cloud Vision reconhece e classifica imagens

Demonstração

Veja o OCR de documentos em ação com seus próprios documentos

Teste a API Document AI com um simples arrastar e soltar.

Usos comuns

Extraia textos de documentos com a IA generativa

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.

Dois palestrantes ao lado do nome do evento: como o OCR e a IA generativa podem turbinar sua empresa

25:47

Tutoriais

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.

25:47

Crie uma solução de documentos completa

Criar um pipeline de processamento e compreensão de documentos

Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. A Pesquisa de agentes na plataforma de agentes do Gemini Enterprise permite consultar e pesquisar seus documentos no Cloud Storage, de maneira conversacional ou tradicional.

Arquitetura de referência de uma solução de documento completa com vários produtos do Google Cloud

Laboratório prático: criar um pipeline completo de captura de dados usando a Document AI e o Cloud Functions

A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.

Tutoriais

Criar um pipeline de processamento e compreensão de documentos

Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. A Pesquisa de agentes na plataforma de agentes do Gemini Enterprise permite consultar e pesquisar seus documentos no Cloud Storage, de maneira conversacional ou tradicional.

Laboratório prático: criar um pipeline completo de captura de dados usando a Document AI e o Cloud Functions

A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.

Inclusão de tag, processamento e pesquisa de imagens

Usar a API Cloud Vision e o AutoML para marcar e processar imagens

A marcação de imagem também é conhecida como rotulagem de imagens.

A API Cloud Vision pode identificar e rotular objetos gerais, pontos de referência, locais, logotipos, atividades, espécies de animais, produtos e muito mais em uma imagem. Depois que as imagens são marcadas com os rótulos detectados, a pesquisa, o processamento e o gerenciamento de imagens são automatizados e ficam mais fáceis.

Se você precisar de rótulos personalizados segmentados, use o Cloud AutoML para treinar um modelo de ML personalizado.

Para usar as tecnologias de OCR do Google no local, use OCR no local, disponível no Cloud Marketplace.

diagrama de arquitetura que mostra como o ML automático e a Cloud Vision AI funcionam com outros produtos do Google Cloud para analisar imagens

Tutoriais

Usar a API Cloud Vision e o AutoML para marcar e processar imagens

A marcação de imagem também é conhecida como rotulagem de imagens.

A API Cloud Vision pode identificar e rotular objetos gerais, pontos de referência, locais, logotipos, atividades, espécies de animais, produtos e muito mais em uma imagem. Depois que as imagens são marcadas com os rótulos detectados, a pesquisa, o processamento e o gerenciamento de imagens são automatizados e ficam mais fáceis.

Se você precisar de rótulos personalizados segmentados, use o Cloud AutoML para treinar um modelo de ML personalizado.

Para usar as tecnologias de OCR do Google no local, use OCR no local, disponível no Cloud Marketplace.

Outros recursos

Exemplo de preço

Para executar um pipeline básico de processamento de imagens que detecta rótulos, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.

É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.

As primeiras 1.000 unidades por mês não têm custo financeiro.

Arquitetura de referência de pesquisa, processamento e inclusão de tags em imagens

Extrair texto de imagens

Extrair texto de imagens com a API Cloud Vision

Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.

É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.

Arquitetura de referência da API Cloud Vision

Tutoriais

Extrair texto de imagens com a API Cloud Vision

Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.

É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.

Outros recursos

Exemplo de preço

Para executar um pipeline de processamento básico que extrai texto de imagens, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.

É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.

As primeiras 1.000 unidades por mês não têm custo financeiro.

Preços

Quanto custa meu caso de uso?	Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.
Caso de uso	Produtos usados	Hipóteses de uso	Custo mensal estimado (USD)
Inclusão de tag, processamento e pesquisa de imagens	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente 2. 100 GiB de armazenamento mensal 3. Uma CPU de 1,25 GiB 4. Quatro GiB publicados diariamente pelo Pub/Sub Ver detalhes do cálculo na calculadora	US$ 27,36
Extraia textos e insights de documentos	Document AI Cloud Storage BigQuery Cloud Functions	1. 1.000 chamadas de API do analisador de formulários da Document AI 2. 100 GiB de armazenamento mensal 3. Consultas mensais de 1 TiB 4. RAM: 512 MB, CPU: 800 MHz Ver detalhes do cálculo na calculadora	US$ 71,87
Extrair texto de imagens	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 chamadas da API Cloud Vision OCR por mês 2. 100 GiB de armazenamento mensal 3. Uma CPU de 1,25 GiB 4. Quatro GiB publicados diariamente pelo Pub/Sub Ver detalhes do cálculo na calculadora	US$ 27,36

Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.

Quanto custa meu caso de uso?

Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.

Inclusão de tag, processamento e pesquisa de imagens

Produtos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Hipóteses de uso

1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente

2. 100 GiB de armazenamento mensal

3. Uma CPU de 1,25 GiB

4. Quatro GiB publicados diariamente pelo Pub/Sub

Ver detalhes do cálculo na calculadora

Custo mensal estimado (USD)

US$ 27,36

Extraia textos e insights de documentos

Produtos usados

Document AI

Cloud Storage

BigQuery

Cloud Functions

Hipóteses de uso

1. 1.000 chamadas de API do analisador de formulários da Document AI

2. 100 GiB de armazenamento mensal

3. Consultas mensais de 1 TiB

4. RAM: 512 MB, CPU: 800 MHz

Ver detalhes do cálculo na calculadora

Custo mensal estimado (USD)

US$ 71,87

Extrair texto de imagens

Produtos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Hipóteses de uso

1. 15.000 chamadas da API Cloud Vision OCR por mês

2. 100 GiB de armazenamento mensal

3. Uma CPU de 1,25 GiB

4. Quatro GiB publicados diariamente pelo Pub/Sub

Ver detalhes do cálculo na calculadora

Custo mensal estimado (USD)

US$ 27,36

Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.

Calculadora de preços

Estime o custo do seu projeto reunindo todas as ferramentas necessárias em um único lugar.

Cota personalizada

Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para as necessidades da sua organização.

OCR (reconhecimento óptico de caracteres)

OCR (reconhecimento óptico de caracteres) com a melhor IA do Google Cloud

Destaques do OCR

O que é OCR?

Que tipos de OCR o Google Cloud oferece?

Como o OCR funciona no Google Cloud?

Como a IA do Google Cloud e o OCR funcionam juntos?

Qual é a melhor solução de OCR para mim?

Veja o OCR de documentos em ação com seus próprios documentos

Extraia textos de documentos com a IA generativa

Descubra insights de documentos diferenciados com a Document AI

Tutoriais

Descubra insights de documentos diferenciados com a Document AI

Crie uma solução de documentos completa

Criar um pipeline de processamento e compreensão de documentos

Tutoriais

Criar um pipeline de processamento e compreensão de documentos

Inclusão de tag, processamento e pesquisa de imagens

Usar a API Cloud Vision e o AutoML para marcar e processar imagens

Exemplo de preço

Tutoriais

Usar a API Cloud Vision e o AutoML para marcar e processar imagens

Outros recursos

Exemplo de preço

Extrair texto de imagens

Extrair texto de imagens com a API Cloud Vision

Exemplo de preço

Tutoriais

Extrair texto de imagens com a API Cloud Vision

Outros recursos

Exemplo de preço

Calculadora de preços

Cota personalizada

Comece sua prova de conceito

Clientes novos ganham até US$ 300 em créditos para testar produtos de IA do Google Cloud

Tem um projeto grande?

Confira amostras de código para soluções de OCR e casos de uso

Saiba como detectar rótulos com a API Cloud Vision

Saiba como automatizar um pipeline de processamento de documentos com a IA do Google