Extraia textos e dados de imagens e documentos, transforme conteúdo não estruturado em dados estruturados para empresas e receba insights valiosos.
Integre as funcionalidades de OCR aos seus aplicativos usando APIs.
Novos clientes ganham US$ 300 em créditos ao se inscreverem para usar documentos que resumem as soluções de OCR.
Visão geral
O Google Cloud oferece dois tipos de OCR: OCR para documentos e OCR para imagens e vídeos.
Embora tenham uma tecnologia fundamental, o Document AI é uma plataforma de compreensão de documentos otimizada para o processamento de documentos. O extrator personalizado usa a tecnologia de IA generativa , que processa documentos genéricos e específicos do domínio com maior precisão e rapidez, sem a necessidade de escolher um processador especializado.
O Cloud Vision costuma ser usado para detectar texto, escrita à mão e uma grande variedade de objetos de imagens e vídeos.
O Google Cloud gera OCR com a melhor IA do setor. Além de reconhecer o texto tradicional, ele é capaz de compreender, organizar e enriquecer dados, gerando insights prontos para os negócios.
Ele oferece flexibilidade para usar as ferramentas de OCR como um pacote unificado para melhorar a eficiência (por exemplo, Document AI) ou simplesmente chama as APIs relevantes diretamente no console do Google Cloud para integrar funcionalidades de OCR aos seus aplicativos.
Todas as soluções de OCR mencionadas acima fornecem acesso a modelos de ML pré-treinados que podem ser implantados imediatamente por meio de uma API ou treinamento para melhorar a precisão para suas necessidades específicas.
Também é possível treinar seus próprios modelos personalizados com o AutoML, sem precisar de experiência em machine learning.
Confira a documentação do AutoML sobre como criar modelos de ML personalizados.
Se você quiser analisar um documento ou criar um pipeline de processamento de documentos automatizado, use Document AI: ele cuida de todo o fluxo de trabalho em um só lugar, desde a compreensão de documentos até a pesquisa, o armazenamento, a governança e o gerenciamento deles em conjunto com os dados extraídos.
Se você quiser analisar e processar imagens, use o Cloud Vision com outros produtos do Google Cloud para ter melhores resultados. Consulte a seção "Usos comuns" para ver detalhes e guias de início rápido.
As duas APIs são gratuitas para teste com uma conta do Google Cloud.
Comparar as opções de OCR
Opção de OCR | Ideal para | Principais recursos | |
---|---|---|---|
| Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade. | Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura. | |
Enterprise Document OCR | Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX). | Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão. Complementos para reconhecer fórmulas matemáticas, estilos etc. | |
| Document AI Workbench | Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação) | Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva. Classificador personalizado e divisor de documentos para um processamento eficiente. |
| Modelos pré-treinados | Extração de texto e campo de documentos específicos do domínio. | Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais. |
Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.
Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura.
Enterprise Document OCR
Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).
Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão.
Complementos para reconhecer fórmulas matemáticas, estilos etc.
Document AI Workbench
Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)
Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva.
Classificador personalizado e divisor de documentos para um processamento eficiente.
Modelos pré-treinados
Extração de texto e campo de documentos específicos do domínio.
Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.
Como funciona
Para entender e processar documentos, use a Document AI.
Para imagens, recomendamos o uso do Cloud Vision.
Ambos dão acesso a modelos de ML pré-treinados que podem ser implantados no estado em que se encontram por meio de APIs ou treinamento. Também é possível treinar seus próprios modelos personalizados do zero com o AutoML, sem precisar de experiência com ML.
As primeiras 1.000 unidades do mês são gratuitas quando você usa o Cloud Vision ou o OCR de documentos. Faça um teste com uma simples chamada de API.
Demonstração
Teste a API Document AI com um simples arrastar e soltar.
Usos comuns
Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.
Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.
Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.
Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.
Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.
Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.
Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. Com a Vertex AI para Pesquisa, é possível consultar e pesquisar seus documentos no Cloud Storage, de forma conversacional ou tradicional.
A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.
Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. Com a Vertex AI para Pesquisa, é possível consultar e pesquisar seus documentos no Cloud Storage, de forma conversacional ou tradicional.
A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.
A marcação de imagem também é conhecida como rotulagem de imagens.
A API Cloud Vision pode identificar e rotular objetos gerais, pontos de referência, locais, logotipos, atividades, espécies de animais, produtos e muito mais em uma imagem. Depois que as imagens são marcadas com os rótulos detectados, a pesquisa, o processamento e o gerenciamento de imagens são automatizados e ficam mais fáceis.
Se você precisar de rótulos personalizados segmentados, use o Cloud AutoML para treinar um modelo de ML personalizado.
Para usar as tecnologias de OCR do Google no local, use OCR no local, disponível no Cloud Marketplace.
Para executar um pipeline básico de processamento de imagens que detecta rótulos, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.
É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.
As primeiras 1.000 unidades por mês são gratuitas.
A marcação de imagem também é conhecida como rotulagem de imagens.
A API Cloud Vision pode identificar e rotular objetos gerais, pontos de referência, locais, logotipos, atividades, espécies de animais, produtos e muito mais em uma imagem. Depois que as imagens são marcadas com os rótulos detectados, a pesquisa, o processamento e o gerenciamento de imagens são automatizados e ficam mais fáceis.
Se você precisar de rótulos personalizados segmentados, use o Cloud AutoML para treinar um modelo de ML personalizado.
Para usar as tecnologias de OCR do Google no local, use OCR no local, disponível no Cloud Marketplace.
Para executar um pipeline básico de processamento de imagens que detecta rótulos, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.
É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.
As primeiras 1.000 unidades por mês são gratuitas.
Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.
É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.
Para executar um pipeline de processamento básico que extrai texto de imagens, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.
É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.
As primeiras 1.000 unidades por mês são gratuitas.
Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.
É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.
Para executar um pipeline de processamento básico que extrai texto de imagens, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.
É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.
As primeiras 1.000 unidades por mês são gratuitas.
Preços
Quanto custa meu caso de uso? | Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas. | ||
---|---|---|---|
Caso de uso | Produtos usados | Hipóteses de uso | Custo mensal estimado (USD) |
Inclusão de tag, processamento e pesquisa de imagens | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente 2. 100 GiB de armazenamento mensal 3. Uma CPU de 1,25 GiB 4. Quatro GiB publicados diariamente pelo Pub/Sub | US$ 27,36 |
Extraia textos e insights de documentos | Document AI Cloud Storage BigQuery Cloud Functions | 1. 1.000 chamadas de API do analisador de formulários da Document AI 2. 100 GiB de armazenamento mensal 3. Consultas mensais de 1 TiB 4. RAM: 512 MB, CPU: 800 MHz | US$ 71,87 |
Extrair texto de imagens | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15.000 chamadas da API Cloud Vision OCR por mês 2. 100 GiB de armazenamento mensal 3. Uma CPU de 1,25 GiB 4. Quatro GiB publicados diariamente pelo Pub/Sub | US$ 27,36 |
Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.
Quanto custa meu caso de uso?
Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente
2. 100 GiB de armazenamento mensal
3. Uma CPU de 1,25 GiB
4. Quatro GiB publicados diariamente pelo Pub/Sub
US$ 27,36
Document AI
Cloud Storage
BigQuery
Cloud Functions
1. 1.000 chamadas de API do analisador de formulários da Document AI
2. 100 GiB de armazenamento mensal
3. Consultas mensais de 1 TiB
4. RAM: 512 MB, CPU: 800 MHz
US$ 71,87
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15.000 chamadas da API Cloud Vision OCR por mês
2. 100 GiB de armazenamento mensal
3. Uma CPU de 1,25 GiB
4. Quatro GiB publicados diariamente pelo Pub/Sub
US$ 27,36
Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.