Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

Gemini 3 をお試しください。Vertex AI における推論、コーディング、マルチモーダル理解に最適なモデルです。

OCR（光学式文字認識）

世界トップクラスの Google Cloud AI による OCR（光学式文字認識）

画像やドキュメントからテキストやデータを抽出し、非構造化コンテンツをビジネスにすぐに使える構造化データに変換し、価値ある分析情報を引き出します。

OCR 機能を API でアプリケーションに統合します。

新規のお客様には、ドキュメント要約 OCR ソリューションへのお申込みに使用できる無料クレジット$300 分を、登録時に差し上げます。

概要

OCR とは何ですか。

光学式文字認識（OCR）は、入力、手書き、印刷されたテキストを画像からマシンでエンコードされたテキストに変換する基本的な技術です。

Google Cloud が提供する OCR はどのような種類ですか。

Google Cloud には、ドキュメントの OCR と、画像と動画の OCR という 2 種類の OCR があります。

Document AI は基本的なテクノロジーを共有していますが、ドキュメント処理向けに最適化されたドキュメント理解プラットフォームです。そのカスタムエクストラクタは生成 AI を活用しており、専用プロセッサを選択する必要なく、汎用ドキュメントとドメイン固有ドキュメントの両方を高精度かつ迅速に処理します。

Cloud Vision は、画像や動画からテキスト、手書き文字、さまざまなオブジェクトを検出するために広く使用されています。

Google Cloud での OCR の仕組みは。

Google Cloud は最高水準の AI で OCR を強化します。データを理解、整理、拡充することで、従来のテキスト認識にとどまらず、最終的にはビジネスですぐに使える分析情報を生成します。

OCR ツールを統合スイートとして使用して合理化された効率を実現することも（Document AI など）、Google Cloud コンソールで直接利用可能な関連 API を呼び出すだけで OCR 機能をアプリケーションに統合することもできる柔軟性が得られます。

動画

Document AI とは

4:36

Google Cloud AI と OCR の連携の仕組みは。

上記のすべての OCR ソリューションでは、事前トレーニング済みの ML モデルを利用できます。このモデルは、API を介して直ちにデプロイすることも、特定のニーズに対する精度を高めるためにアップトレーニングすることもできます。

AutoML では独自のカスタムモデルをトレーニングすることもできます。機械学習の専門知識は必要ありません。

カスタム ML モデルの構築については AutoML のドキュメントをご覧ください。

動画

AutoML で ML モデルを構築してトレーニングするタイミングと方法

2:11

最適な OCR ソリューションは。

ドキュメントを分析する場合や、自動化されたドキュメント処理パイプラインを構築する場合は、Document AI を使用します。これは、ドキュメントの理解から、ドキュメントと抽出されたデータの検索、保存、運営、管理まで、ワークフロー全体をすべて 1 か所で処理します。

画像を分析して処理する場合は、最良の結果を得るために Cloud Vision と他の Google Cloud プロダクトを併用します。詳細とクイックスタートガイドについては、一般的な使用方法のセクションを参照してください。

どちらの API も Google Cloud アカウントで無料で試用できます。

OCR サービスの比較

OCR サービス		最適な用途	主な機能
Cloud Vision API		低レイテンシと大容量を必要とする一般的なテキスト抽出のユースケース。	画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。
Document AI	Enterprise Document OCR	ドキュメント（PDF、画像としてスキャンしたドキュメント、Microsoft DocX ファイル）のテキストをデジタル化します。	200 以上の言語（50 の手書き言語）でテキストを抽出します。数式やスタイルなどを認識するためのアドオン。
	Document AI Workbench	生成 AI（基盤モデル）であらゆるドキュメントを抽出、分類、分割します	カスタムエクストラクタ: 基盤モデルを使用して、データの大規模なラベル付けやトレーニングなしでパーサーをすばやく作成します。処理を効率化するカスタム分類とドキュメントスプリッター。
	事前トレーニング済みモデル	ドメイン固有のドキュメントからのテキストとフィールドの抽出。	調達、融資、身分証明書、契約書など、さまざまなドキュメントにわたるテキストの抽出とデジタル化。

Cloud Vision API

最適な用途

低レイテンシと大容量を必要とする一般的なテキスト抽出のユースケース。

主な機能

画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。

Document AI

Enterprise Document OCR

最適な用途

ドキュメント（PDF、画像としてスキャンしたドキュメント、Microsoft DocX ファイル）のテキストをデジタル化します。

主な機能

200 以上の言語（50 の手書き言語）でテキストを抽出します。

数式やスタイルなどを認識するためのアドオン。

Document AI Workbench

最適な用途

生成 AI（基盤モデル）であらゆるドキュメントを抽出、分類、分割します

主な機能

カスタムエクストラクタ: 基盤モデルを使用して、データの大規模なラベル付けやトレーニングなしでパーサーをすばやく作成します。

処理を効率化するカスタム分類とドキュメントスプリッター。

事前トレーニング済みモデル

最適な用途

ドメイン固有のドキュメントからのテキストとフィールドの抽出。

主な機能

調達、融資、身分証明書、契約書など、さまざまなドキュメントにわたるテキストの抽出とデジタル化。

仕組み

ドキュメントを理解して処理するには、Document AI を使用します。

画像には Cloud Vision を使用することをおすすめします。

いずれを使用する場合も、API を介してそのままデプロイすることも、アップトレーニングすることもできる、事前トレーニング済みの機械学習モデルにアクセスできます。AutoML を使用して、独自のカスタムモデルをゼロからトレーニングすることもできます。ML の専門知識は必要ありません。

Cloud Vision または Document OCR を使用すると、毎月最初の 1,000 ユニットが無料になります。シンプルな API 呼び出しでお試しください。

Cloud Vision が画像を認識して分類する仕組み

デモ

ご自身のドキュメントを使用して Document OCR をご覧ください

簡単なドラッグ＆ドロップで Document AI API を試してみましょう。

一般的な使用例

生成 AI を使用してドキュメントからテキストを抽出します

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタムエクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5～10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

事前トレーニング済みの専用プロセッサを使用することもできます。詳しくは、プロセッサの一覧をご覧ください。

2 人の講演者とその隣のイベント名「OCR と生成 AI がビジネスを強化する仕組み」

25:47

入門ガイド

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタムエクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5～10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

事前トレーニング済みの専用プロセッサを使用することもできます。詳しくは、プロセッサの一覧をご覧ください。

25:47

エンドツーエンドのドキュメントソリューションを構築します

パイプラインを処理および理解するドキュメントを構築します

生成 AI を搭載した Document AI は、さまざまなレイアウトや品質のドキュメントから高い精度でデータを抽出します。Cloud Storage と接続すれば、非構造化ドキュメントにエンタープライズクラスのコンプライアンスを確保できます。BigQuery を使用すると、抽出したデータのバッチ処理と分析を自由に行うことができます。Looker を使用すると、BigQuery テーブルに基づいて簡単に可視化できます。Vertex AI Search を使用すると、会話形式または従来の方法で、Cloud Storage 内のドキュメントに対してクエリを実行し、検索できます。

複数の Google Cloud プロダクトを使用した、エンドツーエンドのドキュメントソリューションのリファレンスアーキテクチャ

ハンズオンラボ: Document AI と Cloud Functions を使用してエンドツーエンドのデータキャプチャパイプラインを構築する

ご覧のようにパイプライン全体の設定には 60～90 分かかり、Document AI の部分には 10 分かかります。

入門ガイド

パイプラインを処理および理解するドキュメントを構築します

生成 AI を搭載した Document AI は、さまざまなレイアウトや品質のドキュメントから高い精度でデータを抽出します。Cloud Storage と接続すれば、非構造化ドキュメントにエンタープライズクラスのコンプライアンスを確保できます。BigQuery を使用すると、抽出したデータのバッチ処理と分析を自由に行うことができます。Looker を使用すると、BigQuery テーブルに基づいて簡単に可視化できます。Vertex AI Search を使用すると、会話形式または従来の方法で、Cloud Storage 内のドキュメントに対してクエリを実行し、検索できます。

ハンズオンラボ: Document AI と Cloud Functions を使用してエンドツーエンドのデータキャプチャパイプラインを構築する

ご覧のようにパイプライン全体の設定には 60～90 分かかり、Document AI の部分には 10 分かかります。

画像のタグ付け、処理、検索

Cloud Vision API と AutoML を使用して、画像のタグ付けと処理を行う

画像のタグ付けは、画像のラベル付けとも呼ばれます。

Cloud Vision API を使用すると、画像内の一般的な物体、ランドマーク、場所、ロゴ、活動、動物の種類、商品などを識別してラベルを付けることができます。検出されたラベルで画像がタグ付けされると、画像の検索、処理、管理が自動化され、容易になります。

ターゲットを設定したカスタムラベルが必要な場合は、Cloud AutoML を使用してカスタム ML モデルをトレーニングします。

Google OCR テクノロジーをオンプレミスで使用するには、Cloud Marketplace で入手できる OCR On-Prem を使用します。

他の Google Cloud プロダクトと連携して画像を分析する autoML と Cloud Vision AI を示すアーキテクチャ図

入門ガイド

Cloud Vision API と AutoML を使用して、画像のタグ付けと処理を行う

画像のタグ付けは、画像のラベル付けとも呼ばれます。

Cloud Vision API を使用すると、画像内の一般的な物体、ランドマーク、場所、ロゴ、活動、動物の種類、商品などを識別してラベルを付けることができます。検出されたラベルで画像がタグ付けされると、画像の検索、処理、管理が自動化され、容易になります。

ターゲットを設定したカスタムラベルが必要な場合は、Cloud AutoML を使用してカスタム ML モデルをトレーニングします。

Google OCR テクノロジーをオンプレミスで使用するには、Cloud Marketplace で入手できる OCR On-Prem を使用します。

参考情報

料金の例

右側に示されているラベルを検出する基本的な画像処理パイプラインを実行する場合、月額費用は $27.36 になります。

この数値に到達するまでの想定使用量は、料金計算ツールで確認できます。

毎月最初の 1,000 ユニットは無料です。

画像からテキストを抽出する

Cloud Vision API を使用して画像からテキストを抽出する

Cloud Vision API を使用すると、さまざまな言語の画像からテキストや手書き文字を検出して抽出できます。また、マルチリージョンをサポートしており、大陸レベルのデータストレージや OCR 処理を指定できます。

少数の画像（リクエストごとに最大 16 件）を選択してすぐに結果を取得するか、多数の画像（リクエストごとに最大 2,000 件）を非同期でバッチ処理して後で結果を取得するかを選択できます。

入門ガイド

Cloud Vision API を使用して画像からテキストを抽出する

Cloud Vision API を使用すると、さまざまな言語の画像からテキストや手書き文字を検出して抽出できます。また、マルチリージョンをサポートしており、大陸レベルのデータストレージや OCR 処理を指定できます。

少数の画像（リクエストごとに最大 16 件）を選択してすぐに結果を取得するか、多数の画像（リクエストごとに最大 2,000 件）を非同期でバッチ処理して後で結果を取得するかを選択できます。

参考情報

料金の例

右側に示されている画像からテキストを抽出する基本的な処理パイプラインを実行する場合、月額費用は $27.36 になります。

この数値に到達するまでの想定使用量は、料金計算ツールで確認できます。

毎月最初の 1,000 ユニットは無料です。

料金

ユースケースの費用はいくらですか。	ユースケースを解決するための月額費用を把握し、必要なプロダクトと主な利用条件を提示します。
使用例	使用するプロダクト	利用条件	推定月額費用（米ドル）
画像のタグ付け、処理、検索	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 毎月 15,000 回の Cloud Vision ラベル検出 API 呼び出し 2. 100 GiB の月間保存容量 3. 1.25 GiB CPU 1 個 4. Pub/Sub を介して毎日 4 GiB をパブリッシュする電卓で計算の詳細を表示する	$27.36
ドキュメントからテキストと分析情報を抽出する	Document AI Cloud Storage BigQuery Cloud Functions	1. Document AI のフォームパーサー API 呼び出しが毎月 1,000 回 2. 100 GiB の月間保存容量 3. 1 TiB の月次クエリ 4. RAM: 512 MB、CPU: 800 MHz 電卓で計算の詳細を表示する	$71.87
画像からテキストを抽出する	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. Cloud Vision OCR の API 呼び出しが毎月 15,000 回 2. 100 GiB の月間保存容量 3. 1.25 GiB CPU 1 個 4. Pub/Sub を介して毎日 4 GiB をパブリッシュする電卓で計算の詳細を表示する	$27.36

Document AI、Vision API、AutoML の単価の詳細を確認します。

ユースケースの費用はいくらですか。

ユースケースを解決するための月額費用を把握し、必要なプロダクトと主な利用条件を提示します。

画像のタグ付け、処理、検索

使用するプロダクト

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

利用条件

1. 毎月 15,000 回の Cloud Vision ラベル検出 API 呼び出し

2. 100 GiB の月間保存容量

3. 1.25 GiB CPU 1 個

4. Pub/Sub を介して毎日 4 GiB をパブリッシュする

電卓で計算の詳細を表示する

推定月額費用（米ドル）

$27.36

ドキュメントからテキストと分析情報を抽出する

使用するプロダクト

Document AI

Cloud Storage

BigQuery

Cloud Functions

利用条件

1. Document AI のフォームパーサー API 呼び出しが毎月 1,000 回

2. 100 GiB の月間保存容量

3. 1 TiB の月次クエリ

4. RAM: 512 MB、CPU: 800 MHz

電卓で計算の詳細を表示する

推定月額費用（米ドル）

$71.87

画像からテキストを抽出する

使用するプロダクト

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

利用条件

1. Cloud Vision OCR の API 呼び出しが毎月 15,000 回

2. 100 GiB の月間保存容量

3. 1.25 GiB CPU 1 個

4. Pub/Sub を介して毎日 4 GiB をパブリッシュする

電卓で計算の詳細を表示する

推定月額費用（米ドル）

$27.36

Document AI、Vision API、AutoML の単価の詳細を確認します。

料金計算ツール

必要なすべてのツールを 1 か所に集めて、プロジェクトの費用を見積もります。

カスタム見積もり

セールスチームにご相談いただき、組織固有のニーズに応じたカスタム見積もりを入手してください。

OCR（光学式文字認識）

世界トップクラスの Google Cloud AI による OCR（光学式文字認識）