コンテンツに移動
AI & 機械学習

光学式文字認識とは? Google による OCR の解説

2023年9月25日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 9 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。


旅行中にメニューを理解するため、銀行のモバイルアプリで小切手を入金するため、あるいは写真ストレージでスクリーンショットを検索するために Google 翻訳を使用したことがあれば、すでに光学式文字認識(OCR)を使用しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/OCR.max-1600x1600.png
上の画像は、画像内のテキストを検出して他の言語に翻訳できる実際の OCR の応用例を示したものです。

OCR は、開発者が PDF や画像からテキストやレイアウト データを抽出して利用する標準的な方法になってきています。このブログ記事では、OCR の歴史を紹介し、このテクノロジーが向かう先、そして大規模言語モデル(LLM)の台頭に伴って OCR がさらに重要性を増している現状について解説します。

OCR システムの進歩

光学式文字認識のコンピュータ化システムは 50 年以上も前から存在しており、現在に至るまでに、そのシステムを強化する機能やテクノロジーは劇的な変化を遂げてきました。

初期の OCR システムは利用できる分野が限定されていました。たとえば、1960 年代には、OCR 作業の簡易化を目的として、OCR-AOCR-B などの機械で読み取れる特殊なフォントが開発され、カスタマイズされた光学式文字認識システムでこれらの書体を読み取れるようになりました。OCR 向けに最適化されたこれらのフォントは、現在でも銀行の小切手に使われており、銀行コードや口座番号などの項目は通常、特定の磁気インク文字認識コードを使用して印刷されます。

時を経て、OCR システムはこのようなフォント依存の手法を超えて汎用的に使用できるようになりました。1970 年代に最初のオムニフォント式 OCR システムの開発者として功績が認められたのが Ray Kurzweil 氏です。これらのシステムは、OCR 固有のフォントセットに限定されずにさまざまな書体を認識できましたが、世界の言語をサポートするには限界がありました。

進歩を可能にしたのは、その後の数十年間で行われた 3 つの開発です。その 1 つが音声認識で先に開発された手法で、これにより OCR は個々の文字ではなく語句レベルで処理できるようになり、アラビア語や筆記体のようなつながった文字にも対応できるようになりました。2 つ目は Unicode 標準の開発と導入です。これにより、世界のほとんどの書記体系に対して、明確に定義された一貫したターゲット表現が可能になりました。最後は、データドリブン開発の導入です。これにより、他の言語の処理に影響を与えることなく、1 つの言語での改善が可能になりました。

現在では、多くの OCR システムが何百もの言語のテキストを認識できるようになっています。ほとんどのシステムでは、タスク固有のモデルのパイプラインが採用されており、通常は、画像内のテキスト行を検出して切り取った行画像を後続のステージで処理できるようにするモデル、各行画像の言語やスクリプトを決定する 1 つまたは複数の分類モデル、各行画像内の文字列を(Unicode ポイントとして)出力する一連のテキスト行認識モデルが含まれています。初期の多言語 OCR システムでは言語別の手法を採用しており、サポートされている言語ごとに特定のテキスト行認識モデルをトレーニングしていました。場合によっては、印刷テキストと手書きテキストなど、モダリティごとに異なるモデル アーキテクチャが使用されていました。

時間とともに、基盤となるモデル アーキテクチャの機能が進化し、単一の認識モデルで複数の言語、さらには複数のモダリティをサポートできるようになりました。スクリプトベースの OCR 手法が一般的になり、各モデルが複数の言語をサポートして共通の書記体系(スクリプト)を共有するようになりました。たとえば、英語、フランス語、スペイン語の個別のモデルをトレーニングする代わりに、単一のラテン文字認識モデルが、このスクリプトを共有するすべての言語の多言語データでトレーニングされます。これにより、OCR パイプラインが簡素化されただけでなく、より多くのデータでトレーニングされた、より大規模な認識モデルが使用できるようになり、OCR の精度が向上しました。

このように、より大規模に統合されて汎用化された少数のモデルへと進歩を続けており、他の ML や AI の分野においても同様の傾向が見られます。例として、多数のスクリプトを認識できるマルチスクリプト行認識モデルを利用する OCR システムや、明示的なテキスト行検出ステップを使用せずに画像全体の中のテキストを順次認識する完全なエンドツーエンド モデルなどがあります。このような OCR パイプラインで個別のモデルの数が徐々に減少していくにつれ、モデルはサイズが増大して機能が向上しています。結果として精度が向上し、最終目標であるユニバーサル OCR の実現も間近に迫ってきています。

Google OCR の特徴

Google Cloud は 2 つのスタンドアロン OCR プロダクト、Vision API テキスト検出Document AI Enterprise Document OCR を提供しています。これらを使用すれば、幅広い言語にわたって高品質な抽出を行い、高度な機能、エンタープライズ向け API を実行できます。これには Google Cloud と Google Research が緊密なパートナーシップを築いて OCR の最先端の技術を開発し、採用してきたことが大きく寄与しています。Mercado Libre のプロダクト フィンテック スーパーバイザーであるとともに Google OCR のユーザーでもある María Victoria Sasse 氏は、ドキュメント処理ワークフローを強化するための安全で高品質な OCR の重要性について次のように述べています。

Mercado Crédito では、ユーザーのニーズに最適なカスタマイズされたクレジット オプションを提供できるよう尽力しています。Google の OCR 機能と統合したことで、財務書類の廃棄を迅速に進められるユーザー フレンドリーで安全なツールを提供できるようになり、信用リスク分析が向上しました。当社は Google と協力して、中南米における信用アクセスの民主化に向けて取り組みを続けていきます。

Vision API テキスト検出は Google Cloud の標準の OCR サービスです。エンタープライズ向け API であるテキスト検出は、低レイテンシで大容量のワークロードをグローバルにサポートしており、ビジネス アプリケーションに簡単に統合して画像からテキストやレイアウトを抽出できます。

Document AI Enterprise OCR は、ドキュメントのユースケースに特化した Google Cloud の OCR です。より効果的なダウンストリーム処理を可能にする画像の品質スコア、テキスト検出を改善するための言語ヒント、モデルの精度を向上させるための回転補正などの高度な機能を備えており、従来のテキスト認識やレイアウト認識を超えた処理が可能になります。さらに、Document AI プロセッサと同時に OCR も使用することで、ドキュメントから抽出したデータを構造化するのに役立ちます。

LLM ベースのアプリケーションを構築する際に OCR が重要な理由

LLM と OCR の組み合わせにより、データ処理と分析は大幅な進歩を遂げました。LLM のコンテキストの理解と OCR のテキストとレイアウトの抽出機能を活用することで、企業はデータから価値ある分析情報を引き出し、ワークフローを効率化できます。

LLM を利用したアプリケーションを構築する場合には、リッチで安全な、高精度のテキストとレイアウトの抽出が重要になります。モデルが画像または PDF から適切なテキスト コンテキストを得られない場合、高品質の回答を提供するのは困難になります。Casetext の最高技術責任者である Ryan Walker 氏は、LLM アプリケーションの開発を成功させるために高品質の OCR が重要である理由について、次のように述べています。

私たちは法的 AI ソリューション(直近では AI 法務アシスタント CoCounsel)を作成する者として、大量で複雑な法的文書を正確に処理するプロダクトを構築しています。法的文書は、何千ページにもわたり、画像が含まれ、スキャンが不鮮明な場合もあります。たった一語の有無が勝訴と敗訴の分かれ目になることすらあります。Google の OCR は、これまでに評価した他のどのシステムよりも正確にファイルからテキストを抽出します。この技術を私たちのプロダクトに組み込むことで、プロダクトを利用される弁護士に最高品質の回答を提供でき、それはつまり、弁護士の方々がクライアントに最良のサービスと結果を提供できることを意味します。

Google の OCR でできること

Google Cloud AI と OCR の連携の仕組み、および自社に最適なプロダクトを使い始める方法の詳細をご確認ください。Google の OCR テクノロジーと Document AI ソリューション スイートを連携させて、ドキュメント処理ワークフローを自動化する方法については、こちらをクリックしてください。


- Google Cloud OCR、プロダクト マネージャー Jill Daley
- Google Research、プロダクト マネージャー Esther Adediran

投稿先