顧客事例

写真裏面の情報も保存 ―― New York Times が所蔵する数百万枚のアーカイブ写真を Google Cloud でデジタル化

NYT_morguejq1t.PNG

※この投稿は米国時間 2018 年 11 月 9 日に Google Cloud blog に投稿されたものの抄訳です。

Google Cloud は New York Times と協力して、同社が所蔵している膨大な写真コレクションのデジタル化に取り組んでいます。Google Cloud Platform(GCP)が提供するさまざまなツールは、画像の安全な保存や、写真の便利な検索インターフェース、さらには写真の裏面に記された情報の読み取りなどに利用されています。

New York Times は、100 年以上にわたって撮影してきた約 500 万 ~ 700 万枚の古い写真を数百台のファイル キャビネットに保管しています。これらのキャビネットは、タイムズ スクウェアの同社オフィス近くにある「モルグ」と呼ばれる場所の地下 3 階分のスペースを埋め尽くしています。写真の多くはフォルダに収められており、何年も人目に触れていません。こうしたアーカイブ写真の概要がカード目録に記されてはいますが、それだけでは写真の細部まではわかりません。

Morgue73b6k.PNG
Photo by Earl Wilson for The New York Times

目に見える歴史の保存

モルグに保管されている写真のうち、最も古いものは 19 世紀後半に撮影されました。これらの写真の多くは極めて高い歴史的価値があります。モルグにある写真が世界中で唯一無二の記録となっている場合もあるのです。

ところが、2015 年に水道管の破損でモルグが浸水に見舞われ、コレクション全体が危機に瀕しました。幸いにも被害は軽微にとどまりましたが、この一件は「New York Times の最も貴重な部類に入る物理資産をどうすれば安全に保存できるのか」という問題を投げかけました。

「モルグは極めて貴重な生のドキュメントの宝庫です。これらのドキュメントには、New York Times の歴史だけでなく、現代の世界を形作ってきた、1 世紀以上にわたる世界の出来事が記録されています」と、New York Times の最高技術責任者(CTO)である Nick Rockwell 氏は述べています。

貴重な情報を含んでいるのは写真の画像だけではありません。多くの場合、写真の裏面にはその写真がいつどこで撮られたかが記されています。Rockwell 氏はこう付け加えています。「写真部門とビジネス サイドのスタッフは長年、モルグの写真をデジタル化する方法を探ってきました。しかし昨年まで、デジタル化されたアーカイブという考え方は見果てぬ夢と思われていました」

この貴重な歴史を保存し、よりビジュアルな表現で歴史的文脈を示して報道を充実させることができるように、New York Times はモルグ内のすべての写真を高解像度でスキャンし、Cloud Storage を使って保存することで、アーカイブをデジタル化しています。

Cloud Storage は耐久性の高いオブジェクト ストレージ システムです。New York Times のようなお客様に対して、自動ライフサイクル管理機能や、地理的に異なるリージョン内のストレージ、使いやすい管理インターフェースおよび API を提供します。

資産管理システムの構築

高解像度の画像を保存するだけでは、写真編集者が簡単に使えるシステムを構築するには不十分です。実用的な資産管理システムは、ユーザーが写真の閲覧や検索を簡単に行うことができなければなりません。そこで New York Times は処理パイプラインを構築しました。これは写真の保存と処理を行い、画像に含まれるテキスト、手書きの内容、その他の細部をクラウド技術を用いて処理、認識します。

その仕組みは次のとおりです。画像が Cloud Storage に取り込まれると、New York Times は Cloud Pub/Sub を使って処理パイプラインを起動し、いくつかのタスクを実行します。Google Kubernetes Engine(GKE)で動作するサービスによって画像のサイズが変更され、Cloud SQL で動作する PostgreSQL データベースに画像のメタデータが保存されます。Cloud SQL は Google のフルマネージド データベース サービスです。

Cloud Pub/Sub は、複雑な API やビジネス処理システムを作成することなく、処理パイプラインを構築するのに役立ちました。Cloud Pub/Sub はフルマネージド ソリューションなので、ベースとなるインフラストラクチャのメンテナンスに時間を費やさずに済みます。

画像のサイズとメタデータの変更には、オープンソースのコマンドライン プログラムである ImageMagickExifTool を使っています。ImageMagick と ExifTool を GKE で水平方向にスケーラブルに実行し、管理作業を最小限に抑える目的で、これらを Go サービスでラップして Docker イメージに追加しました。そのおかげで、より多くの画像を処理する場合でもキャパシティを容易に追加でき、サービスが不要なときは Kubernetes クラスタを停止することができます。画像は、複数ロケーションでの可用性確保のために Cloud Storage のマルチリージョン バケットに保存されます。

アーカイブの最後の要素は、New York Times のシステムを通過する画像とそのメタデータの追跡管理です。ここでは Cloud SQL が活躍します。Cloud SQL は標準的な PostgreSQL インスタンスをフルマネージド サービスとしてデベロッパーに提供し、新バージョンのインストール、セキュリティ パッチの適用、複雑なレプリケーション構成を不要にしています。また、標準的な SQL ソリューションを使用するエンジニアにシンプルで簡単な方法を提供します。

機械学習による写真裏面の抽出

画像の保存は、この取り組みでなすべきことの半分でしかありません。New York Times におけるモルグのようなアーカイブを、アクセスしやすい便利なものにするには GCP の機能を利用するのが効果的です。New York Times の場合、画像の内容に関するデータを追加することが、写真アーカイブをスキャンするうえで大きな課題の 1 つとなっていました。そのギャップを埋めるのが Cloud Vision API です。

New York Times が所蔵するペンシルベニア駅の古い写真を例に取りましょう。この写真とその裏面を以下に示します。

NYT6b4q.PNG

美しいモノクロ写真ですが、文脈が不明だと内容の詳細はわかりません。写真の裏面には多くの有益な情報が記されており、それらの処理、保存、読み取みに Cloud Vision API が役に立ちます。この写真の裏面を、追加処理を行わない設定で Cloud Vision API に渡すと、以下のようなテキストが抽出されます。

NOV 27 1985JUL 28 1992Clock hanging above an entrance to the main concourse of Pennsylvania Station in 1942, and, right, exterior of the station before it was demolished in 1963.PUBLISHED IN NYCRESORT APR 30 ‘72The New York Time THE WAY IT WAS - Crowded Penn Station in 1942, an era “when only the brave flew - to Washington, Miami and assorted way stations.”Penn Station’s Good Old Days | A Buff’s Journey into Nostalgia( OCT 3194RAPR 20072PHOTOGRAPH BY The New York Times Crowds, top, streaming into the old Pennsylvania Station in New Yorker collegamalan for City in 1942. The former glowegoyercaptouwd a powstation at what is now the General Postadigesikha designay the firm of Hellmuth, Obata & Kassalariare accepted and financed.Pub NYT Sun 5/2/93 MetroTHURSDAY EARLY RUN o cos x ET RESORTEB 11 1988RECEIVED DEC 25 1942 + ART DEPT. FILESThe New York Times Business at rail terminals is reflected in the hotelsOUTWARD BOUND FOR THE CHRISTMAS HOLIDAYS The scene in Pennsylvania Station yesterday afternoor afternoothe New York Times (Greenhaus)

上記テキストは、画像の追加処理を行わない設定での Cloud Vision API による実際の出力です。もちろん、デジタル テキストの抽出は完璧なものではありませんが、これによって他の方法よりも高速かつ経済的に数百万の画像を処理できます。

過去を未来に

New York Times の事例は、物理的なアーカイブを有する企業ができることの初めの一歩にすぎません。Cloud Vision API を使用すれば、物体や場所、画像を検出できます。たとえば、上のモノクロ写真を Cloud Vision API に渡してロゴを検出させると、ペンシルベニア駅が認識されます。さらに Cloud AutoML を使用すれば、ラベル付き画像のコーパス(資料データ)を利用して大量の画像を適切に検出できます。

Cloud Natural Language API は、認識されたテキストにセマンティック情報を追加することを可能にします。たとえば、上に示した Cloud Vision API の出力の一部である「The New York Time THE WAY IT WAS - Crowded Penn Station in 1942, an era when only the brave flew - to Washington, Miami and assorted way stations.」というテキスト(ニューヨークの歴史の一コマ - 1942 年の混雑するペンシルベニア駅。ワシントンやマイアミ、さらにはさまざまな途中駅と結ばれている。勇気ある人々だけが飛行機を利用していた時代)を Cloud Natural Language API に渡すと、「Penn Station」「Washington」「Miami」が正しく場所として検出され、文全体が「travel」というカテゴリーの「bus & rail」というサブカテゴリーに分類されます。

New York Times が進める写真アーカイブのデジタル化を支援することは、「世界中の情報を整理し、どこからでもアクセスできて使えるようにする」という Google の使命と完全に合致します。私たちが行ってきたことをこうして紹介することが、新聞社や出版社だけでなく、多くの組織がクラウドやツール(Cloud Vision API、Cloud Storage、Cloud Pub/Sub、Cloud SQL など)によって豊かな歴史を保存し共有する取り組みのきっかけになることを願っています。

Google Cloud による AI と機械学習についてもっと知りたい方は、こちらのサイトをご覧ください。

- By Sam Greenfield, Technical Director, Cloud Office of the CTO