Google Cloud

保存用マスターによるメディアの長期保存

2019年10月18日

https://storage.googleapis.com/gweb-cloudblog-publish/images/GCP_Storage_Data_Transfer.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2019 年 10 月 3 日に Google Cloud blog に投稿されたものの抄訳です。

メディア企業とエンターテイメント企業では多くのストレージのニーズがあり、適切なデータを適切な期間、確実に保存する必要があります。多くの場合メディアアーカイブは、メディアがすぐに利用できるリポジトリと考えられており、編集、ポストプロダクションなどさまざまな中短期的ワークフローニーズや、配布用マスターの保存などに利用されます。

しかし、多忙な制作会社とメディアアーカイブでは、長期的なデジタルメディアの保存は常に最優先事項とは限りません。メディアアーカイブの特に重要な役割は、ほぼ間違いなく、将来にわたってコンテンツの保存用マスターを保有し、いつでもアクセス可能にすることだと言えるでしょう。Google Cloud Platform（GCP）でメディアファイルを扱う場合、保存性に配慮することが重要です。

通常、デジタルメディアアーカイブには、動画ファイル、静止画像、バイナリファイル、ドキュメントなど、さまざまなファイル形式が含まれています。動画ファイルのカテゴリには、数百を越えるラッパー型、ファイル形式、コーデックが含まれています。今日こうしたメディア形式は、すぐに利用できて簡単にワークフローに統合できますが、必ずしも長期的な保存用に設計されているとは限りません。将来的には、メディアタイプは頻繁な変化を経て、使えなくなる可能性があります（8 トラックテープ、CD、DLT バックアップテープのことを考えてみてください）。

コーデックには有効期間があり、また動画圧縮技術も常に改良を続けています。一般的な形式は、定期的に更新および改善されますが、そうでない場合は廃止になります。そのため、将来、そうしたメディアファイルは、読み込むことが非常に難しいか、あるいは不可能になります。加えて、コーデックによってはライセンスが必要なものがあり、将来的にそのコーデックの開発業者が廃業した場合には、問題が起こります。例えば、ブロードキャスト用マスターは、多くの場合、画像の品質劣化がないコーデックで記録され、現在のワークフローエコシステムではうまく機能しています。ただし、そのコーデック自体が廃止になる可能性があります。すでに廃止された圧縮形式で保存されたメディアファイルを、読み込む方法が見つかる可能性はあります。ただし最悪の場合は、Cloud Storage 料金を支払ってまったく役に立たないデータを保存するばかりか、その中にあるメディアを失うことにもなりかねません。ですから、圧縮動画ファイルとプロキシは、長期の保存には向いていないのです。

長期間の保存に耐えうる、メディアの保存用マスターを作成する方法を検討することが大切です。ここでは、将来も大切なアーカイブメディアファイルにアクセスできるように、GCP、具体的には Cloud Storage を利用して保存用マスターを作成する方法をご説明します。

メディアアセット管理システムはプロキシファイルに依存することにご注意ください。これは検索が容易になり、機械学習（ML）や人工知能（AI）分析など、クリップの定義やコード変換のタスクに有用であるためです。これらのファイルを共通フォーマットで作成すると、アーカイブのメンテナンスが簡単です。これらのファイルは、効率的なストレージ、取得、レビューを目的として、ソースメディアの圧縮バージョンとして設計されています。多くの場合、解像度と品質面でオリジナルのファイルよりも劣ります。作業用のメディアファイルと考えて、アーカイブ用または保存用マスターファイルとは区別しておく必要があります。

メディア保存用マスターを作成するおすすめの方法

メディアアーカイブ内では、保存用マスターを、将来的に取得と読み取りが容易な形式で保存する必要があります。すべてのプロキシの元となるオリジナルの参照元動画ファイルをフレームシーケンスに変換して、保存用マスターを作成する方法がおすすめです。このフレームシーケンスによる手法は、映画芸術科学アカデミー（AMPAS）、米国立公文書記録管理局、米議会図書館の方針とも一致するものです。さまざまなツールを使って、動画ファイルからファイルシーケンスを作成できます。これには FFMPEG、OpenDCP などの数々のトランスコーダーソリューションが含まれます（この記事の後半で、FFMPEG の使用例をご紹介します）。

ファイルをフレームシーケンスに変換したら、できる限りオリジナルの参照元ファイルの品質と解像度を再現できるフォーマットで保存します。その後、これらのファイルを Cloud Storage の最大保存期間の Coldline Storage に移動して保存します。これは、あらゆるメディアを地理的に離れた地域に最低 3 本保存するという、映画業界の要件にも合ったものです。災害などで物理的なデータテープが破損もしくは紛失した場合にも、これによってメディアファイルの復旧が可能です。Coldline Storage は、万が一ほかのコピーがすべて失われた場合の最終手段、いわゆる「第 3 のコピー」として理想的です。保存用マスターに、こうしたシナリオでアクセスする必要はほとんどありません。普段メディアを使用するために、Standard、Nearline、Coldline Storage に、メザニンファイルやプロキシファイルを保存できるからです。将来的に最新の品質の高いコーデックが利用できるようになれば、必要に応じて新しいコーデックや形式を使い、保存用マスターを活用して新しいプロキシファイルやメザニンファイルを作成できます。

さまざまな形式を利用して、保存用マスターに適した画像シーケンスを保存できます。もともと Kodak が開発した DPX が最も一般的な形式ですが、OpenEXR と JPEG 2000 も、さらに人気を集めつつあります。一部はファイルが圧縮されるものの、これらの形式は世界中のアーキビストの間で、高品質なアーカイブ形式と考えられています。

ほとんどのアーカイブでは、形式に関する仕様がありますが、これは特定のアプリケーションに適合させるためです。保存用のフレーム形式に関しては、ソース素材とその仕様に強く依存するため、万能の形式はありません。例えば、古い白黒ニュース映画フィルムを、アスペクト比 1.33:1、標準画質の解像度でデジタル動画に変換します。このメディアを、16 ビットカラー、HD 画質でアーカイブする必要はありません。元の素材に情報が存在せず、また色深度と画質を高くしても、ファイルサイズが大きくなるだけで、メディア自体の品質は向上しないからです。

取り込み時に、メディア保存用マスターを作成する

クラウドベースワークフローの入力パイプラインの一部として、コンテンツをシステムに取り込むときに保存用マスターファイルシーケンスを作成することを検討してください。この並列プロセスによって、ワークフローに必要なプロキシファイルやメザニンコピーを、マスターファイルと同時に作成できます。それによって、大量のデータをさまざまなストレージクラスに出し入れする必要がなくなります。すべての関連ファイルの命名、メタデータ、固定 / ダイジェストエントリ、フォーマットのステージが完了したら、保存用マスターを Coldline Storage に移動できます。

ワークフローの例は次のとおりです。

ローカルマシンで、ソースメディアファイルのチェックサムを作成

ファイル名をメディアアセットマネジメント（MAM）システムに記録
ソースチェックサムを MAM に記録

メディアファイルを Cloud Storage にコピー
ソースファイルのチェックサムと GCP にコピーしたファイルのチェックサムを比較
ソースファイルをプロキシにコード変換

メザニン形式: メザニンファイル名 / ロケーションを MAM に記録
ML / AI / 検索 / MAM アプリケーションのプロキシ: プロキシのファイル名 /
ロケーションを MAM に記録
メタデータ抽出用 ML / AI API を適用
メタデータを MAM に記録

ソースファイルを画像シーケンスに変換

画像: FFMPEG を使用

TIFF、DPX、OpenEXR、そのほかのアーカイブ形式

音声: FFMPEG を使用

非圧縮 WAV あるいはその他のアーカイブ用音声形式

画像シーケンスと音声ファイルを Coldline Storage に移動

ファイルのロケーションパスを MAM に記録
チェックサムを MAM に記録（ファイルヘッダーから抽出）

FFMPEG を使用して、画像シーケンスを作成

さまざまな画像操作ツールを使って、動画ファイルからアーカイブ品質の画像シーケンスを作成できます。FFMPEG は、さまざまなメディア処理に使うことができるオープンソースのツールです。以下は、FFMPEG を使って、動画ファイルから画像シーケンスを作成するチュートリアルです（企業ポリシーやその他の事情によって、個別のプロセスの一部が異なることにご注意ください）。

1. FFMPEG をダウンロードして、ローカルマシンの OS にインストールします。下記のチュートリアルは、ローカルデバイスまたはローカルシェルを使用して行います。

FFMPEG の機能は非常に豊富ですが、今回のチュートリアルでは、単純なコマンドをいくつか学べば、目的を達成できます。ツールについてさらに詳細を知りたい場合は、FFMPEG のドキュメントをご参照ください。

画像シーケンスを抽出する際に、ファイルストレージのフットプリントが増加する場合があることにご注意ください。例えば、下記のテストファイルで、DPX シーケンス形式のファイルを抽出する場合、同等の JPEG 2000（j2k）ファイルは、全体のシーケンスに 60 MB しかありませんが、テストファイルの集計データフットプリントのサイズは 5.36 GB にもなります。独自のアーカイブポリシーに応じて、保存要件に最適な抽出形式を決定してください。最もニーズに合ったフレームシーケンス形式を決定するには、ソースファイルのビット深度と解像度が参考になります。

2. 変換用として、この ProRes 動画テストファイルをダウンロードします。このファイルは、後に下記で作成する新しいディレクトリにコピーします。

3. ターミナルまたはシェルウィンドウでホームディレクトリに移動して、画像シーケンスを保存するための新しいディレクトリを作成します。

読み込んでいます...

4. ダウンロードした TestProRes4444.mov ファイルを見つけたら、そのファイルをステップ 3 で作成した myTestSequence ディレクトリに移動します。

5. ターミナルあるいはシェルで、myTestSequence ディレクトリから、次の FFMPEG コマンドを実行します。

読み込んでいます...

このコマンドは、TestProRes4444.mov ファイルを読み取り、j2k シーケンスに最高品質で変換します（-q:v 1 パラメータで指定）。出力ファイル拡張子の直前の「_%06d」パラメータによって先頭のゼロが補われ、画像シーケンス番号が 6 桁になります。これを調整して、抽出するフレーム数に合わせる必要があります（例えば、30フレーム/秒で記録された 1 時間の動画の総フレーム数は 108,000 です）。JPEG 2000 フォーマットの完全なパラメータセットについては、FFMPEG のドキュメントを参照してください。

6. myTestSequence ディレクトリ内で、ファイルを一覧表示します。表示されるファイルは、以下の通りです。

読み込んでいます...

7. このテストファイルには音声は含まれていませんが、以下のコマンドを使って、ソース動画に埋め込まれた音声ファイルを抽出できます。

読み込んでいます...

-ab 192000 パラメータを使用して、抽出した音声ファイルのデータ転送速度を決定できます。画像シーケンスとオーディオ設定については、それぞれの組織で推奨される保存ファイルとオーディオ設定を決める際の方法と、両方の設定に関して組織のアーカイブメディア戦略を満たすパラメータを参照してください。おすすめの形式についての詳細は、下記の記事リストをご確認ください。

圧縮動画ファイルをアーカイブ用のフレームシーケンスと音声ファイルに変換するために、ここでおすすめした方法を適用することで、メディアを長期の保存により適したものにできます。

Cloud Storage を使ったアーカイブ、およびデジタルメディアの保存の詳細については、以下の記事をご覧ください。