顧客事例

ライゾマティクスの Squarepusher 新 MV 制作を支えた Google Cloud

Rhizomatiks

9/9 からオンラインでのフェスティバル開催となった世界有数のメディアアートの祭典、アルス・エレクトロニカ。毎年、メディアアートに革新をもたらした人物や作品・プロジェクトを表彰する「アルス・エレクトロニカ賞(Prix Ars Electronica)」が発表され、真鍋大度氏率いるライゾマティクスが制作した Squarepusher の新作 MV「Terminal Slam」がコンピューターアニメーション部門の「栄誉賞(Honorary Mention)」を受賞した。機械学習(ML)による Diminished Reality(減損現実)や Image Inpaint(画像修復)で構成された Mixed Reality(複合現実)の 4K 画像がスクリーンを覆い尽くすという新しい演出が注目を集めている。

このライゾマティクスのクリエイティビティを支えたのが、Google Cloud とその ML 開発基盤である。Perfume とライゾマティクスの新たな試みを支える Google の機械学習でも紹介したように、彼らは以前から Google の ML 技術を大胆に導入したインタラクションデザインを実現してきた。では今回の Terminal Slam の制作にはどのような ML 技術が投入され、その数々の課題の対処に Google Cloud がどのように役立ったのか。Google Cloud デベロッパーアドボケイトの佐藤一憲が、本 MV のディレクションを担当した真鍋大度氏とML 実装を担当した浅井裕太氏に話を聞いた。

Rhizomatiks 1
ライゾマティクス 真鍋大度氏、浅井裕太氏

「Squarepusher は 1 フレーム単位でチェックしてくる」

佐藤:Squarepusher といえばエレクトロ ミュージックの分野で世界を代表するアーティストのひとりですが、彼とのコラボはどのようなきっかけで始まりましたか?

真鍋氏:2013 年ごろに「日本の監督で Squarepusher の MV を作る」という企画があり、その際に自分が抜擢されました。今だからもう話してもよいかなと思うのですが、元々推薦されていた映像監督たちは CM や日本のポップミュージックの仕事をメインでやっている方々で、彼は自分の作品を撮らせたくないと思ったそうです(笑)。

当時の僕は映像監督の仕事をほとんどやっていなかったのですが、Sónar Festival Barcelona など彼も出演しているフェスティバルに出演していたことや、音楽についてはこだわりをもって活動していた点について評価してくれたようでした。大学の頃から Squarepusher と彼が所属する Warp というレーベルの大ファンだったので嬉しかったですね。そこから彼のバンド Shobaleader One のライブの映像の仕事をしたり彼の前座で DJ をやったりという感じでいくつか一緒に仕事をしました。

佐藤:今回の MV のアイディアについては彼からはリクエストや意見はありましたでしょうか?

真鍋氏:アイディアについては色々な話をする中で、我々のあらゆる行動が二次利用されて広告に展開されることに対して二人とも疑問を持っていたことから、「広告」をモチーフに扱おうというところに落ち着いた感じですね。元々、僕やライゾマが Augumented Reality(拡張現実)や Mixed Reality(複合現実) の作品を色々と手掛けていたので、そういったことも背景にはあります。また、COVID-19 の影響で延期になってしまったのですが、AR アプリを彼と出す企画もありました。

Rhizomatiks
Squarepusher(左)と Terminal Slam でのグリッチ画像

佐藤:制作上、難しい点や課題はありましたか?

真鍋氏:(後述の)テクニカルな課題に加えて、aesthetic(見た目の美しさ)の改善にとても手間がかかりました。例えば画像のグリッチ(デジタル処理のエラーやノイズをエフェクトとして利用する手法)は、一般的なシェーダーではなく実際の画像圧縮のエンコーディング エラーで生成したので、どのような見た目になるか事前に予想できません。そのため、さまざまなパラメーターの組み合わせで大量にグリッチ画像を生成し、その中から良いものを目視して選んだのですが、Squarepusher は驚くほど細かくグリッチ画像をチェックするのです。1 フレーム単位で指示が来ていたので、おそらくコマ送りして見ていたと思うのですが「ここのグリッチは前のバージョンの方がいい」などのリクエストにたくさん対応しました。

Deep Learning VM で「何度でも作り直せる開発環境」

佐藤:開発基盤として Google Cloud と TensorFlow(Google が提供する ML フレームワーク)を選んでいただいたのはどのような理由からでしょうか?

真鍋氏:まず初期投資が不要で、Google のインフラを活用できることが一番のメリットかと思います。そしてスケールメリット、効率的で整備された API とコンソールです。また、チュートリアルが充実していることや、Google Cloud と TensorFlow を使うエンジニアの数が多いことも開発と導入のコスト削減という点では大きいです。

浅井氏:今回の制作では ML による画像処理のすべてを Google Cloud で実施しました。真鍋と Squarepusher がまとめたアイディアやストーリーを、ML 担当の私や CG 担当がプロトタイプの映像に仕上げるまでの期間は 2〜3 日で、このスピード感で真鍋やアーティストとコラボレーションできることが重要です。これに間に合わせるために膨大な GPU リソースを短時間で消費するので、Google Cloud の豊富な計算リソースがないとまったく間に合いませんでした。

佐藤:ML による画像処理とは、具体的にはどのようなものでしょうか?

浅井氏:ひとつは物体検知です。例えば渋谷の交差点の映像に対しては、このように広告や人物等、さまざまな物体の位置を検出して枠線で表現していますが、この実装には TensorFlow 版の YOLO を使用しました。

Rhizomatiks 3

物体検知による広告等の位置検出

浅井氏:もうひとつはセグメンテーション。これには TensorFlow チームが公開している DeepLab を使っています。ちなみに DeepLab は以前から気に入っているツールで、今回の制作以外にも配信イベントでのリアルタイム VJ で Occulusion(奥行きによる物体の隠蔽)によく使います。推論に20 ms 程度しかかからない軽さが良いです。

Rhizomatiks 4
セグメンテーションによる物体のマスク抽出

浅井氏:3 つ目は、セグメンテーションで得られたマスクに対するインペインティングです。After Effects や OpenCV 等の通常のエフェクトに加えて、TensorFlow の GAN ベースのインペインティングも使っています。

5
GAN ベースのインペインティング

佐藤:これらの ML による画像処理に際して、Google Cloud をどのように活用いただいたのでしょうか?

浅井氏:今回扱った 4K 画像はそのままではサイズが大きすぎて GPU のメモリには収まらず、物体検知やセグメンテーションを適用できません。そこで個々の画像を 144 枚に分割し、それぞれを Google Compute Engine(GCE)の NVIDIA V100 GPU で処理しています。通常時は V100 を 2 個、足りないときは最大 8 個まで用意して並列実行していました。その後、得られた認識結果をつなぎ合わせることをしています。

他のクラウドサービスと比べても、Google Cloud は開発環境を作るまでが速い。もし環境が壊れてしまっても、何度でもすぐに作り直せます。特に、GCE で使える VM イメージである Deep Learning VM がとても便利です。GPU ドライバや numpy 等のほか、TensorFlow や PyTorch、Jupyter Notebook 等の ML ツールが最初から一通り入っているので、自分でインストールせずにすぐに使えるのが助かります。

クラウドと ML の「複合現実」で拡がるクリエイターの表現力

佐藤:最後に、今回の作品や今後の制作での新しい試みについて教えていただけますか?

真鍋氏:今回の制作では、音楽から特定の楽器音だけを抜き出す TensorFlow ベースのツール Spleeter も試しました。個々の楽器音と映像のエフェクトを同期させるために、楽曲から耳コピーして人力で MIDI データを作成したのですが、複雑なリズムを聞き取るために Spleeter を用いてドラムのパートを抜き出しています。実際の制作ではこうした地道な作業も必要になりますが、Google Cloud の ML 開発環境や TensorFlow の使いやすさが現場のクリエイターの表現力を支えてくれています。

6

Terminal Slam における音楽と映像の同期(左)

AI スーパーコンピューター Cloud TPU Pod(右)

浅井氏:実は今回、Google の Depth Estimation(深度推定)も制作過程で試していましたが、作品中ではうまく使える場所がありませんでした。今後の制作で活用できればと思っています。また、4K 画像の処理では先述の通り GPU のメモリがボトルネックになります。Google Cloud が提供する AI スーパーコンピュータ Cloud TPU Pod では多数の TPU のメモリを結合するモデル並列処理によりこのボトルネックを解消できそうなので、機会があれば試してみたいです。

以上、真鍋氏と浅井氏のインタビューをお届けした。昔であればビジュアル アーティストは目の前にあるキャンバスと画材、音楽アーティストは手元の楽器や収録機材だけが表現の手段であった。ライゾマティクスの事例からは、それが今やクラウド上の膨大な計算リソースや ML 開発環境を含めた「複合現実」の世界にまで拡張していることがわかる。なお、今回の制作で使用されたツールや技術について詳しくは、同社が公開している Squarepusher Behind the Scene ページでも解説されているのでご覧いただきたい。