TBSテレビ: Gemini 1.5 Pro / 2.0 Flash で映像メタデータの自動生成を世界に先駆けて実現、作業効率化とクリエイティブな業務への注力も促進

Google Cloud Japan Team
1955 年の開局以来、「報道の TBS」「ドラマの TBS」と称され、ジャーナリズムからエンターテインメントまで、良質なコンテンツを視聴者に届けてきた株式会社 TBSテレビ(以下、TBS)。その TBS では Google Cloud の生成 AI「Gemini 1.5 Pro」を導入し、これまで撮影した映像素材、制作した番組のメタデータの自動生成に着手。Gemini 2.0 Flash へのアップデートも行い、効率的な素材の管理や、番組作りのさらなる活性化だけでなく、貴重な映像資料の活用にも乗り出そうとしています。世界の放送業界に先駆ける最先端の試みについて、担当者に伺いました。
利用しているサービス:
Gemini, Cloud Storage, Google Kubernetes Engine(GKE), Filestore, BigQuery など
利用しているソリューション:
生成 AI
映像のデジタル化が進む一方、人海戦術では限界に達していたメタデータの作成
テレビ局では番組を制作するために、膨大な量の映像素材をストックしています。その編集、整理、活用のために欠かせないのが、撮影された映像素材に「メタデータ(映像の内容を説明したテキスト)」を付ける作業です。ディレクターや編集者は、メタデータを元に構築された社内検索システムにキーワードを入力して、映像素材を探します。
しかしメタデータの作成は、これまで完全に人の手によって行われてきたため、多くの課題を抱えていました。TBS で番組制作用の映像編集設備や制作支援システムの開発を担当する、メディアテクノロジー局 メディアソリューション部長の柿沼 司氏は、こう説明します。


「以前は、カメラマンが撮影したテープに挟んでくれた走り書きのメモや、編集マンが作業をしながら書き加えたメモをデータベースに登録して、テープを検索していました。近年は映像もデジタル化し、気軽にプレビューすることもできるようになりましたが、映像の内容を文字に起こす作業は今でも人間が行っています。日々入ってくる素材やオンエア後の番組を、専従のスタッフがひたすら目で見て、手でテキストを打ち込んでいるんです。」
この作業は非常に手間がかかり、例えば 3 分間の映像素材にメタデータを付与する場合は、基礎的な作業に約 40 分、別のスタッフによるチェックに 15 分と、1 時間近くを要します。TBS では各部門を合わせて 100 名近い人員を投入し、人海戦術でこの問題に対応してきました。柿沼氏は、それでも作業の遅れが慢性化していると指摘します。
「これは TBS だけでなく、世界の放送局が抱えている問題です。デジタル化の次のステップとして、メタデータを自動生成できるようにするのは放送局としての悲願でした。例えばニュースでは、映像素材のニーズが一番高いのは、撮影直後から 1 週間程度です。しかし現状は手作業で処理を行いますので、メタデータを付けるのに 2〜3 週間かかってしまうケースもあります。つまり、その映像を本当に使いたいタイミングで検索できないということが多いので、解決策を模索していました。」
情報量の多い映像分析にも対応可能、ブレークスルーをもたらした Gemini 1.5 Pro の登場
TBS では、以前から社内業務に Google Workspace を利用してきました。さらに、映像素材を統合的に管理、編集するための「ファイルベース」の開発に Google Cloud を採用しています。そのようななか、メタデータに関する課題を踏まえて提案を受けたたのが、生成 AI「Gemini 1.5 Pro」の活用だったのです。
同部でシステム開発を担当している佐竹 颯太氏は、2024 年 3 月に Gemini 1.5 Pro を紹介された瞬間、「求めていたのは、まさにこれだ!」と興奮したそうです。


「AI にはずっと注目していましたが、我々テレビ局が扱う映像はデータサイズが大きく、従来の生成 AI では扱えませんでした。その点、Gemini 1.5 Pro はロング コンテキストに対応し、映像、音声、テキストのマルチモーダル処理もできます。尺の長い映像を解析させて、タイムスタンプ付きのメタデータを生成するという作業にはうってつけでした。今でこそ、他社の製品も出てきていますが、当時、我々が求める性能を持った生成 AI は Gemini 1.5 Pro の他にありませんでした。」
佐竹氏らは Google Cloud のチームとともに、Gemini 1.5 Pro に各種の映像素材を読み込ませるテストを実施し、強い手応えを得ました。
「Gemini 1.5 Pro は、人間が映像を見て考えるプロセスに近しい部分を持っていて、ニュース番組のように内容にストーリー性がある映像に対しては、アウトプットの質が高くなることがわかりました。その一方で、テロップや音声に影響されて、不本意な答えを出してくることもありました。これはより多くの情報を取り入れるという意味で有効なように感じられますが、映像を客観的に解析するうえでは、マイナスの効果も生んでしまいます。Google Cloud のチームともディスカッションしながら、試行錯誤を繰り返した結果、1 つの映像を、映像のみ、文字情報のみ、音声のみと別々に解析させて、最終的に統合するという手法にたどり着くことができました。生成 AI に精通している Google Cloud のメンバーが伴走支援してくれて、多くの気づき、知見を得られたおかげだと思っています。」(佐竹氏)
検証結果を踏まえ、柿沼氏、佐竹氏らは、Gemini 1.5 Pro をベースに、映像解析を行う独自のシステムの開発に着手。まず報道のカテゴリーにおいて、プロンプト(指示文)にさまざまな条件を入力することにより、精度の高いメタデータを自動生成させる手法を確立しました。
「これは Few-Shot Learning (フューショット ラーニング)と呼ばれますが、過去の画像やメタデータを読み込ませることで、人間のメタデータの書き方を真似させるんです。例えば男性にインタビューしている映像を解析させると、通常は「男性が話している」と出力されます。でも、僕らとしては『男性へのインタビュー』と認識してほしい。そのためにプロンプトにいろいろな情報を入れて、チューニングしていくわけです。Gemini 1.5 Pro の場合、200 万トークンまでいけるので、過去の膨大なデータを一気に入力できます。まさに他社製品にはないメリットですね。」(佐竹氏)
佐竹氏とともにシステム開発に取り組んでいる同部の持倉 有紀氏は、実用性の向上を図るためには、制作部門の現場感覚も重要だと説明します。


「私は研修で報道局に行ったことがありますが、例えば番組制作スタッフは『◯◯党本部外観』というような言葉で検索しますので、メタデータも同じ単語で生成されている必要があります。また、映像のデータベースを構成する以上、いつ、どこで、誰が、何をしたかという基礎情報を明記することも、とても大切になります。Gemini 1.5 Pro では、同じ形式で解析結果が出力されるように工夫していますが、こういう部分での使い勝手も良くなるように、継続的に開発を進めていきたいと考えています。」




効率化がもたらす新しいコンテンツの創出、貴重な歴史的映像資産の再活用も促進
Gemini 1.5 Pro の導入は、最初のテストから 1 年足らずの間に顕著な成果を上げました。メタデータ作成時間はわずか 10 分の 1、チェック作業は引き続き人間が行うものの、トータルの所要時間も約 3 分の 1 に短縮。映像収録後に 2〜3 週間かかっていた作業時間を、5 日ほどに短縮できる見込みが立ったのです。また、タイムスタンプの自動付与、メタデータの内容の均質化などの手作業では達成できない課題もクリアしました。これは、よりタイムリーな番組制作を実現するという意味でも、極めて有意義な刷新だと言えるでしょう。2025 年3 月には Gemini 2.0 Flash へのアップデートもスムーズに行われ、現在、順調に運用されています。
TBS は Gemini 1.5 Pro、そして Flash 2.0 の活用によって、メタデータ作成の効率化に向けて大きく歩み始めました。しかし柿沼氏は、本プロジェクトの重要な目的は他にもあると語ります。
「そもそも映像素材の保管場所として Google Cloud を選んだのは、検索や AI 活用という面で他社よりアドバンテージがあると考えたからです。Google Cloud 上にファイルベース システムを構築し Google 検索や Gemini を活用していけば、検索性が向上したり自動編集や素材のレコメンドを行ってくれたりするなど、映像制作ワークフローの改善も期待できると思います。もちろん直近の目標として、メタデータを入力しているスタッフの負担が軽減できることにも期待しています。この作業には専門知識や経験が必要だということで、かつて番組制作の現場で活躍された方々が数多く担当していますが、生成 AI に任せていければ、もっとクリエイティブな仕事に携わり続けていただけるわけですから。」
柿沼氏は、Google Cloud と進めてきた今回のプロジェクトが、TBS が掲げる「放送という枠を越えた新しいコンテンツの創出」というビジョンにつながると捉えていました。
「検索がしやすくなれば、埋もれていた過去の貴重な映像資産を発掘し、活用できるようになります。それは今後生み出されるコンテンツの質を、さらに高めることにもつながるはずです。ひいては TBS が今取り組んでいる『コンテンツクリエイティブの革新』や『コンテンツ価値の最大化を目指す拡張戦略』の推進に貢献できるのではないか、私はそう考えています。」


株式会社 TBSテレビ
1951 年に創立され、1955 年にテレビ開局。1959 年に日本で初めて明確に形成されたテレビ・ネットワーク JNN のキー局を務める。視聴率調査開始以来、ほぼ 20 年にわたり年間平均視聴率首位の座を維持した。2000 年前後からデジタル技術開発、他メディア・多チャンネル化を推進。現在はコンテンツ価値の最大化を目指す拡張戦略「EDGE(Expand Digital Global Experience)」を掲げ、幅広い分野のコンテンツを制作し、グローバルコンテンツブランドへの成長を目指している。
インタビュイー (写真左から)
・メディアテクノロジー局 メディアソリューション部長 柿沼 司 氏
・メディアテクノロジー局 メディアソリューション部
兼 コンテンツ戦略本部 プラットフォームビジネス局 新規IP開発部 佐竹 颯太 氏
・メディアテクノロジー局 メディアソリューション部 持倉 有紀 氏
その他の導入事例はこちらをご覧ください。