コンテンツに移動
AI & 機械学習

ZSL、野生動物の保護のため、銃声の分類に ML を活用

2020年11月27日
https://storage.googleapis.com/gweb-cloudblog-publish/images/ZSL__MINFOF.max-2000x2000.jpg
Google Cloud Japan Team

※この投稿は米国時間 2020 年 11 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

国際的な動物保護慈善団体である ZSL(ロンドン動物学会)は、Google Cloud の AI と機械学習(ML)を使用して、動物を守る闘いにおいて更なる飛躍を遂げました。

Google は光栄にも ZSL とのパートナーシップを 3 年にわたって継続し、世界中の絶滅危惧種を特定して、より正確に追跡するカスタム ML モデルを共同開発してきました。動物保護に取り組むための、ZSL の次の武器となるデータセットは音声です。具体的には、録音デバイスによってキャプチャされる銃声です。

WWF によると、野生動物の違法な売買は年間 200 億ドル規模にものぼると推定され、一部の種を絶滅の危機に追いやる一因となっています。テクノロジーの中でも特に機械学習は動物保護における最先端の取り組みですが、このようなシステムを野生動物保護地区内に構築することは容易でありません

野生動物保護をサポートするための音声(サウンド)データ分析は、ZSL のモニタリングおよびテクノロジー プログラムの主要な取り組みの一つです。近距離圏内しか検知できないカメラトラップに比べ、音声センサーは最大 1 km(約 0.5 マイル)先の事象も検知します。これによって、保護活動家がさらに広範囲にわたって野生動物の行動と脅威を追跡できる可能性が広がります。

2018 年初め、ZSL は中央アフリカに位置するカメルーンのジャー動物保護区に、69 台の音声録音デバイスをデプロイしました。プロジェクトには 2 重の目的がありました。1 つは音声データを収集、分析して重要絶滅危惧種をモニタリングすること、もう 1 つは違法な狩猟活動の調査に音声データを活用できるかどうかを確認することです。1 か月のうちに、ZSL の音声デバイスは、267 日分に匹敵する計 350 GB の連続音声をキャプチャしました。1 か月分のデータでさえも、人が音声を聞いて手作業で分析するには膨大な労力を要します。そこで、ZSL の研究チームは Google Cloud と協同で、さらに高速なソリューションを見い出しました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Map_of_the_DJA_Faunal_Reserve.max-2000x2000.jpg
図 1 - ジャー動物保護区の地図

BigQuery と ML モデルによって、さまざまな音声をすばやく特定しラベル付けする

ZSL の関心が特に高かったのが、銃声のインスタンスの特定と分析です。データセットの各音声ファイルに対し、以下の点に注目しました。

  1. 銃声が記録されているか?

    1. 銃声だと思われる音が記録されたときの時間は?

    2. 本当に銃声である可能性は?

チームが活用したのは、YAMNet という事前トレーニング済み機械学習モデルで、元々は Google によって開発され、その後オープンソース化されたものです。これは、521 の音声イベントクラスを予測するディープネットで、何百万もの YouTube 動画のサウンドトラックを使用してトレーニングします。チームは、Google Cloud Storage に格納されている、ZSL のデータセット内の音声イベントを認識するために YAMNet を使用しました。最初の 350 GB 分のデータ分類にかかった時間は 15 分足らずで、1,746 のインスタンスが高い可能性で銃声と特定されました。

分類ツールから出力された結果は、BigQuery テーブルに push されました。テーブルの行が各分類を表し、音声録音デバイスの詳細、場所、音声が発生した時間、本当に銃声が記録されている可能性、元の音声ファイル情報などが含まれます。これにより、ZSL は何千時間にもわたる録音の中から、銃声を含む可能性が特に高い音声ファイルにのみすばやく焦点を当ててクエリし、さらに詳細な分析を行えるようになりました。

絞り込んだインスタンスは手作業で再生し、スペクトログラムとして目視検査して銃声であることを確認しなければなりませんでした。そのため、ZSL には、銃声が記録されていると判断した音声クリップを簡単に再生できる方法が必要となりました。そこで、次に、音声ファイルのサンプルを読み込み、可視化して再生し、モデルの結果を検証するための Jupyter Notebook(図 2)を AI Platform で構築しました。

チームは、高い可能性で銃声だと特定されたすべてのファイルの Cloud Storage URL を返す BigQuery API を使用しました。その後、音声ファイルはそれぞれ(検証を高速化するために)スペクトログラムとして可視化され、研究者はボタン 1 つでノートブック環境のまま音声を再生できるようになりました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Audio_file_visualisation_using_AI_Platform.max-1200x1200.jpg
図 2: AI Platform Notebooks を使用した音声ファイルの可視化。スペクトログラムは、音声を視覚的に表したもので、X 軸は時間、Y 軸は周波数です。(a)本物の銃声のスペクトログラム: 約 1.25 秒の位置での突然のオフセットの後安定した減衰が見られる。(b)偽陽性のスペクトログラム: デバイスの設置中に金槌を 1 度打ったときの音声。減衰は見られない。

BigQuery に結果を保存するもう一つのメリットは、各音声録音デバイスの位置情報を、そのデバイスに関連する銃声分類のインスタンスと簡単に相互参照できることです。相互参照すると、図 3 のように、BigQuery のネイティブ機能である地理空間機能(BigQuery GIS)を使用して、このデータを可視化できます。円は音声モニタの場所を表し、円の大きさと不透明度が各モニタのデータセット内で銃声と特定されたインスタンスの密度を表します。機械学習モデルが改善されるに従い、このタイプの分析で法的機関の介入が必要な場所やモニタリングを強化すべき場所などを、ピンポイントで特定できるようになりました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Output_from_BigQuery_Geo_Vis_Tool.max-1000x1000.jpg
図 3 - BigQuery 地理空間可視化ツールの出力。音声モニタリング基地別の銃声インスタンス分類の密度。

主な調査結果と次のステップ

調査中に、ZSL は場所と日時がそれぞれ異なる 3 つの銃声を特定しました。手作業での検証は手間と時間がかかるのに対し、Google 分析ツールがインスタンスを返すまでにかかった時間は 2.5 時間でした。通常、研究者チームがこのタスクを行うと、何か月もの時間を要します。

動物保護区のほんの一部を対象とした、わずか 1 か月のこの研究で、研究チームは、人間がジャー動物保護区の動物に与える脅威に関する新しい分析結果を得ることができました。過去のデータでは、警備隊に気づかれないようにするため、銃声の多くは夜間に報告されることが多いとされていましたが、違法な狩猟は日中にも行われているという証拠が ZSL によって提示されることとなりました。

ZSL は Google Cloud によって、動物保護に必要な大量のデータのストレージと迅速な分析を手に入れました。低コストな音声サービスに加え、この高速データ処理パイプラインは、より長期間にわたる動物保護区全域のモニタリングへの道を切り開きます。これにより、ZSL は野生動物に危険がおよびやすい場所や季節性を特定し、管轄の警察署などに通報、情報提供できるようになります。

今後 ZSL の研究成果は、より一層長期間で低コストのモニタリングを実現し、究極的にはリアルタイムでアラートを発信できるようなデバイス上での脅威分類機能の開発につながっていくことでしょう。動物たちが大変な苦境に立たされている中、ZSL のような動物保護グループがリソースをより効率的にデプロイし、違法な野生動物取引を撲滅する大きな可能性が、テクノロジー、とりわけ機械学習には秘められています。


ヒーロー画像クレジット: ZSL & MINFOF

-消費財・旅行担当カスタマー エンジニアリング責任者(英国およびアイルランド担当)Omer Mahmood

投稿先