Google Cloud

スパムはいらない ―― TensorFlow を使って Gmail から新たに 1 億以上のスパム メッセージを除去

GmailLaunch-03o789.PNG

※この投稿は米国時間 2019 年 2 月 7 日に Google Cloud blog に投稿されたものの抄訳です。

毎月 Gmail を使っている人は 15 億人、G Suite の一部として Gmail を有料で使っている企業は 500 万社に上ります。一般ユーザーと企業ユーザーのどちらにとっても、Gmail の最大の魅力は、あらかじめ組み込まれているセキュリティ保護機能でしょう。

セキュリティが優れていることは、常に脅威よりも優位に立っていることを意味します。Gmail で従来から使用されている機械学習(ML)モデルは非常に強力で、ほかの保護機能とともに、スパムやフィッシング、マルウェアの 99.9 % 以上を Gmail の受信トレイから遠ざけてきました。

私たちは、セキュリティ保護機能を絶えず強化するとともに、利用者保護の観点から ML の機能向上に努めてきました。Google の TensorFlow(オープンソースの ML フレームワーク)を使った新しい保護機能を最近 Gmail に追加したのもそのためです。この新機能は、既存の ML とルールによる保護機能を補完し、スパム検出性能を強化することに貢献しています。TensorFlow により、毎日新たに 1 億件ものスパム メッセージをブロックできるようになったのです。

この膨大な数の新たなスパムはどこから検出されたのでしょうか。それらは、従来とても見つけにくかったタイプのスパムです。TensorFlow のおかげで、画像ベースのスパム、組み込まれたコンテンツを隠しているメール、正常な範囲のトラフィックで少量のスパムをこっそり送ろうとする新ドメインからのメールを検出できるようになりました。

tensorflow_gmailvgq1.GIF

すでに大半のスパムをブロックしている Gmail において、新たに 1 億ものスパムを正確にブロックできるようになったというのは驚くべきことです。TensorFlow は、お客様にとって大切なメッセージを誤ってブロックすることなく、0.1 % 未満の中にもぐり込もうとするスパマーを見つけ出すことに役立っています。

スパムか否かをパーソナライズ

ML は、人間が作ったルールでは見抜けないパターンを大規模なデータセットから見つけ出し、スパムをキャッチしやすくします。ML により、絶えず変化するスパムの手口にすばやく順応できるようになります。

ML ベースの保護では、多くの異なる要因に基づいて、きめの細かい判断を下します。すべてのメールには数千もの信号が潜在的に含まれていますが、一般に「スパム臭い」と見なされるような特徴が含まれているメールでも、必ずしもスパムだとは限りません。ML を使用すれば、そうした信号を総合的に検証して判断を下すことができます。

ML は、スパム保護の方法をユーザーごとにパーソナライズすることにも役に立ちます。ある人がスパムと考えるようなメールでも、別の人から見れば重要なメッセージだというケースに対応できます(ニュースレターの配信やアプリケーションのメール通知などを想像してみてください)。

ML 機能の強化で TensorFlow が果たす役割

既存の ML モデルを TensorFlow で補完したことで、それらの ML モデルをより強化できただけでなく、基盤の ML フレームワークに振り回されることなく問題解決、すなわち受信トレイからのスパム追放に力を注げるようになりました。

ML の大規模な適用は、複雑で時間のかかる仕事です。TensorFlow には ML 処理を効率良く簡素なものにするツールが多く含まれており、開発のイテレーションが短期間で回るようになります。たとえば TensorBoard を使用すると、モデル トレーニング パイプラインを包括的にモニタリングしながら、新モデルの有用性をすばやく評価できます。

TensorFlow を使用すれば、最も有効なアプローチを得るために、複数のモデルを並行してトレーニングし、試してみることも簡単です。一度に 1 つのことしか試せない時代は終わったのです。

TensorFlow はオープンな標準であり、世界中のチームや研究者に利用されています(今までに 71,000 のフォークが作られ、それ以外にもオープンソースのコントリビューターがいます)。強力なコミュニティのおかげで、新しい研究やアイデアをすばやく取り入れることができます。そしてこのことは、私たちにとっても、最高の保護機能をお客様に提供するべく、Google 社内の他チームとのコラボレーションをすばやく簡単に進められることを意味します。

以上のメリットをすべて活用することで、ML への取り組みを拡げることができ、従来よりも少ない技術者で多くの実験を行い、ユーザーをより効果的に保護できるようになります。

これは、私たちがユーザーと企業を保護するにあたって ML をどのように活用しているかの一例であり、TensorFlow の 1 つのアプリケーションに過ぎません。Gmail の枠内でも、お客様の安全を守る継続的な取り組みの一環として、フィッシングやマルウェアの検出という、スパム検出とは異なるセキュリティ領域への TensorFlow の応用を進めています。

TensorFlow は皆さんもご利用いただけます。Google は 2015 年に TensorFlow をオープンソース化し、あらゆる人々に ML への門戸を開放しました。Gmail のスパム検出といった重要な機能を強化するテクノロジーを、さまざまな組織で活用していただきたいと考えています。

TensorFlow の詳細とその利用企業については tensorflow.org を参照してください。G Suite におけるセキュリティ上のメリットについては、こちらの eBook をダウンロードしてご覧ください

- By Neil Kumaran, Product Manager, Counter-Abuse Technology