コンテンツに移動
セキュリティ & アイデンティティ

reCAPTCHA Enterprise でウェブ スクレイピングを軽減

2020年7月9日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Blog_Security-identity.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2020 年 6  月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

今日のデジタル時代において、ますます多くの企業がコンテンツや価格などのさまざまな情報を自社ウェブサイトに掲載するようになり、情報はこれまで以上に重要になっています。

ウェブ スクレイピング(一般にウェブ収穫またはウェブ抽出とも呼ばれます)とは、インターネット上のあらゆるウェブサイトから情報を抽出する行為で、一部の企業では、自動化されたデータ収集に対して個別の利用規約を定めることが一般的になりつつあります。このブログ投稿では、悪意のあるウェブ スクレイピングが増加している現在の状況、それがなぜどのようにして行われるのか、そしてそれを reCAPTCHA Enterprise を使用して軽減する方法についてご紹介します。

ウェブ スクレイピングの基礎

インターネット上のあらゆる情報を手動で収集するには、時間と手間がかかります。bot によるウェブ スクレイピングを利用すると、企業や個人がリアルタイムでウェブ スクレイピングを自動化できます。また、手動で行うよりもはるかに高速に、スクレイピングされた情報を簡単に取得して保存できます。

最も一般的なウェブ スクレイピングは、価格スクレイピングとコンテンツ スクレイピングの 2 つです。

価格スクレイピングは、ウェブサイトに掲載された製品やサービスの価格の詳細を収集するために使用されます。競合他社の製品、特典、価格を知ることには極めて大きな価値があります。bot を使用してこのような情報をスクレイピングすれば、競合他社による製品の販売開始時期や更新時期をいち早く把握できます。そしてこの情報を利用して、価格の引き下げや、より競争力のある意思決定を行うことができます。

コンテンツ スクレイピングは、特定の 1 つまたは複数のサイトから大量のデータを盗み出すことです。コンテンツが盗まれて他のサイトに再投稿されたり、他の方法で配布されたりすることで、広告収入やデジタル コンテンツへのトラフィックの大幅な減少につながる可能性があります。また、この情報が競合他社に転売される、スパム行為のような他の bot キャンペーンで利用される可能性もあります。

ウェブ スクレイピングは、サイトがリソースを利用する方法に悪影響を与える場合もあります。bot は人間よりもはるかに高速かつ頻繁にリクエストを実行できるため、ウェブサイトのリソースを大量に消費することがよくあります。さらに、bot は多くの場合、サイトの robots.txt ファイルを無視してすべての場所で情報を検索します。通常はこのファイルに、スクレイピングの対象に関するガイドラインが設定されています。これにより、実際のユーザーに対するパフォーマンスが低下し、コンテンツの提供から bot のスクレイピングまでを含めた全体のコンピューティング費用が増加する可能性があります。

reCAPTCHA Enterprise が役立つ理由

サイトを不正使用してデータを取得しようとするスクレーパは、多くの場合、悪意のある人物が認証情報の盗み取り攻撃を行うのと同様の方法で検出を回避しようとします。たとえば、これらの bot はユーザー エージェント文字列やリクエスト パターンで正規のサービスを装い、見つからないように潜んでいる場合があります。

reCAPTCHA Enterprise は、このような bot を識別できるだけでなく、bot の手法が進化しても引き続き識別できます。人間のユーザーによる操作を妨げることもありません。巧妙で熱心な攻撃者であれば、静的ルールなどは簡単に回避できます。reCAPTCHA Enterprise は、高度な人工知能と機械学習により、バックグラウンドで密かに動作している bot を識別することができます。そして、ツールや可視性を提供することで、このような bot が貴重なウェブ コンテンツにアクセスするのを防ぎ、bot にコンテンツを提供することで費やされる処理能力を削減します。さらなる利点として、セキュリティ管理者が動的なボットネットを軽減するために手動のファイアウォールや検出ルールの記述に費やす時間を短縮できます。

今日の脅威の状況において、自動化された脅威と戦うには行動分析が不可欠です。reCAPTCHA Enterprise では、ウェブページにアクセスしている bot の数や頻度を把握することも可能です。最も重要なのは、reCAPTCHA Enterprise の検出機能によってエンドユーザーや顧客の操作性が低下したり妨げられたりすることがなく、最も重要なユーザー、つまり実際の人間になんら支障のないように保護が提供されることです。

 - セキュリティとコンプライアンス カスタマー エンジニアリング Tyler Davis

投稿先