データ分析

上位 25 件の Google 検索キーワードが BigQuery で利用可能に

google tends.jpg

※この投稿は米国時間 2021 年 6 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

本日、Google トレンドの新しい一般公開データセットのプレビュー版が利用可能になりました。今回初めて、Google が所有する検索データを Google Cloud データセットに取り込み、BigQuery やお気に入りのビジネス インテリジェンス ツールを通じて便利に分析できるようになります。

10 年以上にわたり、Google トレンドは Google 検索データのサンプルを提供してきました。引き続きプライバシーを最優先に考え、データは匿名化やインデックス登録、正規化、集計が行われてから公開されます。Google トレンドデータにアクセスできるのは Google トレンドのウェブサイトに限られており、基礎となるダッシュボード データをエクスポートして追加の分析情報を引き出すには手作業による処理が必要です。こうして、安全かつ安心な非公開の方法で BigQuery と直接やり取りできるようになり、このデータセットへのアクセスの効率性が向上します。

この BigQuery データセットは Analytics Hub でもまもなく利用可能になり、ユーザーは Google 検索全体で米国全土から都市レベルまでの特定のトピックや検索キーワードへの関心を測定できます。マーケティング担当者、幹部社員、運用マネージャーも、ユーザーの検索内容を簡単に照会して分析に反映させることができます。たとえば、お客様が小売業者であり、エンドキャップの表示内容が地域のオーディエンスに適しているかを確認するとします。その場合は、マーケット エリア内でユーザーが探しているものからシグナルを取得して、表示すべきものを判断できます。または、製品の研究開発イニシアチブを担当していて、ユーザーの検索内容に基づいて既存の製品に組み込むべき新機能を把握するとします。人気があり関連性のある検索内容は、新しい商品ラインのヒントをチームに与えてくれることさえあります。こうしたデータセットに含まれるキーワードは、何に注意を向けるべきかを示している可能性があります。

Announcing Google Trends dataset.jpg

「Google 検索のトレンドデータは、WPP エージェンシーのデータチームにとって常に重要なツールであり続けてきました。WPP は、データの多様性は優位性であると考えます。そのため、Analytics Hub のリリースに加えて、BigQuery 内で新しいトレンド データセットを利用できることを非常に楽しみにしています。世界トップレベルの創造性は、データ分析による知識と人々が検索する情報に基づくインスピレーションから生まれます。Analytics Hub がもたらす運用効率とトレンドデータを通じて得られる分析情報は注目に値するものです。」

- WPP データおよび AI 担当グローバル ヘッド Di Mayze 氏


Google トレンド データセットの仕組み

Google の使命は、「世界中の情報を体系化して時と場所を選ばずアクセスできるようにし、すべての人に役立てること」です。この使命に忠実であり続けるために、このデータの一部を安全かつ安心な非公開の方法で共有いたします。最初のプレビュー版では、Google Cloud のデータセットを通じて人気のトレンド キーワードが提供されます。このデータセットは BigQuery データセットに米国の上位 25 件の記事と上位 25 件の急上昇の検索語句を表示するもので、Google Cloud Marketplace からアクセスできます。

Trends Dataset in GCP Marketplace.jpg
Google トレンド データセットが Google Cloud Marketplace で利用可能になりました

上位の記事は米国全体でその日に最も検索されたトピックを示し、上位の急上昇の検索語句は、過去 1 日で人気が急上昇した検索キーワードを示します。各キーワードは Nielsen の指定マーケット エリア®(DMA)によって週単位でセグメント化され、5 年間ごとの過去のバックフィルで強化されます。

上位のキーワードと上位の急上昇検索語句の新しいセットが毎日生成されると、データはそれぞれのテーブルの新しいパーティションに挿入されます。上位の記事と上位の急上昇検索語句はセットごとに保持され、有効期限の 30 日目になるまで静的に維持されます(たとえば、各テーブル パーティションの有効期間は 30 日間です)。詳しくは、データセット リストの各テーブルのスキーマをご覧ください。   

Google トレンド データセットの使用を開始する

Google トレンド データセットに保存されている上位のキーワードと急上昇のキーワードにアクセスする場合、BigQuery の無料枠を通じてクエリなら 1 か月あたり最大 1 TB、ストレージなら 1 か月あたり最大 10 GB まで無料でご利用いただけます。これらのしきい値を超える SQL クエリには、通常の BigQuery の料金が適用されます。ユーザーはサンドボックスの制限と BigQuery の無料枠のしきい値に従って、BigQuery サンドボックスを利用して BigQuery にアクセスすることもできます。その場合、Google Cloud アカウントの作成やクレジット カード情報の入力は不要です。

上述の一般公開データセット テーブルの探索を開始するのは簡単です。BigQuery SQL UI から上位 25 件の検索語句のテーブルと、上位 25 件の急上昇検索語句のテーブルに対してクエリを実行するだけです。データのスキャンと処理を最小限に抑えるには、クエリでパーティション フィルタを利用します。

  select * from `bigquery-public-data.google_trends.top_terms`
where refresh_date = DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY)

最も人気のある検索トレンドを上位の急上昇検索語句と比較してオーバーレイするには、dma_id のテーブルを結合します。

  select * from `bigquery-public-data.google_trends.top_terms` top
join `bigquery-public-data.google_trends.top_rising_terms` rising on top.dma_id = rising.dma_id
where top.refresh_date = DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY)
and rising.refresh_date = DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY)

BigQuery UI の外部では、Looker やデータポータルなどの使い慣れた BI ツールからこのデータセットを操作したり、パートナー エコシステムのソリューションを操作したりすることもできます。

looker.jpg

Google Cloud データセットの今後の展開

上述の内容は、Google 社内のデータに組織がアクセスしやすくして、分析の取り組みを強化するための初期段階にすぎません。Google トレンドデータのリファレンス パターンやユースケースに関する今後のブログ投稿に加え、Google Cloud データセットを通じて提供されるプロダクトのロードマップやその他のデータセット ソリューションの最新情報に引き続きご注目ください。それまでの間、独自のプロジェクトで新しい Google トレンド データセットを探索するか、BigQuery を初めてご利用になる場合は、BigQuery サンドボックスでプロジェクトを起動してください。

- プロダクト マネージャー兼カスタマー エンジニア Maggy Hu

- エンジニアリング マネージャー Antonio Lobato