コンテンツに移動
デベロッパー

BigQuery で Python パッケージのダウンロードを分析する

2021年3月31日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 3 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。

最近、Google Cloud 一般公開データセット プログラムの一環として Python Package Index(PyPI)データセットが Marketplace に公開されました。PyPI は、Python パッケージの標準リポジトリです。Python でコードを記述したことがある方であれば、pip または pipenv を使って PyPI からパッケージをダウンロードした経験がおありなのではないでしょうか。PyPI データセットには、あらゆるパッケージのダウンロードの統計情報のほか、各ディストリビューションのメタデータが含まれています。基本的なデータおよびテーブルのスキーマについて詳しくは、こちらをご覧ください。ここでは、PyPI データの活用例をいくつかご紹介します。

Python を愛用し、Looker の各種パッケージの開発に関わったことがある私としては、このデータセットを使ってライブラリの使用状況を調べてみることにかなりの関心がありました。手始めに行ったのは、Looker という言葉を含むパッケージが過去 12 か月間において日別で何件インストールされたかを調べるということです。

lang-sql
読み込んでいます...

Looker プラットフォームでこのクエリの結果をグラフ化すれば、公式 API ラッパーである looker-sdk のダウンロード数がトップであることが一目瞭然です。また、8 月末と 12 月頭にダウンロード数が大きく伸びていることに気付きました。これは、さまざまなマーケティング活動の成果といえそうです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Screen_Shot_2021-03-16_at_11.40.11_AM.max-70.max-700x700.png

PyPI データのその他の活用方法としては、競合他社のパッケージに関するデータも取り込んで、マーケット シェアを時系列でグラフ化するといった例があります。ソフトウェア部隊にとって、ダウンロード数の傾向は、個々のデベロッパーのマーケティング戦略の効果を測ったり、新しいプログラムについて決断を下したりするための有力な手がかりとなります。

次に、looker-sdk パッケージのみに注目し、Python のバージョン別のインストール数を調べてみました。すると、Python 3.6 を使用しているユーザーが大半であることがわかったので、このバージョンに対応する機能を優先したほうがよさそうであると判断できます。また、同じ情報に基づき、最適な環境へのアップデートをユーザーに促すこともできます。

lang-sql
読み込んでいます...

https://storage.googleapis.com/gweb-cloudblog-publish/images/Screen_Shot_2021-03-16_at_11.41.25_AM.max-70.max-700x700.png

クエリの結果は Google スプレッドシートに簡単に保存して、マーケティング チームと共有できます。また、Looker などのツールを使えば、月次レポートをメールでチームに送信し、ユーザーの最新の傾向を知らせることもできます。次のステップとしては、このデータを同じくMarketplace で公開されている GitHub データセットと結合し、git のアクティビティとパッケージのインストールの間に相関があるかどうかを調べてみようと思っています。

BigQuery について学ぶ

PyPI データセットや、BigQuery でホストされているその他多数の公開データセットに対してクエリを実行する方法については、無料の BigQuery サンドボックスおよびクイック スタートガイドをご覧ください。また、Twitter(@leighajarett)や Linkedin(linkedin.com/in/leighajarett)でも BigQuery ニュースを発信していますので、フォローやつながりリクエストをお待ちしております。

-デベロッパー アドボケイト Leigha Jarett

投稿先