データ分析

データ チャンピオン: ゴールデンステート ウォリアーズが試合のデータを活用して競争力を向上させた方法

※この投稿は米国時間 2021 年 3 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud とゴールデンステート ウォリアーズ(GSW)が提携を開始したのは 2019 年。サンフランシスコにあるスポーツとエンターテイメントの最新型施設、チェイス センターの開設とともに始まりました。Google は、ウォリアーズのパブリック クラウド プロバイダとして、データドリブンな意思決定を通じたフランチャイズ改革にも協力しました。

現在、ウォリアーズは Google のデータクラウドによるインテリジェント テクノロジーを活用して次世代の機械学習とデータ分析を実現し、コーチ、フロント、スタッフ、選手、ファンのニーズへの対応を改善しています。両者の協力のもと、リアルタイム データ パイプライン分析が開発されました。これにより大量データの分析が高速化し、コーチとバスケットボール オペレーションズが豊富な情報に基づいて意思決定を迅速に下せるようにしています。分析チームはそれまで、作業時間の 70% をデータの収集とシェイピングに費やし、分析にはその 30% しか割いていませんでした。データをさらに活用するため、チームは準備時間の短縮を目指しました。

NBA バスケットボール オペレーションズのチームは、チームの試合中のパフォーマンスを、あらゆる面から把握しています。その中で、ウォリアーズの戦略チームは、チーム戦略だけでなく選手獲得の目的のために、選手とチームのパフォーマンス指標を研究しています。戦略チームは、コーチと選手が(文字どおりの)勝利を達成できるよう支援すべく、データを集め、レポートを作成し、分析結果を精査します。このような知見提供のスピードと信頼性の改善するツールは、競争力を大きく向上させます。すなわち、バスケットボールに DevOps を取り入れたのです。

GSW のデータおよび分析チームでは、データの真の価値はその使用方法にあると考えており、プロセスの改善、自動化、シームレスなコラボレーションの機会を常に探求しています。その探求の出発点となるのがデータ統合であり、それがプロジェクトのデプロイにつながります。これらの要素をより速く簡単に維持できれば、チームは、さらに洗練された分析の価値をより多く抽出できるようになります。Google は、その手法をウォリアーズとの取り組みに適用したいと考えました。

統合: データ パイプライン

その第 1 歩は、持続可能なデータ パイプラインの構築でした。これにあたって、コア データセットのサイズ、データのタイプ、データの場所、必要な更新頻度など考慮すべき事柄がいくつかありました。

NBA の全チームにとって、必要不可欠なデータソースのひとつが Second Spectrum です。これは、バスケットボールのコート上で発生する動き(NBA の典型的な試合中には最大 100 万エントリ)を光学式トラッキングによってほぼすべて捕捉し、その 3D 空間データをリアルタイムで提供します。これは本質的には「ビッグデータ」ではありません。しかしそれでも、30 チームが年間 82 試合(およびプレーオフ)を戦い、長年の過去データもあるため、数テラバイトのデータをコンスタントに更新しながら取り込むことになります(また、取り込みはデータ エンジニアリング時の処理であるため、後で下流での問題が発生しないように、最初からデータを整えておくことが望まれました)。

Second Spectrum は AWS S3 のストレージ バケットに元データを配信します。つまり、ウォリアーズは、最終的な Google のエコシステムの外部で、大量の元データにアクセスしなければなりませんでした。パイプライン用に求めた最初のツールは、Google Cloud Transfer Service でした。最初のコピー作業として、Google Cloud UI で各 S3 バケットから 1 回限りのコピーを構成すると、数秒のうちにすべての元データが Google Cloud Storage に入ります。その後、ウォリアーズは、Cloud Storage が常に最新の状態を反映するよう、新規ファイルまたは変更ファイルを毎日取得するスケジュールを設定しました。なお、この作業はすべて UI 上で実施されています。

Cloud Storage 上の元ファイルのストレージが適切に処理されたことで、チームはパイプラインと BigQuery との接続に軸足を移すことができました。サーバーレスでコスト効率の良いこのマルチクラウド データ ウェアハウスは、ビジネスのアジリティを実現するために設計されており、運用上のオーバーヘッドを生じさせることなく最大で数ペタバイトのデータまでスケールでき、Google Cloud プロダクトとシームレスに統合します。これは、並列処理ツールの Apache Beam と、Google Cloud のストリームおよびバッチデータ処理用フルマネージド サービスである Cloud Dataflow との強力なコンビネーションによって実現しました。データの取り込みを並列化しない場合、初期データ ウェアハウスの設定に実行時で数日かかってしまいます。並列化すれば、初期取り込み全体の実行時間が実装で約 30 分になります。また、今後テーブル スキーマが変わるなどのファイル編集が生じた場合にも迅速に反復できる手段が提供されます。

Second Spectrum は NBA チームのデータソースとして重要なツールの一つです。一方、バスケットボールの運用に携わる他部門からのさまざまな質問に回答するため、戦略チームが利用できるツールも数多くあります。そこで、戦略チームは、上で述べた最初の単一パイプラインに次いで、同様のプロパティでより多くのデータソースを統合して管理する方法について考え始めました。それを実現するには、根本からばらばらなパイプラインの集合体と化すのを防ぐ、より強力で包括的な統合が必要になります。それを解決したのが Google Cloud Composer でした。

Cloud Composer は Google Cloud のフルマネージド型ワークフロー オーケストレーション ツールであり、ワークフローの作成、スケジューリング、モニタリングのためのオープンソース フレームワークである Apache Airflow を土台にしています。Composer はフルマネージド型なので、他の Google Cloud サービスとシームレスに統合できます。たとえば、Google Cloud UI で Composer 環境を作成する場合、Composer 環境が存在し Airflow コードが実行される場所で Kubernetes pod を起動できます。

戦略チームは Airflow と Composer を使って、継続的に更新される完全統合データ パイプラインを構築しました。これにより、10 種類以上のデータソースが BigQuery データ ウェアハウスに統合されるのに加え、Cloud Storage 内で長期ストレージが構築されるほか、Cloud Pub/Sub 経由でエクスポートが記録されます。

これらのパイプラインが設定されることで、その真価が発揮されるのです。

結果の抽出: データの実用化

どのような大規模分析プロジェクトにもデータ ウェアハウジングは欠かせません。しかし、重要なのは、そのデータの活用と分析の提供です。プロ バスケットボール チームであっても、考慮の対象が顧客の購入データ、クリックスルー データ、株価ではなく、ショット、ピックアンドロール、スカウティング レポートになるだけで、その本質は一般企業とそう大きくは変わらないことが明らかになりました。そして多くの企業と同様、特定のタイプの分析が見込まれ、繰り返し実行されます。

戦略チームは dbt を使用して BigQuery 内のデータ変換の収集を促進し、新しいテーブルとビューで数千種類の指標を計算します。その結果は、BigQuery 内の他のテーブルと同様にクエリの対象となります。たとえば、1 つのデータモデルとそのターゲット変換により、ショットとショット地点を収集してコートの特定ゾーンからの選手の有効フィールド ゴール率に変換するとします。こうして変換されたデータは、スカウティング レポートなどの資料に組み込まれます。これら変換ツールとモデリング操作は Cloud Compose によってオーケストレーションされます。

作成から提供までの時間が短縮されるので、特にプロセスが自動化される場合、より短い時間で価値を抽出できるようになり、分析結果に合わせて柔軟に対応する余地が広がります。レイテンシとタイミングは多くの業界で重要視されます。バスケットボールも例外ではありません。NBA のオフシーズンを考えてみましょう。過酷なシーズンを終えた後、選手は休暇を取りますが、フロントは次期シーズンの選手層強化を図るために忙しくなります。

もちろんチームはあらかじめ準備し、与えられた選択権の範囲で取る選手の傾向を定めますが、ドラフトの日が近づくと若干混沌とした状況になりがちです。選手と選択権がトレードされ、前のチームが選択してから 300 秒で自チームの選択を行わなければなりません。「スカウト X は 1 月中旬のスカウト出張中に選手 Y の稼働率のどこに注目したのか」、「トップ 25 のチームに対する選手 Z の有効フィールド ゴール率はいくつだったか」など、どのような問いであっても、一元的なデータ ウェアハウス内に答えがあれば、スムーズに回答が得られます。

統合にかかる時間が数日間から 1 時間未満に短縮され、デプロイ時間が数時間から数分に減ると、データの所在にかかわらず、アナリストが余裕を持ってデータを探索できるようになり、アクセス可能な情報も増えます。このアクセス可能な情報によって、分析の構想や仮説のテストを実施する環境の効率が改善し、コーチ、選手、アナリストが新たな方法でインテリジェンスを活用できます。また、このインテリジェンスを知識、経験、リーダーシップと組み合わせることで、コート内外の出来事について、より効率的かつ客観的な意思決定が行えるようにもなります。

Google Cloud のデータクラウド サービスでは、業種の別を問わず、取り込み、変換、モデリング、分析情報の抽出のすべてのプロセスで時間を節約でき、組織の価値を継続的に高めることができます。つまり、チャンピオンを育てることができるのです。がんばれ、ウォリアーズ!

ウォリアーズの事例の詳細を確認し、ぜひお試しください

-デベロッパー アドボケイト Eric Schmidt