データ分析

Looker によってデータサイエンスのワークフローを加速

2021年3月9日

Google Cloud Japan Team

※この投稿は米国時間 2021 年 2 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud の一部となった Looker は、最新のビジネスインテリジェンス（BI）および分析プラットフォームであり、単なる BI 報告ツールではありません。本格的なデータアプリケーションおよび可視化プラットフォームです。Looker を使用すると、ユーザーはデータをキュレートして公開し、CSV、JSON、Excel、ファイルから SaaS や社内で構築されたカスタムアプリケーションに至るまで、さまざまな形式のさまざまなエンドポイントとの統合が可能になります。

この投稿では、データアナリストやデータサイエンティストが Looker を使ってデータガバナンス（企業システムにおけるデータの可用性、ユーザビリティ、完全性、セキュリティを管理するプロセス）を支援する方法をご説明します。データガバナンスは、スケーラブルで自動化された機械学習の運用をサポートするうえで必要となる最初の手順です。Looker を使ってデータサイエンスのワークフローを自動化し、本番環境で使用する方法についてのライブデモと実例をご覧になりたい方は、こちらから 3 月 4 日に行われたウェブセミナーをオンデマンドでご覧ください。

https://storage.googleapis.com/gweb-cloudblog-publish/images/looker_bi.max-2000x2000.jpg

クリックして拡大

データサイエンティストは、データの読み込みやクリーニングなどのデータ準備作業に 45% の時間を費やしています。これは運用面でも財務面でも大きな負担となります。また、データアナリストやデータサイエンティストは、データサイエンスへの投資からリターンを得られることに懐疑的な利害関係者に、ビジネス価値を迅速に示す必要に迫られることがよくあります。プロジェクトごとに独自のデータパイプラインを構築する時間を費やす必要があることを考えると、これは困難です。

同時に、異なるチームが異なるデータソースや報告ツールを使って競合するレポートを作成しているため、データのサイロ化が継続します。ビジネスが成熟し、機械学習や AI を伴ったレポートが必要になると、状況はさらに複雑化します。このような状況ではデータガバナンスが極めて重要になりますが、最後まで検討されなかったり、忘れられてしまったりすることが多いものです。

Looker のプラットフォームとパブリッシング機能により、ビジネスユーザー、データアナリスト、データサイエンティストは、これを組織全体の中央データクリアリングハウスとして使用できます。さらに、SQL クエリを抽象化した LookML という Looker のモデリング言語により、複数の SQL ベースのデータウェアハウス上で追加されるサービスとしてデータガバナンスを簡単に実装することができます。

データガバナンスとデータ公開をまとめて 1 か所で行うことで、データアナリストやデータサイエンティストがデータの取得や基本的なクリーニングに費やす時間を大幅に短縮できます。

その仕組みをイメージしやすくなる例をご紹介します。ある部屋に人が 3 人いるとします。1 人は家を建てたい、1 人は家具を作りたい、1 人は額縁を作りたいと考えています。何かを作るたびに、各自が自分の木を伐採し、別々に材木を用意して、自分で製材するのと、ホームセンターに行って必要な製材を購入し、作りたいものを作るのにすべての時間を費やすのとでは、どちらが効率的でしょうか？

最初のシナリオでは、各自が実際に作りたいものを作る前に、原材料を加工して使用可能な製材にするための作業をすべて行う必要があります。作業に必要な材料はすべて同じ供給源から得ているため、3 人が同じ上流サプライチェーンプロセスを共有する方が効率的です。

この例で言えば、Looker はホームセンターになります。Looker は、基盤となるデータウェアハウスから得たデータを、各タイプのエンドユーザーが最終用途に直接消費できる形式に柔軟に再構築するセマンティックレイヤーとして機能することで、データを取得、QA、保管、そして最終的には各タイプのエンドユーザーが使用できる形式でデータを利用できるようにする処理を一元化する、データ小売スペースとしての役割を果たします。

Looker を導入することで、企業内の各部署や機能が独自のデータパイプライン、Excel のレポート、報告ツールを構築するのではなく、誰もが同じ場所からデータを入手し、最終用途に特化したラストワンマイル変換の適用や配信に力を注げるようになります。

企業全体でデータが完全に管理されるため、データの基本的なクリーン性の基準が満たされているか（列タイプの変換、列名の意味の理解、NA の削除、対象データがデータセット内に存在するかの検証）を確認するために異種のソースからのデータと何日も格闘する必要があったデータ収集を、非常に簡単なクエリを実行して、検証済みのデータセットを AI ノートブックに取り込むのに数分で済むような、きれいにレイアウトされたデータ小売スペースで行えるようになるのです。