Dataplex でのデータ探索を活用して分析情報取得を高速化
Google Cloud Japan Team
※この投稿は米国時間 2022 年 10 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。
Data Exploration Workbench in Dataplex の一般提供が開始されました。どのような内容で、どのように役立つのかについて、本記事をぜひご覧ください。
あなたは冒険に出発する探検家であると想像してみましょう。どんな発見ができるかとわくわくしながら、同時に旅に出ることに不安も感じています。一番嫌なのは、防護服は破け、救急箱は見当たらず、探検用ギアはほとんど壊れているといったことが発覚し、必要な装備をそろえるためにあちこち探し回って余計に不安になってしまうことです。そうした用具をそろえることは、実際の探検よりも時間がかかるものです。
データ利用者(データ アナリストやデータ サイエンティスト)にとって、データ探索の旅もこのような状況かもしれません。探検家のように、データの中にある分析情報を見つけようと意気込んでいます。しかし残念ながら、さまざまなツールを統合して、必要なインフラストラクチャの立ち上げ、データへのアクセス、データの問題の修正、データ品質の改善、メタデータ管理、データのインタラクティブなクエリを行ったうえでやっと、分析を運用化できます。
すべてのツールを統合してデータ探索のパイプラインを構築するのに労力がかかりすぎて、データを探索して興味深い分析情報を生成するための時間はほとんど残りません。データ探索アプローチがこのように分断されていることが、68% の企業1がデータにビジネス的価値を見出せていない理由です。どうしてそうなるのでしょうか。データのプロたちは、このようにさまざまなデータ探索ツールを機能させる方法を見つけるためだけに 70% の時間2を使っているのです。
Data Exploration Workbench でどのように問題が解決できるのか
探検用の最良の装備が 1 か所で手に入ると想像してみます。すぐに探検に出発することができ、より自由にいろいろなことを試して、人類にとって役立つ素晴らしい発見ができるでしょう。データ利用者がすべてのデータ探索ツールに 1 か所でアクセスできるとしたらどれほど便利でしょうか?つまり、分析を運用化するためのオプションがある統合された 1 つのビューで、完全に管理された高品質なデータの検出やインタラクティブなクエリを行うことができるとしたら?
そしてこれがまさに、Data Exploration Workbench in Dataplex でできることです。Spark を活用したサーバーレス データ探索によって、データ利用者は Spark SQL スクリプトや Jupyter Notebook のオープンソース パッケージを使って、Google Cloud Storage や BigQuery に保存されているデータからインタラクティブに分析情報を抽出できます。
仕組み
データ利用者やデータ管理者がデータ探索の過程で直面する最も一般的な 4 つの課題を、Data Exploration Workbench では以下のように解決できます。
課題 1: データ利用者が、分析情報の生成よりも、異なるツールを連動させることに時間を取られてしまう。
解決方法: Data Exploration Workbench が提供する単一のユーザー インターフェースにより、以下が可能になります。
インタラクティブな Spark SQL エディタを使って、ワンクリックで Spark SQL クエリを実行できます。
JupyterLab ノートブックを通じて PySpark、Bokeh、Plotly といったオープンソース テクノロジーを活用し、データの可視化や機械学習パイプラインの構築を行うことができます。
クエリやノートブックは、サーバーレスのフルマネージド Apache Spark セッションで実行されます。Dataplex が自動でユーザー固有のセッションを作成し、セッションのライフサイクルを管理します。
スクリプトやノートブックを Dataplex 内のコンテンツとして保存し、組織全体でそのコンテンツをより効果的に検出し、共同で利用できるようにします。IAM の権限を使ってコンテンツへのアクセスを管理することもできます。
インタラクティブなデータ探索や共同作業ができ、ワンクリックでスクリプトやノートブックをスケジュールすることでそれを運用化できます。
課題 2: データ探索に取り掛かるために必要な、適切なデータセットを検出することは、他のアナリストやデータオーナーと連絡を取り合う必要のある「手動」プロセスである場合が多い。
解決方法: データ検索は「さらなるデータ分析に着手するための適切なデータがあるか」という問いから始まります。Dataplex によって、クエリしたいテーブルのメタデータを Data Exploration Workbench 内から直接調べることができます。さらに、インデックス検索機能を使って、テクニカル メタデータだけでなく、ビジネス メタデータ、運用メタデータをデータ品質スコアとともに把握できます。さらには、Workbench を使ってインタラクティブにクエリすることで、より詳しいデータ分析情報を得ることもできます。
課題 3: 使用する適切なクエリ スニペットを見つける - アナリストは、有用なクエリ スニペットを、整理された、または一元化された方法で保存および共有していないことがよくある。さらに、一度コードにアクセスすると、結果を得るためには同じインフラストラクチャ設定を再作成しなければならない。
解決方法: Data Exploration Workbench を使用すると、ユーザーは IAM の権限を介して組織全体で Spark SQL クエリや Jupyter ノートブックをコンテンツとして保存および共有できます。組み込みのノートブック ビューアを使うと、Spark セッションを開始したりコードセルを再実行したりすることなく、共有されたノートブックの出力を調べることが可能です。スクリプトやノートブックのコンテンツだけでなく、スクリプトが実行された環境も共有できるので、他の人も確実に同じセットアップの基盤で実行できます。このようにしてアナリストたちがシームレスにコラボレーションし、分析を基に構築することができます。
課題 4: 組織全体のさまざまなデータ探索ワークロードをサポートするために必要なインフラストラクチャのプロビジョニングは、オブザーバビリティが制限されていて、非効率なプロセスになっている。
解決方法: データ管理者は、ユースケースやチームごとに、適切なコンピューティング容量、ソフトウェア パッケージ、自動スケーリング / 自動シャットダウン構成の Spark 環境をあらかじめ構成することができます。データ管理者は、IAM の権限を通じてそれらの環境へのアクセスを管理し、ユーザーまたは環境ごとの利用状況やアトリビューションを簡単に追跡できます。
ご利用を開始するには
Data Exploration Workbench のご利用を開始するには、Dataplex の [探索] タブをクリックしてください。任意のレイクを選択でき、リソース ブラウザによってレイク内のすべてのデータテーブル(GCS および BigQuery)が一覧化されます。
ご利用の前に
データが存在するレイクが Dataproc Metastore インスタンスと連携されていることを確認します。
データ管理者に環境の設定と、デベロッパーのロール、関連付けられた権限、または IAM の権限の付与を依頼します。
こうすることで、Spark SQL スクリプトまたは Jupyter ノートブックを使ってデータをクエリすることを選択できるようになります。クエリ中に使用されたコンピューティングおよびストレージ リソースの Dataplex プレミアム処理ティアによって料金が決まります。
Data Exploration Workbench は us-central1 および europe-west2 リージョンで利用できます。今後数か月で、さらに多くのリージョンで利用できるようになる予定です。
1. 「Data Catalog Study」、Dresner Advisory Services, LLC - 2020 年 6 月 15 日
2. https://www.anaconda.com/state-of-data-science-2020
-プロダクト マネージャー Sai Charan Tej Kommuri
- グループ プロダクト マネージャー Prajakta Damle