Synthesized の事例: BigQuery によるイノベーションを基盤として正確な合成データを作成
Google Cloud Japan Team
※この投稿は米国時間 2024 年 2 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。
編集者注: この投稿は、Built with BigQuery を活用したパートナー様をご紹介するシリーズの一部です。
今日の企業を支えているのはデータです。データは、競争優位性の獲得、ビジネス上の意思決定、イノベーションの推進に役立ちます。しかし、高品質なデータにアクセスするには多大な費用と時間がかかる可能性があり、データを使用する際は多くの場合、厳しいデータ コンプライアンス規制を遵守する必要があります。
Synthesized は、組織がデータにより迅速にアクセスし、コンプライアンスの制約を乗り越えられるよう支援するため、生成 AI を使用して大規模なデータセットからコンプライアンスを確保した共有可能なスナップショットを作成するサービスを提供しています。これらのスナップショットは、十分な情報に基づく迅速なビジネス上の意思決定に利用でき、アプリケーションの開発やテストの基盤となります。このサービスは、コンプライアンスを確保しながら迅速にインサイトを得るうえで障害となる次のような問題の多くを克服することによって実現されています。
- コンプライアンスを確保したデータへのアクセス - BigQuery は、データを安全かつコンプライアンスを確保した方法で保存・管理するための幅広い機能を備えています。ただし、たとえば ML モデルのトレーニング、テスト、情報の使用許可レベルの異なる他部門との情報共有といったさまざまなコンテキストでそのデータを使用する際、コンプライアンスを確実に遵守しながらデータにアクセスできるようにするのは複雑になる可能性があります。機密性の高いデータセット、たとえば個人情報(PII)、医療記録、財務データ、その他の開示すべきでない機密情報を含むデータセットは、課される制約が業界や現地政府の規制によって異なる場合がよくあります。そのため、国際的に事業を展開している企業では、さまざまなチームのアクセスを地域や国を越えて管理するのが難しくなっています。
- データ品質の確保 - 機密性の高いデータセットを管理・保護する方法の一つとしてデータ マスキング、すなわち特定のユーザーがデータを読み取れないようにすることが挙げられます。これは多くのユースケースに役立つ強力なアプローチですが、ML モデルのトレーニングなど、基になるデータの可読性が不可欠であるシナリオには適していません。それに加えて、組織は低品質のデータや不均衡なデータからインサイトを発掘することに苦心しており、そのことが正確で主だったデータ インサイトを得る妨げとなっています。
正確なスナップショットによってデータの可能性を解き放つ
Synthesized は、生成 AI を使用して、ヘルスケア、金融サービス、保険、行政機関などのさまざまな業界の顧客が、機密保持制約を自動的に適用して自組織のデータの正確なビューを新たに生成できるよう支援しています。
同社のソリューションは、マスキング、サブセット化、秘匿化、生成などのデータ変換を効果的に利用し、モデリングやテストに使用可能な大規模なデータセットのスナップショットを高い忠実度で作成します。Synthesized は、生成 AI を使用して深い統計的特性(これは多くの場合、データの中に埋もれています)を捕捉し、価値あるデータパターンを生み出してそれらを合成データの形で作り直します。それと同時に、企業のデータ プライバシー規制も確実に遵守します。出力データは完全に匿名化されるようプログラム的に設計されており、高品質なデータに簡単かつ迅速にアクセスできるため、より的確な意思決定を行うことができます。
ボタンをクリックするだけで、組織はオリジナルのデータセット全体を表す合成スナップショットから、コンプライアンスを確保しながら迅速にインサイトを引き出すことができます。つまり、このソリューションは、「データ利用者は SQL クエリの観点からデータアクセスのリクエストを定式化する必要があるが、最初の段階でデータにアクセスせずにクエリを記述することはできない」というデータアクセスにおける「鶏が先か卵が先か」問題を解決します。
新しく生成された合成データは、以下のようなさまざまな目的に使用できます。
- テストや開発の目的で、コンプライアンスを確保しながらデータのスナップショットに迅速にアクセスする。
- エッジケースやまれなイベントを含む幅広いシナリオをカバーする多様なデータ スナップショットをプログラム的に作成することで、モデルのトレーニングを簡素化する。この多様性は、ML モデルの堅牢性や一般化の向上に役立ちます。
- 既存の CI / CD パイプラインを拡張することでサニタイズされたデータや合成データを確実に追加できるようにするため、クラウド データベースの構造を模倣した正確なテストデータによってクラウドへの移行を加速および評価する。
- オリジナルのデータベースでサンプルが不均等に分布していて、分析時に信頼できる追加のデータポイントを外挿しなければならない場合に、不均衡なデータから完全なデータセットを生成する。
ドイツの銀行がコンプライアンスを確保しながら高品質の合成データを取得
ドイツのある最大手銀行は、Synthesized を利用してエンジニアやデータ サイエンス チームが合成テストデータに迅速にアクセスできるようにしています。この銀行は、データのクエリが可能になるまでに要する準備期間を短縮してテストと製品化までの時間をスピードアップし、正確さを向上させたいと考えていました。Synthesized から提供されたオリジナル データセットのトレース不能なスナップショットを使用することで、同銀行はクラウドでのデータ分析、アプリ移行、テストを開始し、大規模なデータセットを使って新しい AI / ML ユースケースや技術を試してみることができるようになりました。
保険会社が商品開発を加速
同様に、ある大手保険会社が、競争力を維持するため、多くの手作業とリソースを必要とするデータプロセスから脱却したいと考えていました。この会社は、Synthesized を利用して、元のデータセットを高忠実度で表すテスト用データセットを数百万個生成し、商品開発のためにこれらのデータセットをサードパーティ ベンダーと安全に共有しています。その結果、商品開発期間を短縮することができ、プロジェクトあたりの工数が 200 マンアワー削減されて仕事量が大幅に減少しました。
Built with BigQuery
Synthesized は、BigQuery ですでに使用可能な機能を拡張しています。たとえば、データ秘匿化のためのマスキングやデータ損失防止(DLP)には BigQuery の既存の機能を利用し、これにサブセット化や生成のようなデータ変換を独自に追加しています。Synthesized と BigQuery を統合することで、組織はそのままでクエリ可能なデータセットに迅速かつ安全にアクセスし、テストやビジネス インテリジェンスに必要なスナップショットのみを抽出できます。コンプライアンスの観点でスナップショットを安全に共有する準備ができたら、それらを組織の独自のシステムに保存でき、分析のために第三者と共有することもできます。
これらのスナップショットは BigQuery に残るため、BigQuery ML と Vertex AI による AI モデルのトレーニングなど、Google のすべてのデータ プロダクトと AI プロダクトで簡単に使用できます。
Synthesized は API を介して BigQuery にアクセスするため、スナップショットの抽出とデータのプロビジョニングは簡単で自動化されています。また、生成モデルを使用してデータを合成し、不均衡なデータセットから均衡したデータセットを作成するため、適切に分布したサンプルが得られ、これをすぐに共有できます。この生成モデルは顧客のテナント内に保存され、データとともに共有することもできます。
以下に、入力テーブルからコンプライアンスを確保した 1,000 行のスナップショットを迅速に生成する単純なクエリの例を示します。
Synthesized Scientific Data Kit(SDK)が Google Marketplace から入手できるようになりました。詳細については、Synthesized.io/bigquery をご覧ください。
ISV とデータ プロバイダにとっての Built with BigQuery のメリット
Built with BigQuery は、ISV やデータ プロバイダが Google のデータクラウドを活用して革新的なアプリケーションを構築できるよう支援します。参加企業には以下のメリットがあります。
- 専任のエキスパートから、重要なユースケース、アーキテクチャ パターン、ベスト プラクティスに関するインサイトを得ることによって、プロダクトの設計とアーキテクチャの構築を加速できます。
- 共同マーケティング プログラムを利用して、認知度の向上、需要の創出、導入の拡大を図り、より大きな成功を実現できます。
BigQuery は、Google Cloud のオープンかつ安全でサステナブルなプラットフォームに統合された、パワフルでスケーラビリティの高い統合 AI レイクハウスのメリットを ISV に提供します。Built with BigQuery の詳細については、こちらをクリックしてください。
-Synthesized、CEO 兼創業者、Nicolai Baldin 博士
-Google Cloud、Built with BigQuery 担当責任者、Tom Cannon