データ分析

マルチモーダル LLM を使って BigQuery でのデータモデリングとスキーマ生成を簡素化する

2024年6月4日

Adam Paternostro

Technical Lead Demos, Google Cloud

Firat Tekiner

Product Management

マルチモーダル入力を Gemini に渡して、データウェアハウスのデータモデルを作成することが可能に

※この投稿は米国時間 2024 年 5 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

さまざまなオリジンから取得されたデータウェアハウスやデータレイク内の複雑な階層型データ構造が原因で、データモデリングが長期化し、エラーが発生しやすいプロセスになることがあります。大幅にやり直しをしなくても、すばやく適応して、進化するビジネス要件を満たすデータモデルを作成するには、多くの要件に対応できる柔軟性、モジュール性、適応性を備えたデータモデルが必要です。これには、高度なテクノロジー、熟練した人材、堅牢な方法論が必要です。

生成 AI の進歩により、このような課題に対処する機会が数多く生じています。マルチモーダル大規模言語モデル（LLM）は、テキストの説明、コード、さらには既存のデータベースのイメージなど、データレイク内のデータの例を分析することができます。LLM は、このデータとその関係を理解することにより、スキーマレイアウトを提案したり、自動的に生成したりすることもできるため、データベース内でデータモデルを実装する面倒なプロセスが簡素化され、開発者はより価値の高いデータマネジメントタスクに集中できるようになります。

このブログでは、BigQuery でマルチモーダル LLM を使用してデータベーススキーマを作成する方法について説明していきます。そのために、実際のエンティティリレーションシップ（ER）図とデータ定義言語（DDL）の例を取り上げ、3 つのステップでデータベーススキーマを作成します。

このデモンストレーションでは、コーヒー販売業者に SaaS プラットフォームを提供する、BigQuery 上に構築された架空のテクノロジー企業 Data Beans を使用します。Data Beans は、BigQuery と Vertex AI の統合を活用して、Gemini Vision Pro 1.0 などの Google AI モデルにアクセスし、非構造化データを分析して構造化データと統合しているだけでなく、BigQuery を使用して、データモデリングと分析情報の生成をサポートしています。

ステップ 1: エンティティリレーションシップ図を作成する

最初のステップとして、お気に入りのモデリングツールを使って ER 図を作成するか、既存の ER 図のスクリーンショットを取得します。ER 図には主キーと外部キーの関係を含めることができます。これは、関連する BigQuery DDL を作成するため、Gemini Vision Pro 1.0 モデルへの入力として使用されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_DfJ9Xwj.max-1000x1000.png

ステップ 2: 入力として ER イメージを受け取るプロンプトを作成する

次に、BigQuery で DDL ステートメントを作成するため、入力として ER イメージを受け取るプロンプトを記述します。プロンプトには、Gemini モデルが従うべき、詳細で関連性の高いルールを含める必要があります。加えて、それまでの反復から学習した内容をプロンプトに確実に取り込んでください。つまり、テストと反復を行うときは必ずプロンプトを更新してください。これらは、BigQuery の有効なスキーマ記述など、モデルの例として提供することができます。モデルが従うべき実用的な例を提供すると、モデルは、必要なルールに沿ったデータ定義 DDL を作成できるようになります。

読み込んでいます...

## モデルをガイドするプロンプト
llm_erd_prompt=f"""BigQuery SQL コマンドを使って、以下を作成してください。
- 「{dataset_id}」という名前の新しい BigQuery スキーマを作成してください。
- BigQuery のデータ型のみ使用してください。  多くのエラーが発生するため、これを二重、三重に確認してください。
- アタッチされた ERD の BigQuery DDL を作成してください。
- ALTER コマンドを使って、各テーブルの主キーを作成してください。「NOT ENFORCED」キーワードを使用してください。
- ALTER コマンドを使って、各テーブルの外部キーを作成してください。「NOT ENFORCED」キーワードを使用してください。
- フィールドごとに、説明に OPTIONS を追加してください。
- 主キーごとにテーブルをクラスタ化してください。
- null になる可能性がある列では、作成された SQL ステートメントに「NULL」を追加しないでください。BigQuery では空白のままにします。
- すべての ALTER TABLE ステートメントを、生成されたスクリプトの一番下に配置してください。
- ALTER TABLE ステートメントは、主キー ステートメント、外部キー ステートメントの順序にしてください。順序は重要です。
- 結果を再確認してください。特に BigQuery のデータ型のみ使用したことを確認してください。
このスクリプトにより生成された以前のエラー。それらのエラーが発生しないよう、結果を確認してください。
- クエリエラー: 型が見つかりません: [6:12] に FLOAT
- クエリエラー: テーブル test.company の [25:1] に主キー制約がありません
## 影響を与えるモデルの例
例:
CREATE TABLE IF NOT EXISTS `{project_id}.{dataset_id}.customer`
(
  customer_id INTEGER NOT NULL OPTIONS(description="主キー。Customer テーブル。"),
  country_id INTEGER NOT NULL OPTIONS(description="外部キー: Country テーブル。"),
  customer_llm_summary STRING NOT NULL OPTIONS(description="LLM により生成された顧客データの要約。"),
  customer_lifetime_value STRING NOT NULL OPTIONS(description="この顧客の合計売上。"),
  customer_cluster_id FLOAT NOT NULL OPTIONS(description="アルゴリズム ID のクラスタ化。"),
  customer_review_llm_summary STRING  OPTIONS(description="LLM の要約は、すべての顧客レビューの要約です。"),
  customer_survey_llm_summary STRING  OPTIONS(description="LLM の要約は、すべての顧客アンケートの要約です。")
)
CLUSTER BY customer_id;
CREATE TABLE IF NOT EXISTS `{project_id}.{dataset_id}.country`
(
country_id INTEGER NOT NULL OPTIONS(description="主キー。Country テーブル。"),
country_name STRING NOT NULL OPTIONS(description="国の名前。")
)
CLUSTER BY country_id;
ALTER TABLE `{project_id}.{dataset_id}.customer` ADD PRIMARY KEY (customer_id) NOT ENFORCED;
ALTER TABLE `{project_id}.{dataset_id}.country` ADD PRIMARY KEY (country_id) NOT ENFORCED;
ALTER TABLE `{project_id}.{dataset_id}.customer` ADD FOREIGN KEY (country_id) REFERENCES `{project_id}.{dataset_id}.country`(country_id) NOT ENFORCED;
"""

これで、LLM に示す ER 図のイメージが完成しました。

ステップ 3: Gemini Pro 1.0 Vision モデルを呼び出す

ステップ 2 でプロンプトを作成すると、ER 図のイメージを入力として使用することにより、Gemini Pro 1.0 Vision モデルを呼び出して出力を生成する準備が整います（図 1 の左側）。これは、Python を使用して Colab ノートブックから直接行ったり、Vertex AI との統合を利用して BigQuery ML を通じて行ったりなど、さまざまな方法で行うことができます。

読み込んでいます...

まとめとリソース

このデモンストレーションでは、マルチモーダル Gemini モデルによって、データとスキーマの作成がどのように効率化されるかを確認しました。プロンプトを手動で記述するのは問題ありませんが、エンタープライズ規模でそれを行って、DDL などのアセットを何千個も作成する必要がある場合、大変な作業になる可能性があります。上記のプロセスを利用することにより、プロンプト生成をパラメータ化して自動化できるため、ワークフローが大幅にスピードアップし、生成される何千個ものアーティファクト間で一貫性を保つことができます。完全な Colab Enterprise ノートブックのソースコードは、こちらでご覧いただけます。

BigQuery ML には、Gemini Pro の機能を活用可能にする多くの新機能が追加されています。詳しくは、ドキュメントをご覧ください。その後、こちらのチュートリアルで、BigQuery からデータを移動しなくても、Google のモデルをデータに適用して、モデルをデプロイし、ML ワークフローを運用化する方法をチェックしてください。最後に、このデモを作成した際の舞台裏については、BigQuery から直接 Gemini などの高度なモデルを使ってエンドツーエンドのデータ分析と AI アプリケーションを構築する方法について扱っているこちらの動画をご覧ください。