データ分析

BigQuery ML がオープンソースの生成 AI モデルに対応

2025年2月26日

Vaibhav Sethi

Product Manager, Google

Jasper Xu

Software Engineer

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 2 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。

BigQuery ML では、Gemini などの大規模言語モデル（LLM）と使い慣れた SQL 構文を使用して、エンティティ抽出、感情分析、翻訳、テキスト生成などのタスクをデータに対して実行できます。

このたびこの機能が拡張され、Vertex AI Model Garden のすべてのオープンソース LLM もサポートされました。この機能拡張は、Hugging Face からデプロイしたモデルや、チューニングされた OSS モデルなど、任意のモデルが対象となります。この機能拡張により、デベロッパーが利用できるモデルの選択肢が大幅に広がります。

この投稿では、Meta Llama 3.3 70B モデルを使用して今回の統合の仕組みを説明しますが、Hugging Face で利用可能な 17 万以上のテキスト生成モデルのすべてを同じ手順で使用できます。チュートリアルノートブックもご用意しています。また、以下の手順もすぐにお試しいただけます。

BigQuery ML でオープンソースソフトウェア（OSS）モデルを使用する

1. Vertex エンドポイントでモデルをホストするHugging Face からテキスト生成モデルを選択し、[Vertex AI Model Garden] > [Hugging Face からのデプロイ] に移動します。モデルの URL を入力し、必要に応じてデプロイエンドポイントのエンドポイント名、デプロイリージョン、マシンの仕様を変更します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_NoOazAg.max-1200x1200.png

または、Vertex AI Model Garden UI から「Llama 3.3」を検索し、利用規約に同意してモデルのエンドポイントをデプロイすることもできます。この手順はプログラムで実行することも可能です（こちらのチュートリアルノートブックをご覧ください）。

注: Llama モデルを使用するには、Hugging Face の Llama 3.3 モデルカードの Llama 3.3 コミュニティ ライセンス契約に同意するか、Vertex Model Garden UI の利用規約に同意する必要があります。この手順を完了しないと、モデルをデプロイすることはできません。

2. BigQuery でリモートモデルを作成するモデルのデプロイには数分かかります。デプロイが完了したら、以下のような SQL ステートメントを使用して BigQuery でリモートモデルを作成します。

読み込んでいます...

BigQuery がリモートエンドポイントに接続できるようにするため、「接続（Connection）」を指定する必要があります。接続がまだない場合は、こちらの手順に沿って作成します。上記のコードサンプルのエンドポイントのプレースホルダを、エンドポイントの URL に置き換えてください。endpoint_id の情報は、コンソールの [Vertex AI] > [オンライン予測] > [エンドポイント] > [リクエストの例] から取得できます。

3. 推論を実行するこれで、BigQuery ML からこのモデルに対して推論を実行する準備ができました。このシナリオでは、医療記録のデータセットを例として使用します。このデータセットには、医療施設を訪れた患者の病歴、診断、治療に関する、構造化されていない、さまざまな未加工の医療記録が保存されています。医療記録のサンプルは、以下の画像のようになっています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Bautcsb.max-1700x1700.png

テーブルを作成する

BigQuery でこのデータを分析するには、まずテーブルを作成します。

読み込んでいます...

推論を実行する

これで、Llama モデルを使用して、テーブル内の構造化されていない医療記録から構造化されたデータを抽出できるようになりました。たとえば、エントリごとに患者の年齢、性別、疾患のリストを抽出したい場合、以下のような SQL ステートメントを使用して分析情報を抽出し、その情報をテーブルに保存できます。抽出したい情報とそのスキーマをモデルプロンプトに含めるようにしてください。

読み込んでいます...

CREATE TEMP FUNCTION ExtractOutput(s STRING)
RETURNS STRING
AS (
 SUBSTR(s, INSTR(s, "Output:")+8)
);

CREATE OR REPLACE TABLE bqml_tutorial.medical_transcript_analysis_results AS (
SELECT
 ExtractOutput(ml_generate_text_llm_result) AS generated_text, * EXCEPT(ml_generate_text_llm_result)
FROM
 ML.GENERATE_TEXT( MODEL `bqml_tutorial.llama_3_3_70b`,
   (
   SELECT
     CONCAT('Extract the Gender, Age (in years), and Disease information from the following medical transcript. Return **only** a JSON in the following schema: \n{ "Age": Int, "Gender": "String", "Disease": ["String"]}. If Age, Gender, or Disease information is not found, return `null` for that field. Summarize the disease(s) in 1 to 5 words. If the patient has multiple diseases, include them in a comma-separated list within the "Disease" field. Do not include any other text or labels in your response.**. \n', input_text) AS prompt
   FROM
     bqml_tutorial.medical_transcript
   ),
   STRUCT(
     0 AS temperature,
     0.001 AS top_p,
     1 AS top_k,
     128 AS max_output_tokens,
     TRUE AS flatten_json_output))
);

SELECT * FROM bqml_tutorial.medical_transcript_analysis_results;

この Llama エンドポイントから返される出力には入力プロンプトが含まれているため、出力の解析に役立つ ExtractOutput 関数も記述して使用しました。以下のように、出力テーブルの [generated_text] 列に結果が出力されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Zw0bZ9p.max-1400x1400.png

結果を分析する

このデータに対してあらゆる種類の分析を行うことができます。たとえば、簡単な SQL クエリを使用して「サンプル内の 30 歳以上の女性に最もよく見られる疾患は何か？」という質問の回答を得ることができます。高血圧、関節炎、脂質異常症が最も多いことがわかります。

読み込んでいます...

使ってみる

Vertex Model Garden と統合された BigQuery で、お好みのオープンモデルや、チューニング済みモデル、抽出モデルをぜひお試しください。詳しくは、ドキュメントをご覧ください。

-プロダクトマネージャー Vaibhav Sethi
-Google Cloud、ソフトウェアエンジニア Jasper Xu

投稿先

Data Analytics

リネージで AI の信頼とコンテキストを構築（列レベルの粒度に対応）

執筆者: Paulina Trzeciak • 所要時間: 2 分

Data Analytics

データエンジニアリングエージェントのプレビュー版を提供開始

執筆者: Tim Bezold • 所要時間: 4 分

Data Analytics

Google Compute Engine 上の Dataproc 2.3: セキュリティが強化された軽量イメージ

執筆者: Isha Agarwal • 所要時間: 3 分

Data Analytics

新しい BigQuery Studio エクスペリエンス: データ分析の生産性が向上

執筆者: Tal Eidelman • 所要時間: 3 分

BigQuery ML がオープンソースの生成 AI モデルに対応

Vaibhav Sethi

Jasper Xu

Try Gemini 2.5

BigQuery ML でオープンソース ソフトウェア（OSS）モデルを使用する

使ってみる

-プロダクト マネージャー Vaibhav Sethi-Google Cloud、ソフトウェア エンジニア Jasper Xu

関連記事

リネージで AI の信頼とコンテキストを構築（列レベルの粒度に対応）

データ エンジニアリング エージェントのプレビュー版を提供開始

Google Compute Engine 上の Dataproc 2.3: セキュリティが強化された軽量イメージ

新しい BigQuery Studio エクスペリエンス: データ分析の生産性が向上

BigQuery ML でオープンソースソフトウェア（OSS）モデルを使用する

-プロダクトマネージャー Vaibhav Sethi
-Google Cloud、ソフトウェアエンジニア Jasper Xu

データエンジニアリングエージェントのプレビュー版を提供開始