オープンモデルに対する BigQuery マネージド SQL ネイティブ推論の導入
Jiashang Liu
Software Engineer
Yunmeng Xie
Software Engineer
※この投稿は米国時間 2026 年 1 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
BigQuery では、テキストやエンベディングの生成に利用できるさまざまな LLM(Google の Gemini モデルや、Anthropic、Mistral といったパートナーが提供する Google マネージド モデルなど)にアクセスできます。Gemini モデルや Google マネージド パートナー モデルを BigQuery で使用することは簡単です。基盤モデル名を使ってモデルを作成し、直接 SQL クエリで推論を実行するだけです。このたび、Hugging Face または Vertex AI Model Garden から選択した任意のモデルで、このシンプルさとパワーを実現できるようになりました。
自動管理による SQL ネイティブのワークフロー
BigQuery でマネージド サードパーティ生成 AI 推論(プレビュー版)がリリースされたことにより、わずか 2 つの SQL ステートメントでオープンモデルを実行できるようになりました。
この新機能には、次の 4 つの主なメリットがあります。
-
デプロイの簡素化: モデル ID 文字列(例:
google/gemma-3-1b-it)と単一のCREATE MODELSQL ステートメントを使用して、オープンモデルをデプロイします。BigQuery により、コンピューティング リソースがデフォルトの構成で自動的にプロビジョニングされます。 -
自動リソース管理: BigQuery は、アイドル状態のコンピューティング リソースを自動的に解放し、意図しない費用が発生するのを防ぎます。アイドル時間は
endpoint_idle_ttlで構成できます。 -
きめ細かなリソース制御:
CREATE MODELステートメント内でバックエンドのコンピューティング リソース(マシンタイプや最小 / 最大レプリカ数など)を直接カスタマイズして、パフォーマンスと費用に対するニーズを満たすことができます。 -
統合された SQL インターフェース: モデルの作成、推論から、費用管理とクリーンアップまで、ワークフロー全体を BigQuery で SQL を使用して直接管理できます。
仕組み: 実例
オープンモデルを作成して活用するプロセスを見ていきましょう。
ステップ 1: BigQuery マネージド オープンモデルを作成するHugging Face または Vertex AI Model Garden のオープンモデルを使用するには、オープンモデル ID とともに CREATE MODEL ステートメントを使用します。モデルのサイズやマシンタイプによって変動しますが、クエリの完了には通常、数分かかります。
Hugging Face モデルhugging_face_model_id オプションを provider_name/model_name 形式で指定します。たとえば、sentence-transformers/all-MiniLM-L6-v2 のように指定します。
Vertex AI Model Garden モデルmodel_garden_model_name オプションを publishers/publisher/models/model_name@model_version 形式で指定します。たとえば、publishers/google/models/gemma3@gemma-3-1b-it のように指定します。
負荷の高いワークロードの場合は、デプロイ設定(マシンタイプ、レプリカ数、エンドポイントのアイドル時間)をカスタマイズすることで、スケーラビリティを向上させ、費用を管理できます。また、Compute Engine の予約を使用して、GPU インスタンスを確保し、一貫したパフォーマンスを実現することもできます。すべてのオプションについては、CREATE MODEL 構文をご覧ください。
ステップ 2: バッチ推論を実行する上述の CREATE MODEL ジョブが完了したら、BigQuery のデータで AI.GENERATE_TEXT(LLM 推論用)または AI.GENERATE_EMBEDDING(エンベディング生成用)とともに使用できます。
Vertex AI エンドポイントのライフサイクル管理と費用管理BigQuery では、自動オプションと手動オプションの両方を使用して、Vertex AI エンドポイントのライフサイクルと費用を柔軟に管理できます。
-
自動制御:
endpoint_idle_ttlオプションを使用すると、リソースの自動リサイクルを有効化できます。指定した期間(例:INTERVAL 10 HOUR)モデルを使用しないようにすると、BigQuery が自動的に Vertex AI エンドポイントを「デプロイ解除」し、費用の発生がすべて停止します。
手動制御: エンドポイントを手動で「デプロイ解除」して費用発生を即座に停止したり、シンプルな ALTER MODEL ステートメントを使用してエンドポイントを再デプロイしたりすることもできます。
リソースのクリーンアップが容易
モデルを使い終わったら、後は削除するだけです。BigQuery は関連するすべての Vertex AI リソース(エンドポイントやモデルなど)を自動的にクリーンアップするため、これらのリソースに対する費用は発生しなくなります。
使ってみる
BigQuery のサードパーティ モデル向けの新しいマネージド推論機能は、データチームによるサードパーティの生成 AI モデルへのアクセス方法や活用方法を根本的に変えます。モデルのライフサイクル管理全体を、使い慣れた SQL インターフェースに統合することで、運用上の摩擦をなくし、データ アナリストから AI / ML エンジニアまで、すべての BigQuery ユーザーが強力なオープンモデルにアクセスできるようになります。包括的なドキュメントとチュートリアルについては、以下のリソースをご参照ください。
-
ドキュメントを読む: 自動デプロイされるオープンモデルの作成
-
テキスト生成チュートリアルを試す: Gemma モデルを使用してテキストを生成する
-
エンベディング生成チュートリアルを試す: オープンモデルを使用してテキスト エンベディングを生成する
皆様がどのようなものを構築されるか楽しみにしております。
- ソフトウェア エンジニア Jiashang Liu
- ソフトウェア エンジニア Yunmeng Xie


