BigQuery ML の概要

概要

BigQuery ML を使用すると、BigQuery で標準 SQL クエリを使用して機械学習モデルを作成して実行できます。BigQuery ML では、既存の SQL ツールやスキルを活用できるので、誰でも簡単に機械学習を利用できます。BigQuery ML では、データを移動する必要がないため、開発スピードを向上させることができます。

BigQuery ML では、次のものを使用できます。

  • BigQuery ウェブ UI
  • bq コマンドライン ツール
  • BigQuery REST API
  • Jupyter ノートブックやビジネス インテリジェンス プラットフォームなどの外部ツール

大規模なデータセットで機械学習を行うには、ML フレームワークに対する高度なプログラミング技術と知識が必要になります。このため、どの組織でもソリューションの開発はごく限られたメンバーで行われています。データをよく理解していても、プログラミングの経験が少なく、機械学習に詳しくないデータ アナリストは除外されています。

BigQuery ML では、既存の SQL ツールやスキルで機械学習を使用できるため、データ アナリストも機械学習を簡単に利用できます。アナリストは、BigQuery ML を使用して BigQuery に ML モデルを構築し、評価できます。スプレッドシートや他のアプリケーションに少量のデータをエクスポートする必要はありません。データ サイエンス チームのリソースを待つ必要もありません。

BigQuery ML でサポートされるモデル

BigQuery ML のモデルは、ML システムがトレーニング データから学習したモデルです。

BigQuery ML では、次のようなモデルがサポートされています。

  • 線形回帰(予測) - たとえば、特定の日の商品アイテムの売上。ラベルは実数値です(正負の無限大や NaN にすることはできません)。
  • 2 項ロジスティック回帰(分類) - たとえば、お客様が購入をするかどうかの判断。ラベルの値は 2 つだけです。
  • 多項ロジスティック回帰(分類) - これらのモデルは、入力が「低」「中」「高」のいずれかであるなど、複数の可能な値を予測するために使用できます。ラベルは最大 50 個の固有値を持つことができます。BigQuery ML では、多項ロジスティック回帰トレーニングの場合、二項交差エントロピー損失関数を持つ多項式分類を使用します。
  • K 平均法クラスタリング(データ セグメンテーション)(ベータ版) - たとえば、ユーザーのセグメントの識別などが該当します。K 平均法は教師なし学習にあたるため、モデルのトレーニングを行う際に、トレーニングや評価用にラベルを指定したりデータを分割したりする必要はありません。

BigQuery ML では、トレーニングや予測を行う際に 1 つのモデルで複数の BigQuery データセットのデータを使用できます。

BigQuery ML の利点

クラウドベースのデータ ウェアハウスで ML を使用する場合と比べて、BigQuery ML には次のような利点があります。

  • BigQuery ML では、既存のビジネス インテリジェンス ツールやスプレッドシートを使用してモデルを構築し、実行できます。主要なデータ ウェアハウス ユーザーであるデータ アナリストが機械学習を簡単に使用できます。これにより、組織全体の予測分析を行い、ビジネス上の意思決定を行うことができます。
  • Python や Java で ML ソリューションをプログラミングする必要はありません。モデルは、データ アナリストが慣れている SQL により、BigQuery でトレーニングされます。
  • BigQuery ML では、データ ウェアハウスからデータをエクスポートする必要がないため、モデルの開発スピードと革新性を向上させることができます。データは BigQuery ML が ML に提供します。データのエクスポートと再フォーマットには次のデメリットがあります。

    • 複雑さが増大します。複数のツールが必要です。
    • スピードが低下します。Python ベースの ML フレームワークでは、大量のデータを移動して再フォーマットするため、BigQuery のモデル トレーニングよりも時間がかかります。
    • ウェアハウスからデータをエクスポートするには、複数のステップが必要になります。データの調査能力も制限されます。
    • 法的規制(HIPAA ガイドラインなど)で規制される可能性があります。

サポートされるリージョン

BigQuery と同様に、BigQuery ML はマルチリージョン リソースです。BigQuery ML は BigQuery と同じリージョンをサポートしています。

データのロケーションは、BigQuery ML モデルとトレーニング データを格納するデータセットを作成する際に指定されます。BigQuery ML では、ターゲットのデータセットと同じロケーションにあるデータが処理され、ステージングされます。

割り当て

BigQuery ML 固有の制限に加えて、BigQuery ML 関数と CREATE MODEL ステートメントを使用するクエリも、BigQuery クエリジョブの割り当てと制限の対象となります。

すべての BigQuery ML の割り当てと制限について詳しくは、割り当てと制限を参照してください。

料金

BigQuery ML モデルは、テーブルやビューなどと同様に BigQuery データセットに格納されます。BigQuery ML でモデルを作成して使用すると、モデルのトレーニングで使用したデータ量とデータに実行したクエリに基づいて料金が発生します。

BigQuery ML の料金については、BigQuery ML の料金をご覧ください。BigQuery のストレージの料金については、ストレージの料金をご覧ください。BigQuery ML のクエリの料金については、クエリの料金をご覧ください。

リソース

機械学習と BigQuery ML の詳細については、以下をご覧ください。

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

BigQuery ML のドキュメント