BigQuery DataFrames の概要
BigQuery DataFrames は、使い慣れた Python API を使用して BigQuery データ処理を活用できるオープンソースの Python ライブラリ群です。BigQuery DataFrames は、SQL 変換を通じて処理を BigQuery にプッシュダウンすることで、pandas API と scikit-learn API を実装します。これにより、Python API を使用して、BigQuery でテラバイト単位のデータを調べて処理し、ML モデルをトレーニングできます。
BigQuery DataFrames には、次のような利点があります。
- BigQuery API と BigQuery ML API への透過的な SQL 変換を通じて実装された 750 以上の pandas API と scikit-learn API。
- パフォーマンス向上のためのクエリの遅延実行。
- ユーザー定義の Python 関数でデータ変換を拡張し、クラウドでデータを処理できるようにします。これらの関数は、BigQuery のリモート関数として自動的にデプロイされます。
- Vertex AI とのインテグレーションにより、Gemini モデルを使用してテキストを生成できます。
ライセンス
BigQuery DataFrames には Apache-2.0 ライセンスが付随します。また、次のサードパーティ パッケージから派生したコードも含まれています。
詳細については、BigQuery DataFrames GitHub リポジトリの third_party/bigframes_vendored
ディレクトリをご覧ください。
割り当てと上限
- BigQuery の割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントを含む BigQuery DataFrames に適用されます。
- 一連の pandas API と scikit-learn API がサポートされています。詳細については、サポートされている pandas API をご覧ください。
- セッションのクリーンアップの一環として、自動的に作成された Cloud Run functions は、すべて明示的にクリーンアップする必要があります。詳細については、サポートされている pandas API をご覧ください。
料金
- BigQuery DataFrames は、追加料金なしでダウンロードできるオープンソースの Python ライブラリ群です。
- BigQuery DataFrames は、BigQuery、Cloud Run functions、Vertex AI などの Google Cloud サービスを使用します。これらのサービスには別途費用が発生します。
- 通常の使用中、BigQuery DataFrames は中間結果などの一時データを BigQuery テーブルに保存します。これらのテーブルはデフォルトで 7 日間保持され、テーブルに保存されたデータは課金の対象になります。テーブルは、
bf.options.bigquery.project
オプションで指定したプロジェクトの_anonymous_
データセットに作成されます。
次のステップ
- BigQuery DataFrames を使用する
- BigQuery DataFrames クイックスタートを試す
- BigQuery DataFrames API リファレンス
- BigQuery DataFrames のサンプル ノートブック
- BigQuery DataFrames のソースコード(GitHub)