BigQuery DataFrames の概要

BigQuery DataFrames は、使い慣れた Python API を使用して BigQuery データ処理を活用できるオープンソースの Python ライブラリ群です。BigQuery DataFrames は、SQL 変換を通じて処理を BigQuery にプッシュダウンすることで、pandas API と scikit-learn API を実装します。これにより、BigQuery を使用して、テラバイト単位のデータの探索と処理、ML モデルのトレーニングを行えます。これらはすべて Python API を使用します。

BigQuery DataFrames には、次のような利点があります。

  • BigQuery API と BigQuery ML API への透過的な SQL 変換を通じて実装された 750 以上の pandas API と scikit-learn API。
  • パフォーマンス向上のためのクエリの遅延実行。
  • ユーザー定義の Python 関数でデータ変換を拡張し、クラウドでデータを処理できるようにします。これらの関数は、BigQuery のリモート関数として自動的にデプロイされます。
  • Vertex AI とのインテグレーションにより、Gemini モデルを使用してテキストを生成できます。

ライセンス

BigQuery DataFrames は Apache-2.0 ライセンスで配布されます。また、次のサードパーティ パッケージから派生したコードも含まれています。

詳細については、BigQuery DataFrames GitHub リポジトリの third_party/bigframes_vendored ディレクトリをご覧ください。

割り当てと上限

  • BigQuery の割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントを含む BigQuery DataFrames に適用されます。
  • pandas API と scikit-learn API のサブセットがサポートされています。詳細については、サポートされている pandas API をご覧ください。
  • セッションのクリーンアップの一環として、自動的に作成された Cloud Functions の関数は、すべて明示的にクリーンアップする必要があります。詳細については、サポートされている pandas API をご覧ください。

料金

  • BigQuery DataFrames は、追加料金なしでダウンロードできるオープンソースの Python ライブラリ群です。
  • BigQuery DataFrames は、BigQuery、Cloud Functions、Vertex AI などの Google Cloud サービスを使用します。これらのサービスには別途費用が発生します。
  • 通常の使用中、BigQuery DataFrames は中間結果などの一時データを BigQuery テーブルに保存します。これらのテーブルはデフォルトで 7 日間保持され、テーブルに保存されたデータは課金の対象になります。テーブルは、bf.options.bigquery.project オプションで指定したプロジェクトの _anonymous_ データセットに作成されます。

次のステップ