Présentation de BigQuery DataFrames
BigQuery DataFrames est un ensemble de bibliothèques Python Open Source qui vous permettent de tirer parti du traitement des données BigQuery à l'aide d'API Python connues. BigQuery DataFrames fournit un DataFrame en Python basé sur le moteur BigQuery. Il met en œuvre les API pandas et scikit-learn en envoyant le traitement à BigQuery via la conversion SQL. Cela vous permet d'utiliser BigQuery pour explorer et traiter des téraoctets de données, mais aussi pour entraîner des modèles de machine learning (ML), le tout avec les API Python.
Le diagramme suivant décrit le workflow de BigQuery DataFrames:
Avantages de BigQuery DataFrames
BigQuery DataFrames permet de faire ce qui suit:
- Propose plus de 750 API pandas et scikit-learn mises en œuvre via une conversion SQL transparente vers les API BigQuery et BigQuery ML.
- Diffère l'exécution des requêtes pour améliorer les performances.
- étend les transformations de données à l'aide de fonctions Python définies par l'utilisateur pour vous permettre de traiter des données dans Google Cloud. Ces fonctions sont automatiquement déployées en tant que fonctions distantes BigQuery.
- Intégration à Vertex AI pour vous permettre d'utiliser des modèles Gemini pour la génération de texte
Licences
BigQuery DataFrames est distribué avec la licence Apache-2.0.
BigQuery DataFrames contient également du code dérivé des packages tiers suivants:
Pour en savoir plus, consultez le répertoire third_party/bigframes_vendored
dans le dépôt GitHub de BigQuery DataFrames.
Quotas et limites
- Les quotas BigQuery s'appliquent aux BigQuery DataFrames, y compris aux composants matériels, logiciels et réseau.
- Un sous-ensemble d'API pandas et scikit-learn est compatible. Pour en savoir plus, consultez la section API pandas compatibles.
- Lors du nettoyage de la session, vous devez nettoyer explicitement toutes les fonctions Cloud Run Functions qui ont été créées automatiquement. Pour en savoir plus, consultez la section API pandas compatibles.
Tarifs
- BigQuery DataFrames est un ensemble de bibliothèques Open Source Python disponibles en téléchargement sans frais supplémentaires.
- BigQuery DataFrames utilise BigQuery, Cloud Run Functions, Vertex AI et d'autres services Google Cloud, qui sont chacun soumis à une tarification spécifique.
- Dans le cadre d'une utilisation normale, BigQuery DataFrames stocke des données temporaires, telles que des résultats intermédiaires, dans des tables BigQuery. Ces tables sont conservées pendant sept jours par défaut, et les données qu'elles contiennent vous sont facturées. Les tables sont créées dans l'ensemble de données
_anonymous_
du projet Google Cloud que vous spécifiez dans l'optionbf.options.bigquery.project
.
Étape suivante
- Utiliser BigQuery DataFrames
- Essayer BigQuery DataFrames
- Documentation de référence de l'API BigQuery DataFrames
- Exemples de notebooks BigQuery DataFrames
- Code source de BigQuery DataFrames (GitHub)