Présentation de BigQuery DataFrames
BigQuery DataFrames est un ensemble de bibliothèques Python Open Source qui vous permettent de tirer parti du traitement des données BigQuery à l'aide d'API Python connues. BigQuery DataFrames met en œuvre les API pandas et scikit-learn en envoyant le traitement à BigQuery via la conversion SQL. Cela vous permet d'utiliser BigQuery pour explorer et traiter des téraoctets de données, mais aussi pour entraîner des modèles de machine learning (ML), le tout avec les API Python.
BigQuery DataFrames offre les avantages suivants :
- Plus de 750 API pandas et scikit-learn mises en œuvre via une conversion SQL transparente vers les API BigQuery et BigQuery ML
- Exécution différée des requêtes pour améliorer les performances
- Extension des transformations de données à l'aide de fonctions Python définies par l'utilisateur pour permettre de traiter des données dans le cloud. Ces fonctions sont automatiquement déployées en tant que fonctions distantes BigQuery.
- L'intégration à Vertex AI afin d'utiliser des modèles Gemini pour la génération de texte
Licences
BigQuery DataFrames est distribué sous la licence Apache-2.0. Il contient également du code dérivé des packages tiers suivants :
Pour en savoir plus, consultez le répertoire third_party/bigframes_vendored
dans le dépôt GitHub de BigQuery DataFrames.
Quotas et limites
- Les quotas BigQuery s'appliquent à BigQuery DataFrames, y compris aux composants matériels, logiciels et réseau.
- Un sous-ensemble d'API pandas et scikit-learn est compatible. Pour en savoir plus, consultez la section API pandas compatibles.
- Vous devez explicitement nettoyer toutes les fonctions Cloud Functions créées automatiquement dans le cadre du nettoyage de la session. Pour en savoir plus, consultez la section API pandas compatibles.
Tarifs
- BigQuery DataFrames est un ensemble de bibliothèques Open Source Python disponibles en téléchargement sans frais supplémentaires.
- BigQuery DataFrames utilise BigQuery, Cloud Functions, Vertex AI et d'autres services Google Cloud, qui entraînent leurs propres coûts.
- Dans le cadre d'une utilisation normale, BigQuery DataFrames stocke des données temporaires, telles que des résultats intermédiaires, dans des tables BigQuery. Ces tables persistent pendant sept jours par défaut, et les données qui y sont stockées vous sont facturées. Les tables sont créées dans l'ensemble de données
_anonymous_
du projet que vous spécifiez dans l'optionbf.options.bigquery.project
.
Étapes suivantes
- Utiliser BigQuery DataFrames
- Consulter le guide de démarrage rapide sur BigQuery DataFrames
- Documentation de référence de l'API BigQuery DataFrames
- Exemples de notebooks BigQuery DataFrames
- Code source BigQuery DataFrames (GitHub)