Utiliser BigQuery DataFrames
Pour obtenir de l'aide pendant la version preview, envoyez un e-mail à bigframes-feedback@google.com.
Ce document explique comment utiliser BigQuery DataFrames pour analyser et manipuler des données dans un notebook BigQuery.
BigQuery DataFrames est une bibliothèque cliente Python que vous pouvez utiliser pour analyser des données et effectuer des tâches de machine learning dans des notebooks BigQuery.
BigQuery DataFrames comprend les éléments suivants :
bigframes.pandas
met en œuvre une API de type Pandas en plus de BigQuery.bigframes.ml
met en œuvre une API de type scikit-learn en plus de BigQuery ML.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Vérifiez que l'API BigQuery est activée.
Si vous avez créé un nouveau projet, l'API BigQuery est automatiquement activée.
Autorisations requises
Pour utiliser BigQuery DataFrames dans un notebook BigQuery, vous devez disposer des rôles IAM (Identity and Access Management) suivants :
- Utilisateur BigQuery (
roles/bigquery.user
) - Utilisateur de l'environnement d'exécution de notebook (
roles/aiplatform.notebookRuntimeUser
) - Créateur de code (
roles/dataform.codeCreator
)
Créer un notebook
Suivez les instructions de la section Créer un notebook à partir de l'éditeur BigQuery pour créer un notebook.
Configurer les options BigQuery DataFrames
Après l'installation, vous devez spécifier l'emplacement et le projet dans lesquels vous souhaitez utiliser BigQuery DataFrames.
Vous pouvez définir l'emplacement et le projet dans votre notebook de la manière suivante :
Utiliser "bigframes.pandas
"
L'API bigframes.pandas
fournit une API de type pandas
que vous pouvez utiliser pour analyser et manipuler des données dans BigQuery. L'API bigframes.pandas
est évolutive afin de traiter des téraoctets de données BigQuery. Elle utilise le moteur de requête de BigQuery pour effectuer des calculs.
L'API bigframes.pandas
offre les fonctionnalités suivantes :
- Entrées et sorties
- Vous pouvez accéder aux données à partir de diverses sources, y compris les fichiers CSV locaux, les fichiers Cloud Storage, les objets DataFrame
pandas
, les modèles BigQuery et les fonctions BigQuery, puis les charger dans un fichier BigQuery DataFrame. Vous pouvez également créer des tables BigQuery à partir de BigQuery DataFrames. - Manipulation de données
- Vous pouvez utiliser Python au lieu de SQL pour votre développement.
Vous pouvez développer toutes les manipulations de données BigQuery dans Python, ce qui élimine le besoin de basculer entre les langages et d'essayer de capturer les instructions SQL sous forme de chaînes de texte. L'API
bigframes.pandas
offre plus de 250 fonctionspandas
. - Écosystème et visualisations Python
- L'API
bigframes.pandas
est une passerelle vers l'écosystème complet d'outils Python. L'API accepte les opérations statistiques avancées et vous pouvez visualiser les agrégations générées à partir de BigQuery DataFrames. Vous pouvez également passer d'un objet BigQuery DataFrame à un objet DataFramepandas
avec des opérations d'échantillonnage intégrées. - Fonctions Python personnalisées
- Vous pouvez utiliser des fonctions et des packages Python personnalisés. Avec
bigframes.pandas
, vous pouvez déployer des fonctions distantes exécutant des fonctions Python scalaires à l'échelle de BigQuery. Vous pouvez conserver ces fonctions dans BigQuery en tant que routines SQL et les utiliser comme des fonctions SQL.
Charger des données à partir d'une table ou d'une requête BigQuery
Vous pouvez créer un objet DataFrame à partir d'une table ou d'une requête BigQuery de la manière suivante :
Charger des données à partir d'un fichier CSV
Vous pouvez créer un DataFrame à partir d'un fichier CSV local ou Cloud Storage de la manière suivante :
Inspecter et manipuler des données
Vous pouvez utiliser bigframes.pandas
pour effectuer des opérations d'inspection et de calcul de données.
L'exemple de code suivant montre comment utiliser bigframes.pandas
pour inspecter la colonne body_mass_g
, calculer la moyenne body_mass
et calculer la moyenne body_mass
par species
:
Utiliser "bigframes.ml
"
L'API de type scikit-learn bigframes.ml
vous permet de créer plusieurs types de modèles de machine learning.
Régression
L'exemple de code suivant montre comment utiliser bigframes.ml
pour effectuer les opérations suivantes :
- Charger des données à partir de BigQuery
- Nettoyer et préparer les données d'entraînement
- Créer et appliquer un modèle de régression
bigframes.ml.LinearRegression
Clustering
Le module bigframes.ml.cluster
vous permet de créer des Estimators pour les modèles de clustering.
L'exemple de code suivant montre comment utiliser la classe bigframes.ml.cluster
KMeans
pour créer un modèle de clustering en k-moyennes pour la segmentation des données :
Modèles distants LLM
Vous pouvez utiliser le module bigframes.ml.llm
pour créer des estimators pour les modèles MLL (Large Language Models) distants.
L'exemple de code suivant montre comment utiliser la classe bigframes.ml.llm
PaLM2TextGenerator
pour créer un modèle de générateur de texte PaLM2 pour la génération de texte :
Tarification
BigQuery DataFrames est une bibliothèque Python Open Source. Vous pouvez afficher et télécharger le code source via GitHub. Vous pouvez installer la bibliothèque à partir de PyPI. La bibliothèque peut également être disponible sur d'autres gestionnaires de packages gérés par la communauté.
BigQuery DataFrames utilise BigQuery, Cloud Functions, Vertex AI et d'autres services Google Cloud, qui entraînent leurs propres coûts. En cas d'utilisation normale, la bibliothèque stocke les données dans des tables BigQuery intermédiaires, dont la durée par défaut est de sept jours.
Étapes suivantes
Pour apprendre à effectuer des tâches d’analyse et de machine learning à l’aide des objets BigQuery DataFrames dans un notebook BigQuery, consultez le guide de démarrage rapide sur BigQuery DataFrames.
Pour explorer BigQuery DataFrames, consultez la documentation de référence sur les bibliothèques BigQuery DataFrames.
Pour explorer le code source, consultez la section Code source de BigQuery DataFrames dans GitHub.