Utiliser l'agent Data Science Colab Enterprise avec BigQuery

L'agent Data Science (DSA) pour Colab Enterprise et BigQuery vous permet d'automatiser l'analyse exploratoire des données, d'effectuer des tâches de machine learning et de fournir des insights, le tout dans un notebook Colab Enterprise.

Avant de commencer

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Pour les nouveaux projets, l'API BigQuery est automatiquement activée.

Si vous ne connaissez pas encore Colab Enterprise dans BigQuery, consultez les étapes de configuration sur la page Créer des notebooks.

Limites

L'agent Data Science est compatible avec les sources de données suivantes :
- Fichiers CSV
- les tables BigQuery
Le code produit par l'agent data science ne s'exécute que dans l'environnement d'exécution de votre notebook.
L'agent Data Science n'est pas compatible avec les projets pour lesquels VPC Service Controls est activé.
La recherche de tables BigQuery à l'aide de la fonction @mention est limitée à votre projet actuel. Utilisez le sélecteur de tables pour effectuer des recherches dans les projets.
La fonction @mention ne recherche que les tables BigQuery. Pour rechercher les fichiers de données que vous pouvez importer, utilisez le symbole +.
PySpark dans l'agent data science ne génère que du code Serverless pour Apache Spark 4.0. Le DSA peut vous aider à passer à Serverless pour Apache Spark 4.0, mais les utilisateurs qui ont besoin de versions antérieures ne doivent pas utiliser l'agent Data Science.

Quand utiliser l'agent data science ?

L'agent Data Science vous aide à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser la DSA pour :

Traitement de données à grande échelle : utilisez BigQuery ML, BigQuery DataFrames ou Serverless pour Apache Spark afin d'effectuer un traitement de données distribué sur de grands ensembles de données. Cela vous permet de nettoyer, de transformer et d'analyser efficacement des données trop volumineuses pour tenir dans la mémoire d'une seule machine.
Générer un plan : générez et modifiez un plan pour accomplir une tâche spécifique à l'aide d'outils courants tels que Python, SQL, Serverless pour Apache Spark et BigQuery DataFrames.
Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés à l'aide de Python ou de SQL.
Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données qui sont des valeurs aberrantes.
Nettoyage des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage par libellé, ou en utilisant les outils de transformation des caractéristiques de BigQuery ML. Créez des fonctionnalités d'analyse.
Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des tendances et des modèles dans les données.
Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des nuages de points et des graphiques à barres qui représentent les distributions de variables individuelles et les relations entre elles. Vous pouvez également créer des visualisations en Python pour les tables stockées dans BigQuery.
Ingénierie des caractéristiques : concevez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
Fractionnement des données : fractionnez un ensemble de données conçu en ensembles de données d'entraînement, de validation et de test.
Entraînement du modèle : entraînez un modèle en utilisant les données d'entraînement dans un DataFrame pandas (X_train, y_train), BigQuery DataFrames, un DataFrame PySpark ou en utilisant l'instruction BigQuery ML CREATE MODEL avec des tables BigQuery.
Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation. Explorez d'autres modèles tels que DecisionTreeRegressor et RandomForestRegressor, et comparez leurs performances.
Évaluation du modèle : évaluez les performances du modèle sur un ensemble de données de test à l'aide d'un DataFrame pandas, BigQuery DataFrames ou PySpark. Vous pouvez également évaluer la qualité des modèles et les comparer à l'aide des fonctions d'évaluation de modèle BigQuery ML pour les modèles entraînés à l'aide de BigQuery ML.
Inférence de modèle : effectuez des inférences avec des modèles entraînés BigQuery ML, des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML. Vous pouvez également utiliser la méthode model.predict() BigFrames ou les transformateurs PySpark pour faire des prédictions.

Utiliser l'agent de data science dans BigQuery

Les étapes suivantes vous expliquent comment utiliser l'agent Data Science dans BigQuery.

Créez ou ouvrez un notebook Colab Enterprise.
Faites référence à vos données de l'une des manières suivantes :
- Importez un fichier CSV ou utilisez le symbole + dans votre requête pour rechercher les fichiers disponibles.
- Choisissez une ou plusieurs tables BigQuery dans le sélecteur de tables, soit dans votre projet actuel, soit dans d'autres projets auxquels vous avez accès.
- Dans votre requête, référencez le nom d'une table BigQuery au format suivant : project_id:dataset.table.
- Saisissez le symbole @ pour rechercher un nom de table BigQuery à l'aide de la fonction @mention.
Saisissez une requête décrivant l'analyse de données que vous souhaitez effectuer ou le prototype que vous souhaitez créer. Le comportement par défaut de l'agent Data Science consiste à générer du code Python à l'aide de bibliothèques Open Source telles que sklearn pour accomplir des tâches complexes de machine learning. Pour utiliser un outil spécifique, incluez les mots clés suivants dans votre requête :
- Si vous souhaitez utiliser BigQuery ML, incluez le mot clé "SQL".
- Si vous souhaitez utiliser "BigQuery DataFrames", spécifiez les mots clés "BigFrames" ou "BigQuery DataFrames".
- Si vous souhaitez utiliser PySpark, incluez les mots clés "Apache Spark" ou "PySpark".
Pour obtenir de l'aide, consultez les exemples de requêtes.
Parcourez les résultats.

Analyser un fichier CSV

Pour analyser un fichier CSV à l'aide de l'agent Data Science dans BigQuery, procédez comme suit.

Accédez à la page BigQuery.

Accéder à BigQuery
Sur la page d'accueil de BigQuery Studio, sous Créer, cliquez sur Notebook.

Vous pouvez également cliquer sur la flèche du menu déroulant à côté de l'icône + dans la barre d'onglets, puis sur Notebook > Notebook vide.
Dans la barre d'outils, cliquez sur le bouton spark Activer/Désactiver Gemini pour ouvrir la boîte de dialogue de chat.

Remarque : Vous pouvez déplacer la boîte de dialogue de chat dans un panneau distinct en dehors du notebook en cliquant sur l'icône Déplacer vers le panneau.
Importez votre fichier CSV.
1. Dans la boîte de dialogue du chat, cliquez sur Ajouter à Gemini > Importer.
2. Si nécessaire, autorisez votre compte Google.
3. Accédez à l'emplacement du fichier CSV, puis cliquez sur Ouvrir.
Vous pouvez également saisir le symbole + dans votre requête pour rechercher les fichiers disponibles à importer.
Saisissez votre requête dans la fenêtre de chat. Par exemple : Identify trends and anomalies in this file.
Cliquez sur Envoyer. Les résultats s'affichent dans la fenêtre de chat.
Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. À mesure que le plan s'exécute, le code et le texte générés s'affichent dans le notebook. Cliquez sur Annuler pour arrêter.

Analyser des tables BigQuery

Pour analyser une table BigQuery, sélectionnez une ou plusieurs tables dans le sélecteur de tables, fournissez une référence à la table dans votre requête ou recherchez une table à l'aide du symbole @.

Accédez à la page BigQuery.

Accéder à BigQuery
Sur la page d'accueil de BigQuery Studio, sous Créer, cliquez sur Notebook.

Vous pouvez également cliquer sur la flèche du menu déroulant à côté de l'icône + dans la barre d'onglets, puis sur Notebook > Notebook vide.
Dans la barre d'outils, cliquez sur le bouton spark Activer/Désactiver Gemini pour ouvrir la boîte de dialogue de chat.

Remarque : Vous pouvez déplacer la boîte de dialogue de chat dans un panneau distinct en dehors du notebook en cliquant sur l'icône Déplacer vers le panneau.
Saisissez votre requête dans la fenêtre de chat.
Faites référence à vos données de l'une des manières suivantes :
1. Choisissez une ou plusieurs tables à l'aide du sélecteur de tables :
  1. Cliquez sur Ajouter à Gemini > Tables BigQuery.
  2. Dans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.
2. Incluez un nom de table BigQuery directement dans votre requête. Par exemple : "Aide-moi à effectuer une analyse exploratoire des données et à obtenir des insights sur les données de ce tableau : project_id:dataset.table."
  
  Remplacez les éléments suivants :
  - project_id : ID de votre projet
  - dataset : nom de l'ensemble de données contenant la table que vous analysez.
  - table : nom de la table que vous analysez.
3. Saisissez @ pour rechercher une table BigQuery dans votre projet actuel.
Cliquez sur Envoyer.

Les résultats s'affichent dans la fenêtre de chat.
Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. À mesure que le plan s'exécute, le code et le texte générés s'affichent dans le notebook. Pour les étapes supplémentaires du plan, vous devrez peut-être cliquer à nouveau sur Accepter et exécuter. Cliquez sur Annuler pour arrêter.

Exemples de requêtes

Quelle que soit la complexité de la requête que vous utilisez, l'agent data science génère un plan que vous pouvez affiner pour répondre à vos besoins.

Les exemples suivants illustrent les types de requêtes que vous pouvez utiliser avec l'analyse de la sensibilité des données.

Requêtes Python

Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans la requête, tel que "BigQuery ML" ou "SQL".

Étudiez et comblez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne experience_level pour regrouper les salaires et créer un graphique en boîte pour chaque groupe, en affichant les valeurs de la colonne salary_in_usd.
Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable class d'un fruit donné. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle et déterminer sa précision. Créez une matrice de confusion pour afficher les prédictions pour chaque classe, y compris toutes les prédictions correctes et incorrectes.
Prévision target_variable à partir du filename.csv pour les six prochains mois.

Requêtes SQL et BigQuery ML

Créez et évaluez un modèle de classification sur bigquery-public-data.ml_datasets.census_adult_income à l'aide de BigQuery SQL.
À l'aide de SQL, prévois le trafic futur de mon site Web pour le mois prochain en fonction de bigquery-public-data.google_analytics_sample.ga_sessions_*. Tracez ensuite les valeurs historiques et prévues.
Regroupez les clients similaires pour créer des campagnes de ciblage du marché à l'aide d'un modèle KMeans et des fonctions SQL BigQuery ML. Utilisez trois caractéristiques pour le clustering. Visualisez ensuite les résultats en créant une série de nuages de points 2D. Utilisez le tableau bigquery-public-data.ml_datasets.census_adult_income.
Générez des embeddings de texte dans BigQuery ML à l'aide du contenu des avis dans bigquery-public-data.imdb.reviews.

Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.

Requêtes DataFrame

Créez un DataFrame pandas pour les données de project_id:dataset.table. Analysez les données pour identifier les valeurs nulles, puis représentez la distribution de chaque colonne à l'aide du type de graphique. Utilisez des graphiques en violon pour les valeurs mesurées et des graphiques à barres pour les catégories.
Lire filename.csv et construire un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qu'il faut faire avec les valeurs. Par exemple, y a-t-il des valeurs manquantes à remplacer ou à supprimer, ou des lignes en double à traiter ? Utilisez le fichier de données pour déterminer la répartition de l'argent investi en USD par ville. Représentez les 20 premiers résultats sous forme de graphique à barres qui affiche les résultats par ordre décroissant, en comparant le lieu et le montant moyen investi (USD).
Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de BigQuery DataFrames.
Créez un modèle de prévision de séries temporelles sur project_id:dataset.table à l'aide de BigQuery DataFrames, puis visualisez les évaluations du modèle.
Visualisez les chiffres de vente de l'année écoulée dans le tableau BigQuery project_id:dataset.table à l'aide de BigQuery DataFrames.
Trouvez les caractéristiques qui permettent le mieux de prédire l'espèce de pingouin à partir du tableau bigquery-public_data.ml_datasets.penguins à l'aide de BigQuery DataFrames.

Requêtes PySpark

Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de Serverless pour Apache Spark.
Regroupez les clients similaires pour créer des campagnes de ciblage du marché, mais effectuez d'abord une réduction de la dimensionnalité à l'aide d'un modèle ACP. Utilisez PySpark pour effectuer cette opération sur la table project_id:dataset.table.

Désactiver Gemini dans BigQuery

Pour désactiver Gemini dans BigQuery pour un projet Google Cloud , un administrateur doit désactiver l'API Gemini pour Google Cloud. Consultez Désactiver des services.

Pour désactiver Gemini dans BigQuery pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user). Consultez Révoquer un rôle IAM unique.

Tarifs

Pendant la période d'aperçu, l'exécution de code dans l'environnement d'exécution du notebook et les emplacements BigQuery que vous avez utilisés vous sont facturés. Pour en savoir plus, consultez la page Tarifs de Colab Enterprise.

Régions où le service est disponible

Pour afficher les régions compatibles avec l'agent Data Science de Colab Enterprise, consultez Emplacements.