Utiliser l'agent Data Science Colab Enterprise avec BigQuery
L'agent Data Science (DSA) pour Colab Enterprise et BigQuery vous permet d'automatiser l'analyse exploratoire des données, d'effectuer des tâches de machine learning et de fournir des insights, le tout dans un notebook Colab Enterprise.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Pour les nouveaux projets, l'API BigQuery est automatiquement activée.
- L'agent Data Science est compatible avec les sources de données suivantes :
- Fichiers CSV
- les tables BigQuery
- Le code produit par l'agent data science ne s'exécute que dans l'environnement d'exécution de votre notebook.
- L'agent Data Science n'est pas compatible avec les projets pour lesquels VPC Service Controls est activé.
- La première fois que vous exécutez l'agent Data Science, vous pouvez rencontrer une latence d'environ cinq à dix minutes. Cela ne se produit qu'une seule fois par projet lors de la configuration initiale.
- Générer un plan : générez et modifiez un plan pour accomplir une tâche spécifique à l'aide d'outils courants tels que Python, SQL et les DataFrames BigQuery.
- Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés à l'aide de Python ou de SQL.
- Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données qui sont des valeurs aberrantes.
- Nettoyage des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage par libellé, ou en utilisant les outils de transformation des caractéristiques de BigQuery. Créez des fonctionnalités d'analyse.
- Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des tendances et des modèles dans les données.
- Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des nuages de points et des graphiques à barres qui représentent les distributions de variables individuelles et les relations entre elles. Vous pouvez également créer des visualisations en Python pour les tables stockées dans BigQuery.
- Ingénierie des caractéristiques : concevez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
- Fractionnement des données : fractionnez un ensemble de données conçu en ensembles de données d'entraînement, de validation et de test.
- Entraînement du modèle : entraînez un modèle à l'aide des données d'entraînement dans un DataFrame pandas (
X_train
,y_train
), un BigQuery DataFrame ou à l'aide de l'instructionCREATE MODEL
BigQuery ML avec des tables BigQuery. - Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation.
Explorez d'autres modèles tels que
DecisionTreeRegressor
etRandomForestRegressor
, et comparez leurs performances. - Évaluation du modèle : évaluez le modèle le plus performant sur un ensemble de données de test stocké dans un DataFrame pandas ou BigQuery. Évaluez la qualité d'un modèle, comparez-le à d'autres ou prédisez ses performances à l'aide des fonctions d'évaluation de modèle BigQuery ML.
- Inférence de modèle : effectuez des inférences avec des modèles entraînés BigQuery ML, des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML. Vous pouvez également utiliser la méthode
model.predict()
de BigFrames pour effectuer des prédictions sur des données inédites. Créez ou ouvrez un notebook Colab Enterprise.
Importez un fichier CSV, sélectionnez une ou plusieurs tables BigQuery dans le sélecteur de tables, ou référencez une table BigQuery dans votre requête.
Saisissez une requête décrivant l'analyse de données que vous souhaitez effectuer ou le prototype que vous souhaitez créer. Le comportement par défaut de l'agent Data Science consiste à générer du code Python à l'aide de bibliothèques Open Source telles que sklearn pour accomplir des tâches complexes de machine learning. Pour utiliser un outil spécifique, incluez les mots clés suivants dans votre requête :
- Si vous souhaitez utiliser BigQuery ML, incluez le mot clé "SQL".
- Si vous souhaitez utiliser "BigQuery DataFrames", spécifiez les mots clés "BigFrames" ou "BigQuery DataFrames".
Pour obtenir de l'aide, consultez les exemples de requêtes.
Parcourez les résultats.
Accédez à la page BigQuery.
Sur la page d'accueil de BigQuery Studio, sous Créer, cliquez sur Notebook.
Vous pouvez également cliquer sur la flèche vers le bas > Notebook vide.
à côté de l'icône + dans la barre d'onglets, puis sur NotebookDans la barre d'outils, cliquez sur le bouton spark Activer/Désactiver Gemini pour ouvrir la boîte de dialogue de chat.
Importez votre fichier CSV.
Dans la boîte de dialogue de chat, cliquez sur
Ajouter des fichiers.Si nécessaire, autorisez votre compte Google.
Dans le volet d'actions, cliquez sur
Importer un fichier.Accédez à l'emplacement du fichier CSV, puis cliquez sur Ouvrir.
À côté du nom de fichier, cliquez sur l'icône
Autres actions, puis sélectionnez Ajouter à Gemini.
Saisissez votre requête dans la fenêtre de chat. Par exemple :
Identify trends and anomalies in this file.
Cliquez sur
Envoyer. Les résultats s'affichent dans la fenêtre de chat.Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. À mesure que le plan s'exécute, le code et le texte générés s'affichent dans le notebook. Cliquez sur Annuler pour arrêter.
Accédez à la page BigQuery.
Sur la page d'accueil de BigQuery Studio, sous Créer, cliquez sur Notebook.
Vous pouvez également cliquer sur la flèche vers le bas > Notebook vide.
à côté de l'icône + dans la barre d'onglets, puis sur NotebookDans la barre d'outils, cliquez sur le bouton spark Activer/Désactiver Gemini pour ouvrir la boîte de dialogue de chat.
Saisissez votre requête dans la fenêtre de chat.
Choisissez une ou plusieurs tables à l'aide du sélecteur de tables :
Cliquez sur > Tables BigQuery.
Ajouter à GeminiDans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.
Vous pouvez également référencer une table BigQuery directement dans votre requête. Par exemple : "Aide-moi à effectuer une analyse exploratoire des données et à obtenir des insights sur les données de ce tableau :
project_id:dataset.table
."Remplacez les éléments suivants :
project_id
: ID de votre projet.dataset
: nom de l'ensemble de données contenant la table que vous analysez.table
: nom de la table que vous analysez
Cliquez sur
Envoyer.Les résultats s'affichent dans la fenêtre de chat.
Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. À mesure que le plan s'exécute, le code et le texte générés s'affichent dans le notebook. Pour les étapes supplémentaires du plan, vous devrez peut-être cliquer à nouveau sur Accepter et exécuter. Cliquez sur Annuler pour arrêter.
- Étudiez et comblez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
- Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne
experience_level
pour regrouper les salaires et créer un graphique en boîte pour chaque groupe, en affichant les valeurs de la colonnesalary_in_usd
. - Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable
class
d'un fruit donné. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle et déterminer sa précision. Créez une matrice de confusion pour afficher les prédictions pour chaque classe, y compris toutes les prédictions correctes et incorrectes. - Prévision
target_variable
à partir dufilename.csv
pour les six prochains mois. - Créez et évaluez un modèle de classification sur
bigquery-public-data.ml_datasets.census_adult_income
à l'aide de BigQuery SQL. - À l'aide de SQL, prévois le trafic futur de mon site Web pour le mois prochain en fonction de
bigquery-public-data.google_analytics_sample.ga_sessions_*
. Tracez ensuite les valeurs historiques et prévues. - Regroupez les clients similaires pour créer des campagnes de ciblage du marché à l'aide d'un modèle KMeans. Utilisez trois caractéristiques pour le clustering. Visualisez ensuite les résultats en créant une série de graphiques de dispersion 2D. Utilisez le tableau
bigquery-public-data.ml_datasets.census_adult_income
. - Générez des embeddings de texte dans BigQuery ML à l'aide du contenu des avis dans
bigquery-public-data.imdb.reviews
. - Créez un DataFrame pandas pour les données de
project_id:dataset.table
. Analysez les données pour identifier les valeurs nulles, puis représentez la distribution de chaque colonne à l'aide du type de graphique. Utilisez des graphiques en violon pour les valeurs mesurées et des graphiques à barres pour les catégories. - Lire
filename.csv
et construire un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qu'il faut faire avec les valeurs. Par exemple, y a-t-il des valeurs manquantes à remplacer ou à supprimer, ou des lignes en double à traiter ? Utilisez le fichier de données pour déterminer la répartition de l'argent investi en USD par ville. Représentez les 20 premiers résultats sous forme de graphique à barres qui affiche les résultats par ordre décroissant, en comparant le lieu et le montant moyen investi (USD). - Créez et évaluez un modèle de classification sur
project_id:dataset.table
à l'aide de BigQuery DataFrames. - Créez un modèle de prévision de séries temporelles sur
project_id:dataset.table
à l'aide de BigQuery DataFrames, puis visualisez les évaluations du modèle. - Visualisez les chiffres de ventes de l'année écoulée dans le tableau BigQuery
project_id:dataset.table
à l'aide de BigQuery DataFrames. - Trouvez les caractéristiques qui permettent le mieux de prédire l'espèce de pingouin à partir du tableau
bigquery-public_data.ml_datasets.penguins
à l'aide de BigQuery DataFrames.
Si vous ne connaissez pas encore Colab Enterprise dans BigQuery, consultez les étapes de configuration sur la page Créer des notebooks.
Limites
Quand utiliser l'agent data science ?
L'agent Data Science vous aide à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser le DSA pour :
Utiliser l'agent de data science dans BigQuery
Les étapes suivantes vous expliquent comment utiliser l'agent Data Science dans BigQuery.
Analyser un fichier CSV
Pour analyser un fichier CSV à l'aide de l'agent Data Science dans BigQuery, procédez comme suit.
Analyser des tables BigQuery
Pour analyser une table BigQuery, sélectionnez-en une ou plusieurs dans le sélecteur de tables, ou fournissez une référence à la table dans votre requête.
Exemples de requêtes
Quelle que soit la complexité de la requête que vous utilisez, l'agent data science génère un plan que vous pouvez affiner pour répondre à vos besoins.
Les exemples suivants illustrent les types de requêtes que vous pouvez utiliser avec l'analyse de la sécurité dynamique.
Requêtes Python
Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans la requête, tel que "BigQuery ML" ou "SQL".
Requêtes SQL et BigQuery ML
Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.
Requêtes DataFrame
Désactiver Gemini dans BigQuery
Pour désactiver Gemini dans BigQuery pour un projet Google Cloud , un administrateur doit désactiver l'API Gemini pour Google Cloud. Consultez Désactiver des services.
Pour désactiver Gemini dans BigQuery pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user
). Consultez Révoquer un rôle IAM unique.
Tarifs
Pendant la période d'aperçu, l'exécution de code dans l'environnement d'exécution du notebook et les emplacements BigQuery que vous avez utilisés vous sont facturés. Pour en savoir plus, consultez la page Tarifs de Colab Enterprise.
Régions où le service est disponible
Pour afficher les régions compatibles avec l'agent Data Science de Colab Enterprise, consultez Emplacements.