Utiliser l'agent data science
Ce guide explique comment utiliser l'agent data science dans Colab Enterprise pour vous aider à effectuer des tâches de data science dans vos notebooks. Les étapes de ce guide montrent comment importer un fichier CSV pour votre projet de science des données, mais vous pouvez également utiliser des tables BigQuery. Pour en savoir plus, consultez Utiliser l'agent Data Science Colab Enterprise avec BigQuery.
Découvrez comment et quand Gemini pour Google Cloud utilise vos données.
Ce document est destiné aux analystes de données, aux data scientists et aux développeurs de données qui travaillent avec Colab Enterprise. Il suppose que vous savez écrire du code dans un environnement notebook.
Capacités de l'agent Data Science
L'agent Data Science peut vous aider à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser l'agent data science pour :
- Générer des plans : générez et modifiez un plan pour effectuer une tâche spécifique.
- Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés.
- Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données qui sont des valeurs aberrantes.
- Nettoyage des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage des libellés. Créez des fonctionnalités d'analyse.
- Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des tendances et des modèles dans les données.
- Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des nuages de points et des graphiques à barres qui représentent les distributions de variables individuelles et les relations entre elles.
- Ingénierie des caractéristiques : concevez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
- Fractionnement des données : fractionnez un ensemble de données conçu en ensembles de données d'entraînement, de validation et de test.
- Entraînement du modèle : entraînez un modèle à l'aide des données d'entraînement.
- Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation.
Explorez d'autres modèles tels que
DecisionTreeRegressor
etRandomForestRegressor
, et comparez leurs performances. - Évaluation du modèle : évaluez le modèle le plus performant sur l'ensemble de données de test.
Limites
- L'agent Data Science est compatible avec les sources de données suivantes :
- Fichiers CSV
- les tables BigQuery
- Le code produit par l'agent data science ne s'exécute que dans l'environnement d'exécution de votre notebook.
- Votre notebook doit se trouver dans une région compatible avec l'agent Data Science. Consultez Zones géographiques.
- L'agent Data Science n'est pas compatible avec les projets pour lesquels VPC Service Controls est activé.
- La première fois que vous exécutez l'agent Data Science, vous pouvez rencontrer une latence d'environ cinq à dix minutes. Cela ne se produit qu'une seule fois par projet lors de la configuration initiale.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
Dans la console Google Cloud , accédez à la page Mes notebooks de Colab Enterprise.
-
Dans le menu Région, sélectionnez la région qui contient votre notebook.
-
Cliquez sur le notebook que vous souhaitez ouvrir.
-
Dans la barre d'outils, cliquez sur le bouton
Gemini pour ouvrir la boîte de dialogue du chat. -
Pour importer un fichier CSV :
- Dans la boîte de dialogue, cliquez sur Ajouter des fichiers.
-
Si nécessaire, autorisez votre compte Google.
Patientez quelques instants pendant que Colab Enterprise démarre un environnement d'exécution et active la navigation dans les fichiers.
- Dans le volet Fichiers, cliquez sur Importer dans l'espace de stockage de la session.
- Accédez à l'emplacement du fichier, puis cliquez sur Ouvrir.
-
Cliquez sur OK pour confirmer que les fichiers de cet environnement d'exécution seront supprimés lorsqu'il sera effacé.
Le fichier est importé dans le volet Fichiers.
-
À côté du fichier que vous avez importé, cliquez sur le menu
Actions, puis sélectionnez Ajouter à Gemini.Le fichier est ajouté à la boîte de dialogue.
-
Dans la boîte de dialogue du chat Gemini, saisissez un prompt, puis cliquez sur capacités de l'agent Data Science et les exemples de requêtes.
Envoyer. Pour trouver des idées de requêtes, consultez lesPar exemple, vous pouvez saisir "Fournis une analyse des données que j'ai importées".
-
Gemini répond à votre requête. La réponse peut inclure des extraits de code à exécuter, des conseils généraux pour votre projet, les prochaines étapes pour atteindre vos objectifs ou des informations sur des problèmes spécifiques dans vos données ou votre code.
Après avoir évalué la réponse, vous pouvez effectuer les actions suivantes :
- Si Gemini fournit du code dans sa réponse, vous pouvez cliquer sur :
- Cliquez sur Accepter pour ajouter le code à votre notebook.
- Cliquez sur Accepter et exécuter pour ajouter le code à votre notebook et l'exécuter.
- Appuyez sur Annuler pour supprimer le code suggéré.
- Posez des questions complémentaires et poursuivez la discussion si nécessaire.
- Si Gemini fournit du code dans sa réponse, vous pouvez cliquer sur :
-
Pour fermer la boîte de dialogue Gemini, cliquez sur
Fermer. - Recherchez et renseignez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
- Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne
experience_level
pour regrouper les salaires et créer un graphique en boîte pour chaque groupe, en affichant les valeurs de la colonnesalary_in_usd
. - Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable
class
d'un fruit spécifique. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle, puis évaluez sa précision. Créez une matrice de confusion pour afficher les prédictions pour chaque classe, y compris toutes les prédictions correctes et incorrectes. - Crée un DataFrame Pandas pour mes données. Analysez les données pour identifier les valeurs nulles, puis visualisez la distribution de chaque colonne à l'aide de graphiques en violon pour les valeurs mesurées et de graphiques à barres pour les catégories.
- Lisez le fichier CSV de l'ensemble de données et créez un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qui doit être fait avec les valeurs (remplacer ou supprimer les valeurs manquantes, supprimer les lignes en double), et déterminez la répartition du montant investi en USD par ville. Visualise les résultats dans un graphique à barres par ordre décroissant, en affichant l'emplacement par rapport au montant moyen investi (USD) et en ne montrant que les 20 premiers résultats.
- Prévision de
target_variable
à partir dufilename.csv
pour les six prochains mois. - Créez et évaluez un modèle de classification sur
filename.csv
pourtarget_variable
. Pour savoir comment utiliser l'agent Data Science avec BigQuery, consultez Utiliser l'agent Data Science Colab Enterprise avec BigQuery.
Consultez la présentation de Gemini pour Google Cloud.
Pour découvrir d'autres façons d'écrire et de modifier du code avec l'assistance de Gemini, consultez les ressources suivantes :
Découvrez comment Gemini pour Google Cloud utilise vos données.
Rôles requis
Pour obtenir les autorisations nécessaires pour utiliser l'agent Data Science dans Colab Enterprise, demandez à votre administrateur de vous accorder le rôle IAM Utilisateur Colab Enterprise (roles/aiplatform.colabEnterpriseUser
) sur le projet.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Utiliser l'agent data science
Pour commencer à utiliser Data Science Agent de Colab Enterprise, procédez comme suit :
Désactiver Gemini dans Colab Enterprise
Pour désactiver Gemini dans Colab Enterprise pour un projet Google Cloud , un administrateur doit désactiver l'API Gemini for Google Cloud. Consultez Désactiver des services.
Pour désactiver Gemini dans Colab Enterprise pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user
). Consultez Révoquer un rôle IAM unique.
Exemples de requêtes
Les exemples suivants illustrent les types de requêtes que vous pouvez utiliser avec l'agent Data Science.
Régions où le service est disponible
Pour afficher les régions compatibles avec Data Science Agent de Colab Enterprise, consultez Emplacements.
Facturation
Pendant la version preview, vous n'êtes facturé que pour l'exécution du code dans l'environnement d'exécution du notebook. Pour en savoir plus, consultez la page Tarifs de Colab Enterprise.