Usar Data Science Agent
En esta guía se describe cómo puedes usar el agente de ciencia de datos en Colab Enterprise para realizar tareas de ciencia de datos en tus cuadernos.
Consulta cómo y cuándo Gemini Google Cloud usa tus datos.
Este documento está dirigido a analistas, científicos y desarrolladores de datos que trabajan con Colab Enterprise. Se presupone que sabes cómo escribir código en un entorno de cuaderno.
Funciones de Data Science Agent
Data Science Agent puede ayudarte con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar Data Science Agent para lo siguiente:
- Generar planes: genera y modifica un plan para completar una tarea concreta.
- Exploración de datos: explora un conjunto de datos para comprender su estructura, identificar posibles problemas, como valores que faltan y valores atípicos, y examinar la distribución de las variables clave.
- Limpieza de datos: limpia tus datos. Por ejemplo, elimina los puntos de datos que sean valores atípicos.
- Preparación de datos: convierte las funciones categóricas en representaciones numéricas mediante técnicas como la codificación de un solo valor activo o la codificación de etiquetas. Crea nuevas funciones para el análisis.
- Análisis de datos: analiza las relaciones entre diferentes variables. Calcula las correlaciones entre las características numéricas y explora las distribuciones de las características categóricas. Busca patrones y tendencias en los datos.
- Visualización de datos: crea visualizaciones como histogramas, diagramas de caja, gráficos de dispersión y gráficos de barras que representan las distribuciones de variables individuales y las relaciones entre ellas.
- Ingeniería de funciones: diseña nuevas funciones a partir de un conjunto de datos limpios.
- División de datos: divide un conjunto de datos procesado en conjuntos de datos de entrenamiento, validación y prueba.
- Entrenamiento del modelo: entrena un modelo con los datos de entrenamiento.
- Optimización del modelo: optimiza un modelo usando el conjunto de validación.
Explora modelos alternativos, como
DecisionTreeRegressor
yRandomForestRegressor
, y compara su rendimiento. - Evaluación del modelo: evalúa el modelo con el mejor rendimiento en el conjunto de datos de prueba.
Limitaciones
- El agente de ciencia de datos admite las siguientes fuentes de datos:
- Archivos CSV
- Tablas de BigQuery
- El código generado por Data Science Agent solo se ejecuta en el tiempo de ejecución de tu cuaderno.
- Tu cuaderno debe estar en una región admitida por Data Science Agent. Consulta Ubicaciones.
- El agente de ciencia de datos no se admite en proyectos que tengan habilitado Controles de Servicio de VPC.
- La primera vez que ejecutes el agente de ciencia de datos, puede que experimentes una latencia de entre cinco y diez minutos. Esto solo ocurre una vez por proyecto durante la configuración inicial.
- La búsqueda de tablas de BigQuery mediante la función
@mention
se limita al proyecto actual. Usa el selector de tabla para buscar en todos los proyectos. - La función
@mention
solo busca tablas de BigQuery. Para buscar archivos de datos que puedas subir, usa el símbolo+
.
Antes de empezar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
En la consola, ve a la página Mis cuadernos de Colab Enterprise. Google Cloud
-
En el menú Región, selecciona la región que contiene tu cuaderno.
-
Haz clic en el cuaderno que quieras abrir.
-
En la barra de herramientas, haz clic en el botón
Gemini para abrir el cuadro de diálogo de chat. - En el cuadro de diálogo del chat, haz clic en > Subir. Añadir archivos
-
Si es necesario, autoriza tu cuenta de Google.
Espera un momento a que Colab Enterprise inicie un entorno de ejecución y habilite la exploración de archivos.
- Ve a la ubicación del archivo y haz clic en Abrir.
-
Haz clic en Aceptar para confirmar que los archivos de este entorno de ejecución se eliminarán cuando se elimine el entorno de ejecución.
El archivo se sube al panel Archivos y aparece en la ventana del chat.
-
En la consola, ve a la página Mis cuadernos de Colab Enterprise. Google Cloud
-
En el menú Región, selecciona la región que contiene tu cuaderno.
-
Haz clic en el cuaderno que quieras abrir.
-
En la barra de herramientas, haz clic en el botón
Gemini para abrir el cuadro de diálogo de chat. -
Para hacer referencia a tus datos, tienes estas opciones:
-
Elige una o varias tablas con el selector de tablas:
- Haz clic en > Tablas de BigQuery. Añadir a Gemini
- En la ventana Tablas de BigQuery, selecciona una o varias tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas mediante la barra de búsqueda.
-
Incluye un nombre de tabla de BigQuery directamente en tu petición. Por ejemplo: "Ayúdame a hacer un análisis exploratorio de datos y a obtener estadísticas sobre los datos de esta tabla:
PROJECT_ID:DATASET.TABLE
".Haz los cambios siguientes:
PROJECT_ID
: tu ID de proyecto.DATASET
: el nombre del conjunto de datos que contiene la tabla que está analizando.TABLE
: el nombre de la tabla que vas a analizar.
-
Escribe
@
para buscar una tabla de BigQuery en tu proyecto actual.
-
-
En el cuadro de diálogo de chat de Gemini, escribe una petición y haz clic en funciones del agente de ciencia de datos y los ejemplos de peticiones.
Enviar. Para obtener ideas de peticiones, consulta lasPor ejemplo, puedes introducir "Analiza los datos que he subido".
-
Gemini responde a tu petición. La respuesta puede incluir fragmentos de código para ejecutar, consejos generales para tu proyecto, los pasos que debes seguir para alcanzar tus objetivos o información sobre problemas específicos en tus datos o código.
Después de evaluar la respuesta, puedes hacer lo siguiente:
- Si Gemini proporciona código en su respuesta, puedes hacer clic en:
- Haz clic en Aceptar para añadir el código al cuaderno.
- Aceptar y ejecutar para añadir el código al cuaderno y ejecutarlo.
- Cancelar para eliminar el código sugerido.
- Haz preguntas de seguimiento y continúa la conversación según sea necesario.
- Si Gemini proporciona código en su respuesta, puedes hacer clic en:
-
Para cerrar el cuadro de diálogo de Gemini, haz clic en
Cerrar. - Busca y rellena los valores que faltan con el algoritmo de aprendizaje automático k-vecinos más cercanos (KNN).
- Crea un gráfico de los salarios por nivel de experiencia. Usa la columna
experience_level
para agrupar los salarios y crea un diagrama de caja para cada grupo que muestre los valores de la columnasalary_in_usd
. - Usa el algoritmo XGBoost para crear un modelo que determine la variable
class
de una fruta específica. Divide los datos en conjuntos de datos de entrenamiento y de prueba para generar un modelo y, a continuación, evalúa la precisión del modelo. Crea una matriz de confusión para mostrar las predicciones de cada clase, incluidas todas las predicciones correctas e incorrectas. - Crea un dataframe de pandas con mis datos. Analiza los datos para detectar valores nulos y, a continuación, visualiza la distribución de cada columna mediante gráficos de violín para los valores medidos y gráficos de barras para las categorías.
- Lee el archivo CSV del conjunto de datos y crea un DataFrame. Después, analiza el DataFrame para determinar qué se debe hacer con los valores (sustituir o eliminar los valores que faltan, eliminar las filas duplicadas) y determinar la distribución de la cantidad de dinero invertida en USD por ciudad. Visualiza los resultados en un gráfico de barras en orden descendente como Ubicación frente a importe medio invertido (USD), mostrando solo los 20 primeros resultados.
- Previsión de
target_variable
defilename.csv
para los próximos seis meses. - Crea y evalúa un modelo de clasificación en
filename.csv
paratarget_variable
. Para obtener más información sobre cómo usar Data Science Agent con BigQuery, consulta el artículo Usar Data Science Agent de Colab Enterprise con BigQuery.
Consulta la descripción general de Gemini para Google Cloud.
Para ver más formas de escribir y editar código con la asistencia de Gemini, consulta los siguientes artículos:
Roles obligatorios
Para obtener los permisos que necesitas para usar Data Science Agent en Colab Enterprise,
pide a tu administrador que te conceda el rol de gestión de identidades y accesos
Usuario de Colab Enterprise (roles/aiplatform.colabEnterpriseUser
) en el proyecto.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.
Consultar tus datos
Para permitir que el agente de ciencia de datos de Colab Enterprise acceda a tus datos y trabaje con ellos, puedes subir un archivo CSV o hacer referencia a una tabla de BigQuery.
Archivo CSV
Tabla de BigQuery
Usar Data Science Agent
Para empezar a usar el agente de ciencia de datos de Colab Enterprise, haz lo siguiente:
Desactivar Gemini en Colab Enterprise
Para desactivar Gemini en Colab Enterprise en un Google Cloud proyecto, un administrador debe desactivar la API Gemini para Google Cloud. Consulta cómo inhabilitar servicios.
Para desactivar Gemini en Colab Enterprise para un usuario concreto, un administrador debe revocar el rol Usuario de Gemini para Google Cloud (roles/cloudaicompanion.user
) de ese usuario. Consulta cómo revocar un solo rol de gestión de identidades y accesos.
Peticiones de ejemplo
En los siguientes ejemplos se muestran los tipos de peticiones que puedes usar con el agente de ciencia de datos.
Regiones disponibles
Para ver las regiones admitidas de Data Science Agent de Colab Enterprise, consulta Ubicaciones.
Facturación
Durante la versión preliminar, solo se te cobrará por el código que se ejecute en el tiempo de ejecución del cuaderno. Para obtener más información, consulta los precios de Colab Enterprise.