Usa el agente de ciencia de datos de Colab Enterprise con BigQuery

El agente de ciencia de datos (DSA) para Colab Enterprise y BigQuery te permite automatizar el análisis exploratorio de datos, realizar tareas de aprendizaje automático y proporcionar estadísticas, todo dentro de un notebook de Colab Enterprise.

Antes de comenzar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Para los proyectos nuevos, la API de BigQuery se habilita de forma automática.

Si es la primera vez que usas Colab Enterprise en BigQuery, consulta los pasos de configuración en la página Crea notebooks.

Limitaciones

El agente de ciencia de datos admite las siguientes fuentes de datos:
- Archivos CSV
- Tablas de BigQuery
El código que genera Data Science Agent solo se ejecuta en el tiempo de ejecución de tu notebook.
El agente de ciencia de datos no es compatible con los proyectos en los que se habilitaron los Controles del servicio de VPC.
La búsqueda de tablas de BigQuery con la función @mention se limita a tu proyecto actual. Usa el selector de tablas para buscar en todos los proyectos.
La función @mention solo busca tablas de BigQuery. Para buscar archivos de datos que puedes subir, usa el símbolo +.
PySpark en Data Science Agent solo genera código de Serverless para Apache Spark 4.0. El DSA puede ayudarte a actualizar a Serverless para Apache Spark 4.0, pero los usuarios que requieran versiones anteriores no deben usar el agente de ciencia de datos.

Cuándo usar Data Science Agent

El agente de ciencia de datos te ayuda con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar la DSA para lo siguiente:

Procesamiento de datos a gran escala: Usa BigQuery ML, BigQuery DataFrames o Serverless para Apache Spark para realizar el procesamiento de datos distribuidos en conjuntos de datos grandes. Esto te permite limpiar, transformar y analizar de manera eficiente datos que son demasiado grandes para caber en la memoria de una sola máquina.
Generación de un plan: Genera y modifica un plan para completar una tarea en particular con herramientas comunes, como Python, SQL, Serverless para Apache Spark y BigQuery DataFrames.
Exploración de datos: Explora un conjunto de datos para comprender su estructura, identificar posibles problemas, como valores faltantes y valores atípicos, y examina la distribución de variables clave con Python o SQL.
Limpieza de datos: Limpia tus datos. Por ejemplo, quita los datos que son valores atípicos.
Organización de datos: Convierte las características categóricas en representaciones numéricas con técnicas como la codificación one-hot o la codificación de etiquetas, o bien con las herramientas de transformación de características de BigQuery ML. Crea nuevas funciones para el análisis.
Análisis de datos: Analiza las relaciones entre diferentes variables. Calcula las correlaciones entre los atributos numéricos y explora las distribuciones de los atributos categóricos. Busca patrones y tendencias en los datos.
Visualización de datos: Crea visualizaciones, como histogramas, diagramas de cajas, diagramas de dispersión y gráficos de barras, que representen las distribuciones de variables individuales y las relaciones entre ellas. También puedes crear visualizaciones en Python para las tablas almacenadas en BigQuery.
Ingeniería de atributos: Diseña atributos nuevos a partir de un conjunto de datos limpio.
División de datos: Divide un conjunto de datos diseñado en conjuntos de datos de entrenamiento, validación y prueba.
Entrenamiento del modelo: Entrena un modelo con los datos de entrenamiento en un DataFrame de pandas (X_train, y_train), BigQuery DataFrames, un DataFrame de PySpark o con la declaración CREATE MODEL de BigQuery ML con tablas de BigQuery.
Optimización del modelo: Optimiza un modelo con el conjunto de validación. Explora modelos alternativos, como DecisionTreeRegressor y RandomForestRegressor, y compara su rendimiento.
Evaluación del modelo: Evalúa el rendimiento del modelo en un conjunto de datos de prueba con un DataFrame de pandas, un DataFrame de BigQuery o un DataFrame de PySpark. También puedes evaluar la calidad del modelo y compararlos con las funciones de evaluación de modelos de BigQuery ML para los modelos entrenados con BigQuery ML.
Inferencia del modelo: Realiza inferencias con modelos entrenados de BigQuery ML, modelos importados y modelos remotos usando las funciones de inferencia de BigQuery ML. También puedes usar el método model.predict() de BigFrames o los transformadores de PySpark para realizar predicciones.

Usa Data Science Agent en BigQuery

En los siguientes pasos, se muestra cómo usar el Agente de ciencia de datos en BigQuery.

Crea o abre un notebook de Colab Enterprise.
Haz referencia a tus datos de una de las siguientes maneras:
- Sube un archivo CSV o usa el símbolo + en tu instrucción para buscar archivos disponibles.
- Elige una o más tablas de BigQuery en el selector de tablas de tu proyecto actual o de otros proyectos a los que tengas acceso.
- Haz referencia a un nombre de tabla de BigQuery en tu instrucción con este formato: project_id:dataset.table
- Escribe el símbolo @ para buscar un nombre de tabla de BigQuery con la función @mention.
Ingresa una instrucción que describa el análisis de datos que deseas realizar o el prototipo que quieres compilar. El comportamiento predeterminado del Agente de ciencia de datos es generar código de Python con bibliotecas de código abierto, como sklearn, para realizar tareas complejas de aprendizaje automático. Para usar una herramienta específica, incluye las siguientes palabras clave en tu instrucción:
- Si quieres usar BigQuery ML, incluye la palabra clave "SQL".
- Si deseas usar "BigQuery DataFrames", especifica las palabras clave "BigFrames" o "BigQuery DataFrames".
- Si deseas usar PySpark, incluye las palabras clave "Apache Spark" o "PySpark".
Para obtener ayuda, consulta los prompts de muestra.
Analiza los resultados.

Analiza un archivo CSV

Para analizar un archivo CSV con el Agente de ciencia de datos en BigQuery, sigue estos pasos.

Ve a la página de BigQuery.

Ir a BigQuery
En la página de bienvenida de BigQuery Studio, en Crear nuevo, haz clic en Notebook.

También puedes hacer clic en la flecha desplegable junto al ícono + en la barra de pestañas y, luego, en Notebook > Notebook vacío.
En la barra de herramientas, haz clic en el botón spark Alternar Gemini para abrir el diálogo de chat.

Nota: Puedes mover el diálogo de chat a un panel separado fuera del notebook haciendo clic en el ícono Mover al panel.
Sube tu archivo CSV.
1. En el diálogo de chat, haz clic en Agregar a Gemini > Subir.
2. Si es necesario, autoriza tu Cuenta de Google.
3. Navega hasta la ubicación del archivo CSV y, luego, haz clic en Abrir.
También puedes escribir el símbolo + en la instrucción para buscar los archivos disponibles que puedes subir.
Ingresa tu instrucción en la ventana de chat. Por ejemplo: Identify trends and anomalies in this file.
Haz clic en Enviar. Los resultados aparecerán en la ventana del chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Haz clic en Cancelar para detener la acción.

Analiza tablas de BigQuery

Para analizar una tabla de BigQuery, elige una o más tablas en el selector de tablas, proporciona una referencia a la tabla en tu instrucción o busca una tabla con el símbolo @.

Ve a la página de BigQuery.

Ir a BigQuery
En la página de bienvenida de BigQuery Studio, en Crear nuevo, haz clic en Notebook.

También puedes hacer clic en la flecha desplegable junto al ícono + en la barra de pestañas y, luego, en Notebook > Notebook vacío.
En la barra de herramientas, haz clic en el botón spark Alternar Gemini para abrir el diálogo de chat.

Nota: Puedes mover el diálogo de chat a un panel separado fuera del notebook haciendo clic en el ícono Mover al panel.
Ingresa tu instrucción en la ventana de chat.
Haz referencia a tus datos de una de las siguientes maneras:
1. Elige una o más tablas con el selector de tablas:
  1. Haz clic en Agregar a Gemini > Tablas de BigQuery.
  2. En la ventana Tablas de BigQuery, selecciona una o más tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas con la barra de búsqueda.
2. Incluye el nombre de una tabla de BigQuery directamente en tu instrucción. Por ejemplo: "Ayúdame a realizar un análisis exploratorio de datos y obtener estadísticas sobre los datos de esta tabla: project_id:dataset.table".
  
  Reemplaza lo siguiente:
  - project_id: El ID de tu proyecto
  - dataset: Es el nombre del conjunto de datos que contiene la tabla que analizas.
  - table: Es el nombre de la tabla que analizas.
3. Escribe @ para buscar una tabla de BigQuery en tu proyecto actual.
Haz clic en Enviar.

Los resultados aparecerán en la ventana del chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Para los pasos adicionales del plan, es posible que debas volver a hacer clic en Aceptar y ejecutar. Haz clic en Cancelar para detener la acción.

Ejemplos de instrucciones

Independientemente de la complejidad de la instrucción que uses, Data Science Agent generará un plan que puedes definir mejor para satisfacer tus necesidades.

En los siguientes ejemplos, se muestran los tipos de instrucciones que puedes usar con la DSA.

Instrucciones de Python

De forma predeterminada, se genera código en Python, a menos que uses una palabra clave específica en la instrucción, como "BigQuery ML" o "SQL".

Investiga y completa los valores faltantes con el algoritmo de aprendizaje automático de k-vecinos más cercanos (KNN).
Crea un gráfico del salario por nivel de experiencia. Usa la columna experience_level para agrupar los salarios y crear un diagrama de caja para cada grupo que muestre los valores de la columna salary_in_usd.
Usa el algoritmo XGBoost para crear un modelo que determine la variable class de una fruta en particular. Divide los datos en conjuntos de datos de entrenamiento y prueba para generar un modelo y determinar su precisión. Crea una matriz de confusión para mostrar las predicciones entre cada clase, incluidas todas las predicciones correctas e incorrectas.
Pronóstico de target_variable desde filename.csv para los próximos seis meses.

Instrucciones de SQL y BigQuery ML

Crea y evalúa un modelo de clasificación en bigquery-public-data.ml_datasets.census_adult_income con BigQuery SQL.
Con SQL, prevé el tráfico futuro de mi sitio web para el próximo mes según bigquery-public-data.google_analytics_sample.ga_sessions_*. Luego, genera un gráfico con los valores históricos y los valores previstos.
Agrupa a los clientes similares para crear campañas de mercado segmentadas con un modelo de KMeans y funciones de SQL de BigQuery ML. Usa tres atributos para la agrupación. Luego, visualiza los resultados creando una serie de diagramas de dispersión en 2D. Usa la tabla bigquery-public-data.ml_datasets.census_adult_income.
Genera incorporaciones de texto en BigQuery ML con el contenido de las opiniones en bigquery-public-data.imdb.reviews.

Para obtener una lista de los modelos y las tareas de aprendizaje automático compatibles, consulta la documentación de BigQuery ML.

Instrucciones de DataFrame

Crea un DataFrame de Pandas para los datos en project_id:dataset.table. Analiza los datos en busca de valores nulos y, luego, genera un gráfico de la distribución de cada columna con el tipo de gráfico. Usa gráficos de violín para los valores medidos y gráficos de barras para las categorías.
Lee filename.csv y construye un DataFrame. Ejecuta un análisis en el DataFrame para determinar qué se debe hacer con los valores. Por ejemplo, ¿hay valores faltantes que se deben reemplazar o quitar, o hay filas duplicadas que se deben abordar? Usa el archivo de datos para determinar la distribución del dinero invertido en USD por ubicación de la ciudad. Crea un gráfico de barras con los 20 resultados principales que muestre los resultados en orden descendente como ubicación en comparación con la inversión promedio (USD).
Crea y evalúa un modelo de clasificación en project_id:dataset.table con DataFrames de BigQuery.
Crea un modelo de previsión de series temporales en project_id:dataset.table con DataFrames de BigQuery y visualiza las evaluaciones del modelo.
Visualiza las cifras de ventas del año anterior en la tabla project_id:dataset.table de BigQuery con BigQuery DataFrames.
Encuentra los atributos que mejor pueden predecir la especie de pingüino de la tabla bigquery-public_data.ml_datasets.penguins con BigQuery DataFrames.

Instrucciones de PySpark

Crea y evalúa un modelo de clasificación en project_id:dataset.table con Serverless para Apache Spark.
Agrupa a los clientes similares para crear campañas de mercado segmentadas, pero primero realiza una reducción de la dimensionalidad con un modelo de PCA. Usa PySpark para hacerlo en la tabla project_id:dataset.table.

Cómo desactivar Gemini in BigQuery

Para desactivar Gemini en BigQuery en un Google Cloud proyecto, un administrador debe desactivar la API de Gemini para Google Cloud. Consulta Inhabilita servicios.

Para desactivar Gemini en BigQuery para un usuario específico, un administrador debe revocar el rol de Usuario de Gemini para Google Cloud (roles/cloudaicompanion.user) de ese usuario. Consulta Revoca un solo rol de IAM.

Precios

Durante la versión preliminar, se te cobrará por ejecutar código en el tiempo de ejecución del notebook y por las ranuras de BigQuery que hayas usado. Para obtener más información, consulta los precios de Colab Enterprise.

Regiones admitidas

Para ver las regiones compatibles con el agente de ciencia de datos de Colab Enterprise, consulta Ubicaciones.