Se usó la API de Cloud Translation para traducir esta página.

Usa el ajuste y la evaluación para mejorar el rendimiento de los modelos

En este documento, se muestra cómo crear un modelo remoto de BigQuery ML que hace referencia a un modelo gemini-1.5-flash-002 de Vertex AI. Luego, debes usar ajuste supervisado para ajustar el modelo con nuevos datos de entrenamiento, seguido de la evaluación del modelo con la función ML.EVALUATE.

El ajuste puede ayudarte a abordar situaciones en las que necesitas personalizar el modelo alojado de Vertex AI, como cuando el comportamiento esperado del modelo es difícil de definir de forma concisa en un mensaje o cuando los mensajes no producen los resultados esperados de forma lo suficientemente coherente. El ajuste supervisado también influye en el modelo de las siguientes maneras:

Guía al modelo para que devuelva estilos de respuesta específicos, por ejemplo, ser más conciso o más detallado.
Enseña al modelo nuevos comportamientos, por ejemplo, responde a las instrucciones como un arquetipo específico.
Hace que el modelo se actualice con información nueva.

En este instructivo, el objetivo es que el modelo genere texto cuyo estilo y contenido se ajusten lo más posible al contenido de verdad fundamental proporcionado.

Permisos necesarios

Para crear una conexión, necesitas el siguiente rol de Identity and Access Management (IAM):
- roles/bigquery.connectionAdmin
Para otorgar permisos a la cuenta de servicio de la conexión, necesitas el siguiente permiso:
- resourcemanager.projects.setIamPolicy
Para crear el modelo con BigQuery ML, necesitas los siguientes permisos de IAM:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
- bigquery.models.updateMetadata
Para ejecutar inferencias, necesitas los siguientes permisos:
- bigquery.tables.getData en la tabla
- bigquery.models.getData en el modelo
- bigquery.jobs.create

Antes de comenzar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the BigQuery, BigQuery Connection, Vertex AI, and Compute Engine APIs.
Enable the APIs

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

BigQuery: You incur costs for the queries that you run in BigQuery.
BigQuery ML: You incur costs for the model that you create and the processing that you perform in BigQuery ML.
Vertex AI: You incur costs for calls to and supervised tuning of the gemini-1.0-flash-002 model.

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Para obtener más información, consulta los siguientes recursos:

Crea un conjunto de datos

Crea un conjunto de datos de BigQuery para almacenar tu modelo de AA.

Console

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a la página de BigQuery
En el panel Explorador, haz clic en el nombre de tu proyecto.
Haz clic en Ver acciones > Crear conjunto de datos.
En la página Crear conjunto de datos, haz lo siguiente:
- En ID del conjunto de datos, ingresa bqml_tutorial.
- En Tipo de ubicación, selecciona Multirregión y, luego, EE.UU. (varias regiones en Estados Unidos).
Los conjuntos de datos públicos se almacenan en la multirregión US. Para que sea más simple, almacena tu conjunto de datos en la misma ubicación.
- Deja la configuración predeterminada restante como está y haz clic en Crear conjunto de datos.

bq

Para crear un conjunto de datos nuevo, usa el comando bq mk con la marca --location. Para obtener una lista completa de los parámetros posibles, consulta la referencia del comando bq mk --dataset.

Crea un conjunto de datos llamado bqml_tutorial con la ubicación de los datos establecida en US y una descripción de BigQuery ML tutorial dataset:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
En lugar de usar la marca --dataset, el comando usa el acceso directo -d. Si omites -d y --dataset, el comando crea un conjunto de datos de manera predeterminada.
Confirma que se haya creado el conjunto de datos:
```
bq ls
```

API

Llama al método datasets.insert con un recurso de conjunto de datos definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Crear una conexión

Crea una conexión de recurso de Cloud y obtén el ID de la cuenta de servicio de la conexión. Crea la conexión en la misma ubicación que el conjunto de datos que creaste en el paso anterior.

Selecciona una de las siguientes opciones:

Console

Ve a la página de BigQuery.

Ir a BigQuery
Para crear una conexión, haz clic en Agregar y, luego, en Conexiones a fuentes de datos externas.
En la lista Tipo de conexión, selecciona Modelos remotos de Vertex AI, funciones remotas y BigLake (Cloud Resource).
En el campo ID de conexión, escribe un nombre para tu conexión.
Haz clic en Crear conexión (Create connection).
Haz clic en Ir a la conexión.
En el panel Información de conexión, copia el ID de la cuenta de servicio para usarlo en un paso posterior.

bq

En un entorno de línea de comandos, crea una conexión:
```
bq mk --connection --location=REGION --project_id=PROJECT_ID \
    --connection_type=CLOUD_RESOURCE CONNECTION_ID
```
El parámetro --project_id anula el proyecto predeterminado.

Reemplaza lo siguiente:
- REGION: tu región de conexión
- PROJECT_ID: El ID del proyecto de Google Cloud.
- CONNECTION_ID: Es un ID para tu conexión.
Cuando creas un recurso de conexión, BigQuery crea una cuenta de servicio del sistema única y la asocia con la conexión.

Solución de problemas: Si recibes el siguiente error de conexión, actualiza el SDK de Google Cloud:
```
Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
```

Recupera y copia el ID de cuenta de servicio para usarlo en un paso posterior:

bq show --connection PROJECT_ID.REGION.CONNECTION_ID

El resultado es similar a este:

name                          properties
1234.REGION.CONNECTION_ID     {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel.iam.gserviceaccount.com"}

Terraform

Usa el recurso google_bigquery_connection.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para bibliotecas cliente.

En el siguiente ejemplo, se crea una conexión de recursos de Cloud llamada my_cloud_resource_connection en la región US:


# This queries the provider for project information.
data "google_project" "default" {}

# This creates a cloud resource connection in the US region named my_cloud_resource_connection.
# Note: The cloud resource nested object has only one output field - serviceAccountId.
resource "google_bigquery_connection" "default" {
  connection_id = "my_cloud_resource_connection"
  project       = data.google_project.default.project_id
  location      = "US"
  cloud_resource {}
}

Para aplicar tu configuración de Terraform en un proyecto de Google Cloud, completa los pasos de las siguientes secciones.

Prepara Cloud Shell

Inicia Cloud Shell
Establece el proyecto de Google Cloud predeterminado en el que deseas aplicar tus configuraciones de Terraform.

Solo necesitas ejecutar este comando una vez por proyecto y puedes ejecutarlo en cualquier directorio.
```
export GOOGLE_CLOUD_PROJECT=PROJECT_ID
```
Las variables de entorno se anulan si configuras valores explícitos en el archivo de configuración de Terraform.

Prepara el directorio

Cada archivo de configuración de Terraform debe tener su propio directorio (también llamado módulo raíz).

En Cloud Shell, crea un directorio y un archivo nuevo dentro de ese directorio. El nombre del archivo debe tener la extensión .tf, por ejemplo, main.tf. En este instructivo, el archivo se denomina main.tf.
```
mkdir DIRECTORY && cd DIRECTORY && touch main.tf
```
Si sigues un instructivo, puedes copiar el código de muestra en cada sección o paso.

Copia el código de muestra en el main.tf recién creado.

De manera opcional, copia el código de GitHub. Esto se recomienda cuando el fragmento de Terraform es parte de una solución de extremo a extremo.
Revisa y modifica los parámetros de muestra que se aplicarán a tu entorno.
Guarda los cambios.
Inicializa Terraform. Solo debes hacerlo una vez por directorio.
```
terraform init
```
De manera opcional, incluye la opción -upgrade para usar la última versión del proveedor de Google:
```
terraform init -upgrade
```

Aplica los cambios

Revisa la configuración y verifica que los recursos que creará o actualizará Terraform coincidan con tus expectativas:
```
terraform plan
```
Corrige la configuración según sea necesario.
Para aplicar la configuración de Terraform, ejecuta el siguiente comando y, luego, escribe yes cuando se te solicite:
```
terraform apply
```
Espera hasta que Terraform muestre el mensaje “¡Aplicación completa!”.
Abre tu proyecto de Google Cloud para ver los resultados. En la consola de Google Cloud, navega a tus recursos en la IU para asegurarte de que Terraform los haya creado o actualizado.

Otorga acceso a la cuenta de servicio de la conexión

Otorga a tu cuenta de servicio el rol de agente de servicio de Vertex AI para que la cuenta de servicio pueda acceder a Vertex AI. Si no se otorga este rol, se produce un error. Selecciona una de las siguientes opciones:

Console

Ir a la página IAM y administración

Ir a IAM y administración
Haz clic en Otorgar acceso.

Se abre el cuadro de diálogo Agregar principales.
En el campo Principales nuevas, escribe el ID de la cuenta de servicio que copiaste antes.
Haga clic en Selecciona un rol.
En Filtro, escribe Vertex AI Service Agent y, luego, selecciona ese rol.
Haz clic en Guardar.

gcloud

Usa el comando gcloud projects add-iam-policy-binding:

gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/aiplatform.serviceAgent' --condition=None

Reemplaza lo siguiente:

PROJECT_NUMBER: Es el número de tu proyecto.
MEMBER: el ID de la cuenta de servicio que copiaste antes

La cuenta de servicio asociada con tu conexión es una instancia del agente de servicio de delegación de conexión de BigQuery, por lo que está bien asignarle un rol de agente de servicio.

Crea tablas de prueba

Crea tablas de datos de entrenamiento y evaluación basadas en el conjunto de datos públicos de task955_wiki_auto_style_transfer de Hugging Face.

Abre Cloud Shell.

En Cloud Shell, ejecuta los siguientes comandos para crear tablas de pruebas y datos de evaluación:

python3 -m pip install pandas pyarrow fsspec huggingface_hub

python3 -c "import pandas as pd; df_train = pd.read_parquet('hf://datasets/Lots-of-LoRAs/task955_wiki_auto_style_transfer/data/train-00000-of-00001.parquet').drop('id', axis=1); df_train['output'] = [x[0] for x in df_train['output']]; df_train.to_json('wiki_auto_style_transfer_train.jsonl', orient='records', lines=True);"

python3 -c "import pandas as pd; df_valid = pd.read_parquet('hf://datasets/Lots-of-LoRAs/task955_wiki_auto_style_transfer/data/valid-00000-of-00001.parquet').drop('id', axis=1); df_valid['output'] = [x[0] for x in df_valid['output']]; df_valid.to_json('wiki_auto_style_transfer_valid.jsonl', orient='records', lines=True);"

bq rm -t bqml_tutorial.wiki_auto_style_transfer_train

bq rm -t bqml_tutorial.wiki_auto_style_transfer_valid

bq load --source_format=NEWLINE_DELIMITED_JSON bqml_tutorial.wiki_auto_style_transfer_train wiki_auto_style_transfer_train.jsonl input:STRING,output:STRING

bq load --source_format=NEWLINE_DELIMITED_JSON bqml_tutorial.wiki_auto_style_transfer_valid wiki_auto_style_transfer_valid.jsonl input:STRING,output:STRING

Crea un modelo de referencia

Crea un modelo remoto sobre el modelo gemini-1.0-flash-002 de Vertex AI.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery
En el editor de consultas, ejecuta la siguiente declaración para crear un modelo remoto:
```
CREATE OR REPLACE MODEL `bqml_tutorial.gemini_baseline`
REMOTE WITH CONNECTION `LOCATION.CONNECTION_ID`
OPTIONS (ENDPOINT ='gemini-1.5-flash-002');
```
Reemplaza lo siguiente:
- LOCATION: la ubicación de la conexión.
- CONNECTION_ID: el ID de la conexión de BigQuery.
  Cuando veas los detalles de conexión en la consola de Google Cloud, el CONNECTION_ID es el valor en la última sección del ID de conexión completamente calificado que se muestra en ID de conexión, por ejemplo projects/myproject/locations/connection_location/connections/myconnection
La consulta tarda varios segundos en completarse, después de eso, el modelo gemini_baseline aparece en el conjunto de datos bqml_tutorial en el panel Explorador. Debido a que la consulta usa una declaración CREATE MODEL para crear un modelo, no hay resultados de consultas.

Verifica el rendimiento del modelo de referencia

Ejecuta la función ML.GENERATE_TEXT con el modelo remoto para ver cómo se desempeña en los datos de evaluación sin ningún ajuste.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery

En el editor de consultas, ejecuta la siguiente declaración:

SELECT ml_generate_text_llm_result, ground_truth
FROM
  ML.GENERATE_TEXT(
    MODEL `bqml_tutorial.gemini_baseline`,
    (
      SELECT
        input AS prompt, output AS ground_truth
      FROM `bqml_tutorial.wiki_auto_style_transfer_valid`
      LIMIT 10
    ),
    STRUCT(TRUE AS flatten_json_output));

Si examinas los datos de salida y comparas los valores ml_generate_text_llm_result y ground_truth, verás que, si bien el modelo de referencia genera texto que refleja con precisión los hechos proporcionados en el contenido de referencia, el estilo del texto es bastante diferente.

Evalúa el modelo de referencia

Para realizar una evaluación más detallada del rendimiento del modelo, usa la función ML.EVALUATE. Esta función calcula las métricas del modelo que miden la precisión y la calidad del texto generado para ver cómo se comparan las respuestas del modelo con las respuestas ideales.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery

En el editor de consultas, ejecuta la siguiente declaración:

SELECT *
FROM
  ML.EVALUATE(
    MODEL `bqml_tutorial.gemini_baseline`,
    (
      SELECT
        input AS input_text, output AS output_text
      FROM `bqml_tutorial.wiki_auto_style_transfer_valid`
    ),
    STRUCT('text_generation' AS task_type));

El resultado es similar al siguiente:

   +---------------------+---------------------+-------------------------------------------+--------------------------------------------+
   | bleu4_score         | rouge-l_precision   | rouge-l_recall      | rouge-l_f1_score    | evaluation_status                          |
   +---------------------+---------------------+---------------------+---------------------+--------------------------------------------+
   | 0.15289758194680161 | 0.24925921915413246 | 0.44622484204944518 | 0.30851122211104348 | {                                          |
   |                     |                     |                     |                     |  "num_successful_rows": 176,               |
   |                     |                     |                     |                     |  "num_total_rows": 176                     |
   |                     |                     |                     |                     | }                                          |
   +---------------------+---------------------+ --------------------+---------------------+--------------------------------------------+

Puedes ver que el rendimiento del modelo de referencia no es malo, pero la similitud del texto generado con la verdad fundamental es baja, según las métricas de evaluación. Esto indica que vale la pena realizar un ajuste supervisado para ver si puedes mejorar el rendimiento del modelo para este caso de uso.

Crea un modelo ajustado

Crea un modelo remoto muy similar al que creaste en Crear un modelo, pero esta vez especificando la cláusula AS SELECT para proporcionar los datos de entrenamiento para ajustar el modelo.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery
En el editor de consultas, ejecuta la siguiente declaración para crear un modelo remoto:
```
CREATE OR REPLACE MODEL `bqml_tutorial.gemini_tuned`
  REMOTE
    WITH CONNECTION `LOCATION.CONNECTION_ID`
  OPTIONS (
    endpoint = 'gemini-1.5-flash-002',
    max_iterations = 500,
    data_split_method = 'no_split')
AS
SELECT
  input AS prompt, output AS label
FROM `bqml_tutorial.wiki_auto_style_transfer_train`;
```
Reemplaza lo siguiente:
- LOCATION: la ubicación de la conexión.
- CONNECTION_ID: el ID de la conexión de BigQuery.
  Cuando veas los detalles de conexión en la consola de Google Cloud, el CONNECTION_ID es el valor en la última sección del ID de conexión completamente calificado que se muestra en ID de conexión, por ejemplo projects/myproject/locations/connection_location/connections/myconnection
La consulta tarda unos minutos en completarse, después de lo cual, el modelo gemini_tuned aparece en el conjunto de datos bqml_tutorial en el panel Explorador. Debido a que la consulta usa una declaración CREATE MODEL para crear un modelo, no hay resultados de consultas.

Verifica el rendimiento del modelo ajustado

Ejecuta la función ML.GENERATE_TEXT para ver el rendimiento del modelo ajustado en los datos de evaluación.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery

En el editor de consultas, ejecuta la siguiente declaración:

SELECT ml_generate_text_llm_result, ground_truth
FROM
  ML.GENERATE_TEXT(
    MODEL `bqml_tutorial.gemini_tuned`,
    (
      SELECT
        input AS prompt, output AS ground_truth
      FROM `bqml_tutorial.wiki_auto_style_transfer_valid`
      LIMIT 10
    ),
    STRUCT(TRUE AS flatten_json_output));

Si examinas los datos de salida, verás que el modelo ajustado produce texto que es mucho más similar en estilo al contenido de la verdad fundamental.

Evalúa el modelo ajustado

Usa la función ML.EVALUATE para ver cómo se comparan las respuestas del modelo ajustado con las respuestas ideales.

En la consola de Google Cloud, ve a la página de BigQuery.

Ir a BigQuery

En el editor de consultas, ejecuta la siguiente declaración:

SELECT *
FROM
  ML.EVALUATE(
    MODEL `bqml_tutorial.gemini_tuned`,
    (
      SELECT
        input AS prompt, output AS label
      FROM `bqml_tutorial.wiki_auto_style_transfer_valid`
    ),
    STRUCT('text_generation' AS task_type));

El resultado es similar al siguiente:

   +---------------------+---------------------+-------------------------------------------+--------------------------------------------+
   | bleu4_score         | rouge-l_precision   | rouge-l_recall      | rouge-l_f1_score    | evaluation_status                          |
   +---------------------+---------------------+---------------------+---------------------+--------------------------------------------+
   | 0.19391708685890585 | 0.34170970869469058 | 0.46793189219384496 | 0.368190192211538   | {                                          |
   |                     |                     |                     |                     |  "num_successful_rows": 176,               |
   |                     |                     |                     |                     |  "num_total_rows": 176                     |
   |                     |                     |                     |                     | }                                          |
   +---------------------+---------------------+ --------------------+---------------------+--------------------------------------------+

Puedes ver que, aunque el conjunto de datos de entrenamiento usó solo 1,408 ejemplos, hay una mejora notoria en el rendimiento, como lo indican las métricas de evaluación más altas.

Limpia

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo en el proyecto. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los ID personalizados de proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID del proyecto personalizado que desees utilizar en el futuro. Para conservar las URL que utilizan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto en lugar de borrar todo el proyecto.

Si planeas explorar varias infraestructuras, instructivos y guías de inicio rápido la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.