Genera incorporamenti di testo utilizzando un modello aperto e la funzione ML.GENERATE_EMBEDDING

Questo tutorial mostra come creare un modello remoto basato sul modello di incorporamento di testo open source Qwen3-Embedding-0.6B, e poi come utilizzare questo modello con la funzione ML.GENERATE_EMBEDDING per incorporare le recensioni di film dalla tabella pubblica bigquery-public-data.imdb.reviews.

Autorizzazioni obbligatorie

Per eseguire questo tutorial, devi disporre dei seguenti ruoli IAM (Identity and Access Management):

  • Crea e utilizza set di dati, connessioni e modelli BigQuery: Amministratore BigQuery (roles/bigquery.admin).
  • Concedi le autorizzazioni al account di servizio della connessione: Project IAM Admin (roles/resourcemanager.projectIamAdmin).
  • Esegui il deployment e l'annullamento del deployment dei modelli in Vertex AI: Vertex AI Administrator (roles/aiplatform.admin).

Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire le attività descritte in questo documento. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

  • Crea un set di dati: bigquery.datasets.create
  • Crea, delega e utilizza una connessione: bigquery.connections.*
  • Imposta la connessione predefinita: bigquery.config.*
  • Imposta le autorizzazioni dell'account di servizio: resourcemanager.projects.getIamPolicy e resourcemanager.projects.setIamPolicy
  • Esegui il deployment e l'undeployment di un modello Vertex AI:
    • aiplatform.endpoints.deploy
    • aiplatform.endpoints.undeploy
  • Crea un modello ed esegui l'inferenza:
    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.models.updateMetadata

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

  • BigQuery ML: You incur costs for the data that you process in BigQuery.
  • Vertex AI: You incur costs for calls to the Vertex AI model that's represented by the remote model.

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova senza costi.

Per ulteriori informazioni sui prezzi di BigQuery, consulta la sezione Prezzi di BigQuery nella documentazione di BigQuery.

I modelli aperti di cui esegui il deployment su Vertex AI vengono addebitati per ora macchina. Ciò significa che la fatturazione inizia non appena l'endpoint è completamente configurato e continua fino a quando non lo annulli. Per saperne di più sui prezzi di Vertex AI, consulta la pagina Prezzi di Vertex AI.

Prima di iniziare

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery, BigQuery Connection, and Vertex AI APIs.

    Enable the APIs

Esegui il deployment di un modello Qwen3-Embedding-0.6B su Vertex AI

Esegui il deployment del Qwen/Qwen3-Embedding-0.6B modello da Hugging Face a Vertex AI, seguendo le istruzioni riportate in Eseguire il deployment dei modelli Hugging Face. Durante il deployment, devi selezionare Pubblico (endpoint condiviso) come valore per il campo Accesso all'endpoint nel flusso di lavoro di deployment.

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML.

Console

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai alla pagina BigQuery

  2. Nel riquadro Explorer, fai clic sul nome del progetto.

  3. Fai clic su Visualizza azioni > Crea set di dati.

  4. Nella pagina Crea set di dati:

    • In ID set di dati, inserisci bqml_tutorial.

    • Per Tipo di località, seleziona Multi-regione e poi Stati Uniti (più regioni negli Stati Uniti).

    • Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

bq

Per creare un nuovo set di dati, utilizza il comando bq mk con il flag --location. Per un elenco completo dei possibili parametri, consulta la documentazione di riferimento del comando bq mk --dataset.

  1. Crea un set di dati denominato bqml_tutorial con la località dei dati impostata su US e una descrizione di BigQuery ML tutorial dataset:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Anziché utilizzare il flag --dataset, il comando utilizza la scorciatoia -d. Se ometti -d e --dataset, il comando crea per impostazione predefinita un dataset.

  2. Verifica che il set di dati sia stato creato:

    bq ls

API

Chiama il metodo datasets.insert con una risorsa dataset definita.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Prima di provare questo esempio, segui le istruzioni di configurazione di BigQuery DataFrames nella guida rapida di BigQuery che utilizza BigQuery DataFrames. Per ulteriori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Crea il modello remoto

Crea un modello remoto che rappresenti un modello Vertex AI ospitato:

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente istruzione:

CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model`
REMOTE WITH CONNECTION DEFAULT
OPTIONS (ENDPOINT = 'https://ENDPOINT_REGION-aiplatform.googleapis.com/v1/projects/ENDPOINT_PROJECT_ID/locations/ENDPOINT_REGION/endpoints/ENDPOINT_ID');

Sostituisci quanto segue:

  • ENDPOINT_REGION: la regione in cui viene eseguito il deployment del modello aperto.
  • ENDPOINT_PROJECT_ID: il progetto in cui viene deployato il modello aperto.
  • ENDPOINT_ID: l'ID dell'endpoint HTTPS utilizzato dal modello aperto. Puoi ottenere l'ID endpoint individuando il modello aperto nella pagina Previsione online e copiando il valore nel campo ID.

L'esempio seguente mostra il formato di un endpoint HTTP valido:

https://us-central1-aiplatform.googleapis.com/v1/projects/myproject/locations/us-central1/endpoints/1234.

Il completamento della query richiede diversi secondi, dopodiché il modello qwen3_embedding_model viene visualizzato nel set di dati bqml_tutorial nel riquadro Explorer. Poiché la query utilizza un'istruzione CREATE MODEL per creare un modello, non sono presenti risultati della query.

Eseguire l'incorporamento del testo

Esegui l'incorporamento di testo sulle recensioni dei film IMDB utilizzando il modello remoto e la funzione ML.GENERATE_EMBEDDING:

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, inserisci la seguente istruzione per eseguire l'incorporamento di testo su cinque recensioni di film:

    SELECT
      *
    FROM
      ML.GENERATE_EMBEDDING(
        MODEL `bqml_tutorial.qwen3_embedding_model`,
        (
          SELECT
            review AS content,
            *
          FROM
            `bigquery-public-data.imdb.reviews`
          LIMIT 5
        )
      );

    I risultati includono le seguenti colonne:

    • ml_generate_embedding_result: un array di numeri double per rappresentare gli incorporamenti generati.
    • ml_generate_embedding_status: lo stato della risposta dell'API per la riga corrispondente. Se l'operazione è andata a buon fine, questo valore è vuoto.
    • content: il testo di input da cui estrarre gli incorporamenti.
    • Tutte le colonne della tabella bigquery-public-data.imdb.reviews.

Annulla il deployment del modello

Se scegli di non eliminare il progetto come consigliato, assicurati di annullare il deployment del modello di incorporamento Qwen3 in Vertex AI per evitare addebiti continui.

Esegui la pulizia

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi