Questa pagina è stata tradotta dall'API Cloud Translation.

Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma

Autopilot Standard

Questo tutorial mostra come ricavare approfondimenti da set di dati di grandi dimensioni utilizzando BigQuery, Cloud Run e Gemma LLM. In questo tutorial, eseguirai il deployment di un'applicazione di esempio in Google Kubernetes Engine (GKE). L'app di esempio sfrutta BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e il modello LLM Gemma per analizzare i dati e generare predizioni in base ai prompt in arrivo.

Questo tutorial è rivolto ad amministratori e architetti della piattaforma cloud, specialisti di dati e IA, ML engineer e professionisti MLOps (DevOps). Prima di leggere questa pagina, assicurati di conoscere Kubernetes e un ambiente di notebook come Jupyter.

Come prerequisito per questo tutorial, devi completare il tutorial Pubblicare modelli aperti di Gemma utilizzando GPU su GKE con TGI di Hugging Face. Il framework TGI semplifica la procedura di pubblicazione dei modelli.

Perché GKE e BigQuery

BigQuery è un data warehouse serverless e completamente gestito come servizio PaaS (Platform as a Service) che consente l'analisi scalabile di petabyte di dati. BigQuery consente di concentrarsi sull'analisi dei dati per trovare informazioni significative, utilizzando SQL familiare e il machine learning integrato.

Utilizzando le GPU su GKE con TGI, puoi eseguire il deployment di un modello linguistico Gemma per analizzare e riassumere le interazioni degli utenti in linguaggio naturale. Successivamente, integrando BigQuery con GKE, puoi utilizzare BigQuery per gestire in modo efficiente set di dati di grandi dimensioni (come Google Analytics) e le funzionalità di comprensione del linguaggio naturale del modello per generare informazioni significative.

Ad esempio, in qualità di data scientist o analista o di responsabile delle decisioni aziendali in un'azienda di e-commerce, potresti voler comprendere il comportamento degli utenti sul tuo sito web o nella tua app. Queste informazioni possono aiutarti a ottimizzare e personalizzare i percorsi degli utenti e a prendere decisioni aziendali consapevoli per aumentare le vendite.

In questo scenario, puoi estrarre i dati non elaborati di Google Analytics da BigQuery, alimentarli con il modello Gemma e ricevere riepiloghi e approfondimenti sulle visite alle pagine in linguaggio naturale. Il modello Gemma, che funziona su un'infrastruttura scalabile con accelerazione GPU di GKE, elabora rapidamente i dati sul percorso dell'utente, identificando schemi e tendenze. Potresti ottenere informazioni per individuare le combinazioni di prodotti più apprezzate, rivelare i punti di abbandono comuni nella procedura di pagamento ed evidenziare le campagne di marketing di successo che indirizzano il traffico a pagine di destinazione specifiche.

Vantaggi

Questa soluzione offre un flusso di lavoro semplificato con i seguenti vantaggi:

Integrazione di BigQuery: utilizza BigQuery per archiviare ed elaborare set di dati di grandi dimensioni (come i dati di Google Analytics in questo tutorial). In questo modo puoi eseguire query e aggregare i dati necessari per l'analisi del modello.
Accelerazione GPU: esegui il modello Gemma su un cluster GKE con supporto GPU per velocizzare il processo di inferenza, generando previsioni molto più rapidamente rispetto ai processori basati su CPU.
Riduzione dei costi e dei tempi: risparmia tempo e risorse utilizzando il modello linguistico Gemma preaddestrato e open source, eliminando la necessità di creare un modello personalizzato da zero.

Obiettivi

In questo tutorial imparerai a:

Esegui il deployment del modello ed esponilo: crea un file YAML del servizio per definire un bilanciatore del carico interno per accedere al modello Gemma.
Crea una funzione remota BigQuery: esegui il codice Python per definire una funzione remota che acquisisce i dati di Google Analytics, crea prompt per il modello, invia richieste all'endpoint del modello utilizzando il bilanciatore del carico e restituisce la risposta del modello.
Configura la rete Virtual Private Cloud (VPC): configura una rete VPC e un connettore VPC per abilitare la comunicazione sicura tra BigQuery e il cluster GKE. Questo è fondamentale per consentire alla funzione remota di accedere all'endpoint del modello.
Analizza i dati: analizza i dati utilizzando i DataFrame di BigQuery o direttamente in SQL utilizzando lo strumento a riga di comando bq. Esegui gli snippet di codice forniti in un notebook Colab Enterprise per:
- Esegui query sui dati di Google Analytics da BigQuery utilizzando SQL.
- Applica la funzione remota ai dati per generare approfondimenti dal modello Gemma.
- Visualizza i risultati.

Architettura

Il seguente diagramma dell'architettura mostra i componenti coinvolti e il modo in cui interagiscono:

Architettura di analisi dei dati

Utilizza un notebook Colab Enterprise per eseguire il codice Python. Con Python, puoi utilizzare la libreria bigframes per semplificare le interazioni con SQL.
BigQuery funge da motore di elaborazione dei big data, consentendo l'utilizzo di SQL per interagire con i dati.
La funzione remota richiama una funzione Cloud Run. I dati vengono instradati automaticamente alla funzione remota, dove vengono preparati e inviati a GKE per l'inferenza.
I risultati vengono inviati nuovamente a BigQuery e visualizzati in una tabella.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Al termine delle attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la sezione Pulizia.

Prima di iniziare

Assicurati di completare i seguenti prerequisiti:

Seleziona o crea un progetto

Per questo tutorial puoi utilizzare un progetto esistente o crearne uno nuovo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Abilita le API

Enable the Artifact Registry, Compute Engine, GKE, IAM Service Account Credentials, Cloud Functions, Cloud Build, Cloud Run Admin, Cloud Logging, Serverless VPC Access, BigQuery, Dataform, Vertex AI APIs.

Enable the APIs

Configura Cloud Shell

In questo tutorial utilizzerai Cloud Shell per eseguire i comandi gcloud e kubectl. Cloud Shell è un ambiente shell per la gestione delle risorse ospitate su Google Cloud. È preinstallato con lo strumento a riga di comando Google Cloud CLI e kubectl.

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

Una sessione di Cloud Shell si apre in un frame nella parte inferiore della console.

Prima di eseguire i comandi in questo tutorial, assicurati che il progetto predefinito sia impostato sull'ID progetto in cui vuoi eseguire il deployment dell'app di esempio. Se non è già impostato, esegui il seguente comando in Cloud Shell:

gcloud config set project PROJECT_ID

Sostituisci PROJECT_ID con il tuo ID progetto.

Concedi ruoli IAM

Assicurati che il tuo account utente e l'account di servizio predefinito di Compute Engine nel progetto dispongano dei ruoli IAM (Identity and Access Management) necessari per questo tutorial.

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/aiplatform.colabEnterpriseAdmin, roles/run.invoker, roles/container.admin, roles/iam.serviceAccountAdmin, roles/logging.logWriter

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Concedi i ruoli all'account di servizio predefinito di Compute Engine. Esegui il seguente comando una volta per ciascuno dei seguenti ruoli IAM: roles/logging.logWriter, roles/artifactregistry.writer, roles/storage.objectViewer

gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com" --role=ROLE

Sostituisci PROJECT_ID con l'ID progetto.
Sostituisci PROJECT_NUMBER con il numero del tuo progetto per creare il dominio dell'account di servizio predefinito di Compute Engine per il tuo progetto. Ad esempio, 123456789012-compute@developer.gserviceaccount.com.
Sostituisci ROLE con ogni singolo ruolo.

Pubblicare un modello Gemma

Consulta il tutorial Pubblicare modelli aperti di Gemma utilizzando GPU su GKE con TGI di Hugging Face e segui le istruzioni da Prima di iniziare a Interagire con il modello utilizzando curl per assicurarti che il modello Gemma sia implementato correttamente e che tu possa interagire con esso.

Ai fini di questo tutorial, esegui il deployment del modello Gemma 2B-it.

Configura la rete VPC

Crea o utilizza la rete VPC nella regione us-central1 in modo che la funzione remota possa connettersi al cluster GKE. In questo tutorial, utilizza la VPC Default.

Per assicurarti che il set di dati BigQuery, la funzione remota e le funzioni Cloud Run sottostanti vengano di cui vengono eseguiti il deployment in posizioni compatibili, la rete VPC deve trovarsi nella stessa regione della funzione remota BigQuery. In questo tutorial, quando imposti le opzioni dei dataframe BigQuery durante la creazione di una funzione remota, specifichi US come posizione per il set di dati, che per impostazione predefinita corrisponde alla regione us-central1 per le funzioni Cloud Run. Pertanto, crea o utilizza il VPC nella regione us-central1.

Crea un bilanciatore del carico

Segui queste istruzioni per creare un bilanciatore del carico interno nel tuo cluster GKE:

Crea il seguente manifest tgi-2b-lb-service.yaml:

apiVersion: v1
kind: Service
metadata:
name: llm-lb-service
annotations:
    networking.gke.io/load-balancer-type: "Internal"
spec:
selector:
  app: gemma-server
type: LoadBalancer
ports:
- protocol: TCP
  port: 8000
  targetPort: 8000

Apri un nuovo terminale Cloud Shell ed esegui il comando seguente per applicare il manifest:
```
kubectl apply -f tgi-2b-lb-service.yaml
```
Ottieni l'indirizzo IP del bilanciatore del carico. Potresti dover attendere 1-2 minuti prima che questo indirizzo IP possa essere recuperato:
```
kubectl get service llm-lb-service --output yaml | grep ip:
```

Utilizzerai questo indirizzo IP per comunicare con l'applicazione gemma-server in esecuzione dietro il bilanciatore del carico.

Crea connettore

Utilizzi un connettore di accesso VPC serverless per inviare e ricevere richieste tramite la rete VPC senza utilizzare la rete internet pubblica. Per ulteriori informazioni, consulta Accesso VPC serverless.

In questo tutorial crei un connettore con una nuova subnet dedicata per evitare conflitti di indirizzi IP con le risorse esistenti nella VPC. Per istruzioni, consulta la sezione Creare un connettore e segui le istruzioni gcloud per la sezione Creare un connettore e una nuova subnet.

In alternativa, se vuoi utilizzare una subnet esistente, segui le istruzioni riportate nella sezione Creare un connettore utilizzando una subnet esistente.

Per ulteriori informazioni, consulta i requisiti della sottorete del connettore.

Crea un blocco note

In questo tutorial utilizzi un notebook Colab Enterprise per eseguire tutto il codice per definire la funzione remota BigQuery ed eseguire l'analisi.

Per creare un notebook Colab Enterprise utilizzando la console Google Cloud:

Nella console Google Cloud, vai alla pagina Blocchi note di Colab Enterprise:

Vai a Notebooks
Nel menu Regione, seleziona us-central1. Si tratta della stessa regione in cui hai creato tutti i servizi in questo tutorial.
Accanto a File, fai clic su Crea un notebook.

Il nuovo notebook viene visualizzato nella scheda I miei notebook.

Per eseguire il codice nel nuovo notebook, inserisci una nuova cella di codice per ogni comando o snippet di codice che vuoi eseguire.

Creare una funzione remota BigQuery

Uno dei modi per definire una funzione remota di BigQuery è utilizzare la libreria bigframes. In questa sezione, utilizza bigframes per creare una funzione remota chiamata process_incoming. Questa funzione remota prende i dati di Google Analytics come input, crea un prompt e lo invia al modello Gemma per l'analisi.

Nel notebook di Colab Enterprise che hai creato:

Fai clic su + Codice per inserire una nuova cella di codice.

Copia il seguente codice nella nuova cella di codice:

# Install the necessary packages on the notebook runtime
%pip install --upgrade bigframes --quiet

import bigframes.pandas as bpd
import os
import ast
import requests

# Replace the following  variables
# Use the format ip:port
# For example, "10.128.05:8000"
lb_url = "LOADBALANCER_IP_ADDRESS:8000"

# Set BigQuery DataFrames options
bpd.options.bigquery.project = "PROJECT_ID"
bpd.options.bigquery.location = "US"
# Update the VPC connector name with the one you created
vpc_connector_name = "VPC_CONNECTOR_NAME"

# Create a remote function using bigframes
# https://cloud.google.com/bigquery/docs/remote-functions#bigquery-dataframes

@bpd.remote_function(
  [str],
  str,
  dataset="ga_demo",
  name="ga_explain_example",
  bigquery_connection="bigframes-rf-conn",
  reuse=True,
  packages=["requests"],
  cloud_function_vpc_connector=VPC_CONNECTOR_NAME

)
def process_incoming(data):
  ga_data = ast.literal_eval(data)
  USER_PROMPT = """
      'The following are the results from Google Analytics.
      They are reverse ranked.
      reverse_event_number 1 is the last page visited.
      reverse_event_number 2 is the second last page visited.
      You are given the following data.
      {}
      Can you summarize what was the most popular page people landed on and what page they came from?
  """.format(ga_data)

  url = 'http://{}/generate'.format(lb_url)

  myobj = {
      "inputs": USER_PROMPT,
      "temperature": 0.90,
      "top_p": 0.95,
      "max_tokens": 2048
  }
  x = requests.post(url, json=myobj)
  result = x.text
  return (result)

function_name = process_incoming.bigframes_remote_function
print (f"The function name is: {function_name}")

Sostituisci quanto segue:

LOADBALANCER_IP_ADDRESS: l'indirizzo IP e la porta del bilanciatore del carico interno creato in precedenza, ad esempio 10.128.05:8000.
PROJECT_ID: il tuo ID progetto.
VPC_CONNECTOR_NAME: il nome del connettore di accesso VPC serverless che hai creato in precedenza.

In questo tutorial, la posizione del set di dati BigQuery è impostata su US, che per impostazione predefinita corrisponde alla regione us-central1.

Fai clic su Esegui cella.

L'output mostra il nome della funzione simile al seguente:

The function name is: PROJECT_ID.ga_demo.ga_explain_example

Analizzare il comportamento degli utenti

In questa sezione, analizzi il comportamento degli utenti sul tuo sito web utilizzando la funzione process_incoming remote in uno dei seguenti due modi:

utilizzando BigQuery DataFrames
utilizzando lo strumento a riga di comando bq per eseguire una query direttamente in SQL.

Utilizza BigQuery DataFrames

Per eseguire la funzione remota utilizzando BigQuery DataFrames nel notebook Colab Enterprise che hai creato:

Fai clic su + Codice per inserire una nuova cella di codice.
Copia il seguente codice nella nuova cella di codice e fai clic su Esegui cella.

# Generate a list of all matchups and their histories as a JSON

grouping_sql = """
with
data_table as (
 SELECT
 distinct
   user_pseudo_id,
   events.value.string_value,
   event_timestamp,
   rank() over (partition by user_pseudo_id order by event_timestamp desc) as reverse_event_number
 FROM
   `bigquery-public-data.ga4_obfuscated_sample_ecommerce.events_20210131` as events20210131,
   unnest (events20210131.event_params) as events
 where events.key = 'page_location'
 qualify reverse_event_number < 3
)
select
*,TO_JSON_STRING (data_table) as ga_history
from data_table
limit 10;

"""

ga_df = bpd.read_gbq(grouping_sql)
post_processed = ga_df.assign(results=ga_df['ga_history'].apply(process_incoming),axis=1)
post_processed.head(10)

L'output seguente mostra i risultati di esempio della query:

user_pseudo_id	string_value	event_timestamp	reverse_event_number	ga_history	risultati	asse
0	2342103247.0307162928	https://shop.googlemerchandisestore.com/Google...	1612096237169825	2	{"user_pseudo_id":"2342103247.0307162928","str...	{"generated_text":"\n 'Di seguito sono riportati...
1	48976087.6959390698	https://www.googlemerchandisestore.com/	1612056537823270	2	{"user_pseudo_id":"48976087.6959390698","strin...	{"generated_text":"\n \n ```python\n imp...

Utilizza lo strumento a riga di comando `bq`

In alternativa, puoi utilizzare lo strumento a riga di comando bq per eseguire l'analisi direttamente utilizzando SQL.

Per eseguire la funzione remota utilizzando lo strumento a riga di comando bq nel notebook Colab Enterprise che hai creato:

Fai clic su + Codice per inserire una nuova cella di codice.

Copia il seguente codice nella nuova cella di codice e sostituisci PROJECT_ID con il tuo ID progetto.

# Update with your PROJECT_ID

function_name = 'PROJECT_ID.ga_demo.ga_explain_example'

new_sql = """'with \
data_table as ( \
SELECT \
distinct \
  user_pseudo_id, \
  events.value.string_value, \
  event_timestamp, \
  rank() over (partition by user_pseudo_id order by event_timestamp desc) as reverse_event_number \
FROM \
  `bigquery-public-data.ga4_obfuscated_sample_ecommerce.events_20210131` as events20210131, \
  unnest (events20210131.event_params) as events \
where events.key = "page_location" \
qualify reverse_event_number < 3 \
) \
select \
*, `{}`(TO_JSON_STRING (data_table)) as result \
from data_table \
limit 10;' \
""".format(function_name)

# Run query using bq cli directly in a notebook cell

!bq query --use_legacy_sql=false \
{new_sql}

Fai clic su Esegui cella.

L'output seguente mostra i risultati di esempio della query:

user_pseudo_id	string_value	event_timestamp	reverse_event_number	risultato
86037838.0267811614	https://shop.googlemerchandisestore.com/Google+Redesign/Apparel/Google+Dino+Game+Tee	1612128627715585	1	{"generated_text":"Risposta:\n La pagina più visitata è stata https://shop.googlemerchandisestore.com/Google+Redesign/Apparel/Google+Dino+Game+Tee\n La pagina più visitata dopo questa è la pagina da cui proveniva l'utente.\n\n Spiegazione:\n\nI dati forniti mostrano che l'utente corrente ha visitato il negozio di merchandising di Google specificamente per il prodotto "Google Dino Game Tee". \n \nConsiderazioni importanti:\n\n* Interpretazione dei dati: non puoi affermare con certezza che"}
4024190.3037653934	https://shop.googlemerchandisestore.com/Google+Redesign/Apparel/Google+Black+Cloud+Zip+Hoodie	1612085948486438	1	{"generated_text":"\n ```python\n import pandas as pd\n\n data = {'user_pseudo_id': ['4024190.3037653934', '4024190.3037653934', '4024190.3037653934'],\n 'string_value': ['https://shop.googlemerchandisestore.com"}

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina le singole risorse.

Elimina il tuo notebook Colab Enterprise.
Elimina il runtime di Colab Enterprise.
Elimina la funzione BigQuery. Assicurati che il tuo account di servizio disponga dell'autorizzazione bigquery.routines.delete. Per ulteriori informazioni, consulta le autorizzazioni BigQuery.
Elimina la connessione esterna BigQuery.
Elimina le funzioni Cloud Run.
Elimina il cluster GKE.
Elimina il connettore VPC.

Passaggi successivi

Prova un codelab pratico per un caso d'uso di analisi dei dati strutturati e non strutturati.
Consulta le best practice per l'esecuzione di workload batch su GKE.
Scopri di più sui casi d'uso di AI/ML in BigQuery.
Scopri di più sui casi d'uso di IA/ML in GKE.

Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma

Perché GKE e BigQuery

Vantaggi

Obiettivi

Architettura

Costi

Prima di iniziare

Seleziona o crea un progetto

Abilita le API

Configura Cloud Shell

Concedi ruoli IAM

Pubblicare un modello Gemma

Configura la rete VPC

Crea un bilanciatore del carico

Crea connettore

Crea un blocco note

Creare una funzione remota BigQuery

Analizzare il comportamento degli utenti

Utilizza BigQuery DataFrames

Utilizza lo strumento a riga di comando bq

Esegui la pulizia

Passaggi successivi

Utilizza lo strumento a riga di comando `bq`