Utilizzare le celle SQL
Questa guida descrive come utilizzare le celle SQL per eseguire query sui dati all'interno di un notebook Colab Enterprise.
Panoramica
Una cella SQL è una cella di codice per scrivere, modificare ed eseguire query SQL all'interno del notebook Colab Enterprise. Le celle SQL forniscono un workflow alternativo a IPython Magics per BigQuery.
Funzionalità
Le celle SQL forniscono le seguenti funzionalità:
- Supporto per l'esecuzione di prova: convalida dell'istruzione SQL e approssimazione del numero di byte elaborati dalla query
- Formattazione: controllo delle parole chiave ed evidenziazione della sintassi
- Denominazione delle variabili di output di BigQuery DataFrame: fai riferimento alla variabile di output all'interno di altre celle del blocco note
- Sostituzione delle variabili: fai riferimento alle variabili Python e alle celle SQL per supportare la parametrizzazione e la possibilità di eseguire query sui risultati di una query precedente
- Visualizzatore del set di risultati: visualizzatore tabellare leggero del set di risultati con impaginazione per set di risultati di grandi dimensioni
Dialetto SQL e origine dati supportati
Le celle SQL di Colab Enterprise supportano GoogleSQL.
Puoi eseguire query SQL sui dati BigQuery.
Limitazioni
Quando pianifichi il progetto, tieni presente le seguenti limitazioni:
- Puoi eseguire più istruzioni SQL in una singola cella SQL, ma solo i risultati dell'ultima istruzione SQL vengono salvati in un DataFrame.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Compute Engine, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Utente BigQuery (
roles/bigquery.user
) -
Utente Colab Enterprise (
roles/aiplatform.colabEnterpriseUser
) -
Nella console Google Cloud , vai alla pagina I miei notebook di Colab Enterprise.
-
Nel menu Regione, seleziona la regione che contiene il notebook.
-
Fai clic sul notebook che vuoi aprire. Se non hai ancora creato un blocco note, creane uno.
-
Nella barra degli strumenti, per aggiungere una cella SQL, fai clic sul menu
Inserisci opzioni cella di codice e seleziona Aggiungi cella SQL.La cella SQL viene aggiunta al notebook.
-
Nella cella SQL, inserisci una query SQL. Per una panoramica delle istruzioni e dei dialetti SQL supportati, consulta Introduzione a SQL in BigQuery.
Puoi fare riferimento alle variabili Python nelle espressioni racchiudendo il nome della variabile tra parentesi graffe (
{ }
). Ad esempio, se hai specificato un valore in una variabile Python denominatamy_threshold
, puoi limitare il set di risultati con una query simile alla seguente:SELECT * FROM my_dataset.my_table WHERE x > {my_threshold};
-
Tieni il puntatore sopra la cella SQL che vuoi eseguire, e poi fai clic sul pulsante
Esegui cella.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per creare un notebook Colab Enterprise, eseguire il codice del notebook su un runtime e utilizzare i dati BigQuery nel notebook, chiedi all'amministratore di concederti i seguenti ruoli IAM sul progetto:
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Crea una cella SQL
Per creare una cella SQL in Colab Enterprise:
Inserire ed eseguire una query
L'output della query viene salvato automaticamente come un DataFrame BigQuery con lo stesso nome del titolo della cella SQL.
Interagire con il set di risultati
Puoi interagire con il set di risultati come BigQuery DataFrame o come pandas DataFrame.
Puoi concatenare le istruzioni SQL utilizzando lo stesso nome di variabile della cella SQL. Ad esempio, puoi utilizzare i BigQuery DataFrames generati dal set di risultati come tabelle in una query successiva racchiudendo il nome del DataFrame tra parentesi graffe ({ }
). Vedi l'esempio seguente, che fa riferimento all'output di una query precedente salvato come DataFrame denominato df
:
SELECT * FROM {df};