Concetti chiave e componenti

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

In questa pagina vengono descritti i concetti chiave e i dettagli dei componenti di Cloud Datalab. Puoi trovare ulteriore documentazione panoramica nella directory del blocco note datalab/docs/notebooks/intro di Cloud Datalab.

Cloud Datalab e blocchi note

Cloud Datalab è pacchettizzato come container ed eseguito in un'istanza VM (macchina virtuale). La gestione del ciclo di vita di un'istanza di Cloud Datalab spiega la creazione della VM, l'esecuzione del container in tale VM e la creazione di una connessione dal browser al container di Cloud Datalab, che ti consente di aprire i blocchi note di Cloud Datalab esistenti e creare nuovi blocchi note. Leggi i blocchi note nella directory /docs/intro per avere un'idea di come è organizzato ed eseguito un blocco note.

Cloud Datalab utilizza blocchi note anziché i file di testo che contengono il codice. I blocchi note combinano codice, documentazione scritta come markdown e risultati dell'esecuzione del codice, come testo, immagine o HTML/JavaScript. Come un editor di codice o un IDE, i blocchi note ti aiutano a scrivere il codice: ti consentono di eseguire il codice in modo interattivo e iterativo, visualizzando i risultati insieme al codice. Inoltre, quando condividi un blocco note con i membri del team, puoi includere codice, documentazione in formato markdown e risultati che includono grafici interattivi, per fornire loro un contesto che va oltre i vantaggi forniti dai soli file di codice Python o SQL.

I blocchi note Cloud Datalab possono essere archiviati in Google Cloud Source Repository, un repository Git. Questo repository Git è clonato su un disco permanente collegato alla VM. Questo clone costituisce la tua area di lavoro in cui puoi aggiungere, rimuovere e modificare file. Per condividere il tuo lavoro con altri utenti del repository, devi eseguire il commit delle modifiche utilizzando il client git per eseguire il push delle modifiche da questa area di lavoro locale al repository. I blocchi note vengono salvati automaticamente su disco permanente e puoi salvarli in qualsiasi momento. Tieni presente che se elimini il disco permanente, tutti i blocchi note non esplicitamente inviati al repository Git potrebbero andare persi. Pertanto, consigliamo vivamente di NON eliminare il disco permanente.

Quando apri un blocco note, viene avviato un processo di "kernel" di backend per gestire le variabili definite durante la sessione ed eseguire il codice del blocco note. Quando il codice eseguito accede a servizi Google Cloud come BigQuery o Google Machine Learning Engine, utilizza l'account di servizio disponibile nella VM. Pertanto, l'account di servizio deve essere autorizzato ad accedere ai dati o a richiedere il servizio. Per visualizzare i nomi degli progetti e degli account di servizio cloud, fai clic sull'icona utente icona utente nell'angolo in alto a destra della pagina dell'elenco dei blocchi note o del blocco note di Cloud Datalab nel browser (potrebbe essere necessario ridimensionare la finestra del browser). La VM utilizzata per eseguire Cloud Datalab è una risorsa condivisa accessibile a tutti i membri del progetto cloud associato. Pertanto, si sconsiglia vivamente di utilizzare le credenziali personali di un singolo utente per accedere ai dati.

Quando esegui il codice nel blocco note, lo stato del processo di esecuzione del codice cambia. Se assegni o riassegni una variabile, il relativo valore viene utilizzato per calcoli successivi come effetto collaterale. Ogni blocco note in esecuzione viene visualizzato come sessione in Cloud Datalab. Puoi fare clic sull'icona delle sessioni icona-sessione nella pagina di elenco del blocco note di Cloud Datalab per elencare e interrompere le sessioni. Mentre una sessione è in esecuzione, il processo sottostante consuma risorse di memoria. Se interrompi una sessione, il processo sottostante scompare insieme al suo stato in memoria e la memoria utilizzata dalla sessione viene liberata. I risultati salvati nel blocco note rimangono nel formato permanente sul disco.

Scenari di utilizzo di Cloud Datalab

Cloud Datalab è un ambiente interattivo di analisi dei dati e machine learning progettato per Google Cloud Platform. Puoi utilizzarlo per esplorare, analizzare, trasformare e visualizzare i tuoi dati in modo interattivo e per creare modelli di machine learning a partire dai tuoi dati. Nella cartella Cloud Datalab /docs troverai una serie di tutorial ed esempi che illustrano alcune delle attività che puoi eseguire. Cloud Datalab include un insieme di librerie Python open source di uso comune utilizzate per l'analisi, la visualizzazione e il machine learning dei dati. Aggiunge inoltre librerie per accedere ai servizi chiave di Google Cloud Platform, come Google BigQuery, Google Machine Learning Engine, Google Dataflow e Google Cloud Storage. Per saperne di più, consulta la sezione Librerie incluse.

Per informazioni sulla libreria Python, consulta la documentazione di riferimento per pydatalab.

Ecco alcune idee per iniziare:

  • Scrivi alcune query SQL per esplorare i dati in BigQuery. Inserisci i risultati in un Dataframe e visualizzali come un istogramma o un grafico a linee.
  • Leggere i dati da un file CSV in Google Cloud Storage e inserirli in un Dataframe per calcolare misure statistiche come media, deviazione standard e quantili utilizzando Python.
  • Prova un modello TensorFlow o scikit-learn per prevedere i risultati o classificare i dati.

Librerie incluse

Di seguito è riportato un elenco delle librerie incluse e disponibili per i blocchi note Cloud Datalab (l'elenco delle librerie e le informazioni sulla versione sono soggette a modifica).

Installata con Conda:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

Installata con pip:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

Tieni presente che future, futures e apache-beam\[gcp\] sono installati solo per i kernel Python 2, mentre notebook è installato solo per i kernel Python 3.