Concetti chiave e componenti

In questa pagina vengono descritti i concetti chiave e i dettagli dei componenti di Cloud Datalab. Puoi trovare ulteriore documentazione nella directory dei blocchi note di Cloud Datalab datalab/docs/notebooks/intro.

Cloud Datalab e blocchi note

Cloud Datalab viene pacchettizzato come container e eseguito in un'istanza VM (macchina virtuale). La guida rapida spiega la creazione delle VM, eseguendo il container in quella VM e stabilendo una connessione dal browser al container Cloud Datalab, il che ti consente di aprire i blocchi note Cloud Datalab esistenti e di creare nuovi blocchi note. Leggi i blocchi note introduttivi nella directory /docs/intro per avere un'idea di come è organizzato ed eseguito un blocco note.

Cloud Datalab utilizza blocchi note anziché i file di testo che contengono codice. I blocchi note riuniscono codice, documentazione scritta come markdown e risultati dell'esecuzione del codice, come testo, immagine o HTML/JavaScript. Analogamente a un editor di codice o all'IDE, i blocchi note consentono di scrivere il codice: consentono di eseguire il codice in modo interattivo e iterativo, visualizzando i risultati insieme al codice. Inoltre, quando condividi un blocco note con i membri del team, puoi includere codice, documentazione in formato markdown e risultati che includono grafici interattivi per fornire loro un contesto che va oltre ciò che può fornire solo i file di codice Python o SQL.

I blocchi note di Cloud Datalab possono essere archiviati in Google Cloud Source Repository, un repository Git. Questo repository Git viene clonato su un disco permanente collegato alla VM. Questo clone costituisce la tua area di lavoro, in cui puoi aggiungere, rimuovere e modificare i file. Per condividere il tuo lavoro con altri utenti del repository, devi eseguire il commit delle modifiche utilizzando il client Git per il push delle tue modifiche da questa area di lavoro locale al repository. I blocchi note vengono automaticamente salvati su disco permanente periodicamente e puoi salvarli quando vuoi. Tieni presente che se elimini il disco permanente, gli eventuali blocchi note che non vengono esplicitamente inviati al repository Git potrebbero andare persi. Pertanto, consigliamo vivamente di NON eliminare il disco permanente.

Quando apri un blocco note, viene avviato un processo di "kernel" di backend per gestire le variabili definite durante la sessione ed eseguire il codice del blocco note. Quando il codice eseguito accede a servizi Google Cloud come BigQuery o Google Machine Learning Engine, utilizza l'account di servizio disponibile nella VM. Per questo motivo, l'account di servizio deve essere autorizzato ad accedere ai dati o a richiedere il servizio. Per visualizzare i nomi degli progetti di servizio e dell'account di servizio cloud, fai clic sull'icona dell'utente icona utente nell'angolo in alto a destra della pagina del blocco note o del blocco note di Cloud Datalab nel browser (potrebbe essere necessario ridimensionare la finestra del browser). La VM utilizzata per eseguire Cloud Datalab è una risorsa condivisa accessibile a tutti i membri del progetto cloud associato. Pertanto, ti consigliamo di non utilizzare le credenziali cloud personali di un individuo per accedere ai dati.

Quando esegui il codice nel blocco note, lo stato del processo in cui viene eseguito il codice cambia. Se assegni o riassegni una variabile, il relativo valore viene utilizzato per i calcoli successivi come effetto collaterale. Ogni blocco note in esecuzione viene mostrato come sessione in Cloud Datalab. Puoi fare clic sull'icona delle sessioni icona sessione nella pagina del blocco note di Cloud Datalab per elencare e interrompere le sessioni. Mentre una sessione è in esecuzione, il processo sottostante consuma risorse di memoria. Se interrompi la sessione, il processo sottostante scompare insieme allo stato in memoria e la memoria utilizzata dalla sessione viene liberata. I risultati salvati nel blocco note rimangono nel formato permanente sul disco.

Scenari di utilizzo di Cloud Datalab

Cloud Datalab è un ambiente di analisi dei dati e machine learning interattivo progettato per Google Cloud Platform. Puoi utilizzarlo per esplorare, analizzare, trasformare e visualizzare i tuoi dati in modo interattivo e per creare modelli di machine learning a partire dai tuoi dati. Nella cartella Cloud Datalab /docs troverai una serie di tutorial ed esempi che illustrano alcune delle attività che puoi eseguire. Cloud Datalab include un set di librerie Python open source di uso comune utilizzate per l'analisi, la visualizzazione e il machine learning dei dati. Aggiunge inoltre le librerie per accedere ai servizi chiave di Google Cloud Platform, come Google BigQuery, Google Machine Learning Engine, Google Dataflow e Google Cloud Storage. Per ulteriori informazioni, vedi Librerie incluse.

Per informazioni sulla libreria Python, consulta la documentazione di riferimento per pydatalab.

Ecco alcune idee per iniziare:

  • Scrivere alcune query SQL per esplorare i dati in BigQuery. Inserisci i risultati in un Dataframe e visualizzali come un istogramma o un grafico a linee.
  • Leggere i dati da un file CSV in Google Cloud Storage e inserirli in un Dataframe per calcolare misure statistiche come media, deviazione standard e quantili utilizzando Python.
  • Prova un modello TensorFlow o scikit-learn per prevedere i risultati o classificare i dati.

Librerie incluse

Di seguito è riportato un elenco delle librerie incluse e disponibili nei blocchi note di Cloud Datalab (l'elenco delle librerie e le informazioni sulla versione sono soggetti a modifica).

Installata con Conda:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

Installata con pip:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

Tieni presente che future, futures e apache-beam\[gcp\] sono installati solo per i kernel Python 2, mentre notebook è installato solo per i kernel Python 3.