Schlüsselkonzepte und Komponenten

Auf dieser Seite werden die Schlüsselkonzepte und Komponentendetails für Cloud Datalab beschrieben. Im Notebookverzeichnis datalab/docs/notebooks/intro von Cloud Datalab finden Sie zusätzliche Übersichtsinformationen.

Cloud Datalab und Notebooks

Cloud Datalab ist als Container und zur Ausführung in einer VM-Instanz konfiguriert. In dieser Kurzanleitung werden das Erstellen der VM, die Ausführung des Containers in dieser VM und die Herstellung einer Verbindung von Ihrem Browser zu dem Cloud Datalab-Container beschrieben, mit dem Sie vorhandene Cloud Datalab-Notebooks öffnen und neue Notebooks erstellen können. Lesen Sie die einführenden Notebooks im Verzeichnis /docs/intro, damit Sie eine Vorstellung vom Aufbau und der Ausführung eines Notebooks erhalten.

Cloud Datalab verwendet Notebooks anstelle von Textdateien mit Code. Notebooks führen Code, in Markdown geschriebene Dokumentation und die Ergebnisse der Codeausführung in Form von Text, Grafik oder HTML/JavaScript zusammen. Wie ein Codeeditor oder eine IDE unterstützen Notebooks Sie beim Schreiben von Code: Mit ihnen können Sie Code interaktiv oder iterativ ausführen und die Ergebnisse neben dem Code erzeugen. Wenn Sie ein Notebook für Teammitglieder freigeben, können Sie Code und Dokumentation im Markdown-Format und Ergebnisse einbeziehen, die interaktive Diagramme enthalten. Sie stellen dadurch einen Kontext bereit, der in diesem Umfang mit Python- oder SQL-Codedateien alleine nicht möglich ist.

Cloud Datalab-Notebooks können im Google Cloud-Quell-Repository gespeichert werden, einem Git-Repository. Dieses Git-Repository wird im nichtflüchtigen Speicher geklont, der der VM zugeordnet ist. Dieser Klon bildet Ihren Arbeitsbereich, in dem Sie Dateien hinzufügen, entfernen und ändern können. Um Ihre Daten mit anderen Nutzern des Repositorys zu teilen, führen Sie einen Commit der Änderungen mit dem Git-Client durch, um die Änderungen von diesem lokalen Arbeitsbereich per Push in das Repository zu übertragen. Notebooks werden automatisch in regelmäßigen Abständen im nichtflüchtigen Speicher gespeichert. Außerdem können Sie sie jederzeit speichern. Wenn Sie den nichtflüchtigen Speicher löschen, gehen Notebooks, die nicht explizit per Push in das Git-Repository übertragen wurden, möglicherweise verloren. Deshalb wird unbedingt empfohlen, dass Sie den nichtflüchtigen Speicher NICHT löschen.

Wenn Sie ein Notebook öffnen, wird ein Back-End-"Kernel"-Prozess gestartet, um die Variablen zu verwalten, die während der Sitzung definiert wurden, und um den Notebook-Code auszuführen. Wenn der ausgeführte Code auf Google Cloud-Dienste wie BigQuery oder die Google Machine Learning Engine zugreift, verwendet er das in der VM verfügbare Dienstkonto. Das Dienstkonto muss daher für den Zugriff auf die Daten oder die Anfrage des Dienstes autorisiert sein. Rechts oben im Cloud Datalab-Notebook oder auf der Seite mit der Notebookliste im Browser klicken Sie auf das Nutzersymbol Nutzersymbol, um das Cloud-Projekt und die Dienstkontennamen anzeigen zu lassen. Möglicherweise müssen Sie dazu die Größe des Browserfensters anpassen. Die zum Ausführen von Cloud Datalab verwendete VM ist eine freigegebene Ressource, auf die alle Mitglieder des zugehörigen Cloud-Projekts zugreifen können. Daher wird dringend davon abgeraten, die persönlichen Cloud-Anmeldedaten einer Einzelperson für den Zugriff auf Daten zu verwenden.

Bei der Ausführung von Code im Notebook ändert sich der Status des Prozesses, durch den die Codeänderungen veranlasst werden. Wenn Sie eine Variable zuweisen oder neu zuweisen, wird der Variablenwert auch für nachfolgende Berechnungen verwendet. Jedes ausgeführte Notebook wird in Cloud Datalab als Sitzung dargestellt. Zum Auflisten und Beenden von Sitzungen können Sie auf der Seite mit der Liste der Cloud Datalab-Notebooks auf das Sitzungssymbol Sitzungssymbol klicken. Während der Ausführung einer Sitzung belegt der zugrunde liegende Prozess Speicherressourcen. Wenn Sie eine Sitzung beenden, wird der zugrunde liegende Prozess ebenfalls beendet. Der In-Memory-Status wird aufgehoben und der von der Sitzung belegte Arbeitsspeicher freigegeben. Im Notebook gespeicherte Ergebnisse sind weiter als nichtflüchtige Daten auf dem Laufwerk vorhanden.

Nutzungsszenarien von Cloud Datalab

Cloud Datalab ist eine interaktive Umgebung für die Google Cloud Platform zur Datenanalyse und für maschinelles Lernen. Mit Cloud Datalab können Sie Ihre Daten untersuchen, analysieren, umwandeln und visualisieren sowie als Grundlage für die Entwicklung maschineller Lernmodelle verwenden. Im Cloud Datalab-Ordner /docs finden Sie eine Reihe von Anleitungen und Beispielen, die verschiedene Aufgaben veranschaulichen, die Sie ausführen können. Cloud Datalab umfasst eine Reihe von häufig verwendeten Open-Source-Python-Bibliotheken für Datenanalyse, Visualisierung und Machine Learning. Es fügt auch Bibliotheken für den Zugriff auf wichtige Google Cloud Platform-Dienste hinzu, wie Google BigQuery, Google Machine Learning Engine, Google Dataflow und Google Cloud Storage. Weitere Informationen finden Sie in Enthaltene Bibliotheken.

Informationen zur Python-Bibliothek finden Sie in der Referenzdokumentation zu pydatalab.

Hier einige Ideen für den Anfang:

  • Schreiben Sie einige SQL-Abfragen, um die Daten in BigQuery zu untersuchen. Fügen Sie die Ergebnisse in einen Dataframe ein und stellen Sie diese als Histogramm oder Liniendiagramm dar.
  • Lesen Sie Daten aus einer CSV-Datei in Google Cloud Storage und fügen Sie diese in einen Dataframe ein. Berechnen Sie damit statistische Kennzahlen wie Durchschnitt, Standardabweichung und Quantile mit Python.
  • Testen Sie ein TensorFlow- oder scikit-learn-Modell für die Vorhersage von Ergebnissen oder die Klassifizierung von Daten.

Enthaltene Bibliotheken

Im Folgenden finden Sie eine Liste mit Bibliotheken, die in Cloud Datalab-Notebooks enthalten und für Sie verfügbar sind. Die Bibliotheksliste und Versionsinformationen können sich ändern.

Mit Conda installiert:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

Mit pip installiert:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

Beachten Sie, dass future, futures und apache-beam\[gcp\] nur für Python 2-Kernel installiert werden, notebook dagegen nur für Python 3-Kernel installiert wird.