Cloud Dataflow in Eclipse einrichten

Auf dieser Seite wird beschrieben, wie Sie ein Dataflow-Projekt erstellen und eine Beispielpipeline in Eclipse ausführen.

Das Eclipse-Plug-in von Dataflow funktioniert nur mit der Dataflow SDK-Distribution in den Versionen 2.0.0 bis 2.5.0. Es funktioniert nicht mit der Apache Beam SDK-Distribution.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore und Cloud Resource Manager APIs aktivieren.

    Aktivieren Sie die APIs

  5. Installieren und initialisieren Sie das Cloud SDK.
  6. Prüfen Sie, ob Sie die Eclipse IDE-Version 4.7 oder höher installiert haben.
  7. Prüfen Sie, ob Sie die JDK-Version 1.8 (Java Development Kit) oder höher installiert haben.
  8. Überprüfen Sie, ob Sie die neueste Version des Plug-ins Cloud Tools für Eclipse installiert haben.
    1. Falls nicht, folgen Sie der Schnellstartanleitung für Cloud Tools for Eclipse, um das Plug-in zu installieren.
    2. Oder wählen Sie Hilfe > Nach Updates suchen aus, um Ihr Plug-in auf die neueste Version zu aktualisieren.

Dataflow-Projekt in Eclipse erstellen

Verwenden Sie zur Erstellung von Projekten den Assistenten für neue Projekte, um eine Vorlagenanwendung als Ausgangspunkt für Ihre eigene Anwendung zu generieren.

Wenn Sie keine Anwendung haben, können Sie die Beispielanwendung WordCount ausführen, um die hier beschriebenen Vorgänge bis zum Schluss auszuführen.

  1. Wählen Sie File > New > Project (Datei  > Neu  >Projekt) aus.
  2. Wählen Sie im Verzeichnis der Google Cloud Platform den Eintrag Cloud Dataflow Java Project (Cloud Dataflow Java-Projekt) aus.
  3. Ein Assistent zur Auswahl des Projekttyps, den Sie erstellen. Es gibt Verzeichnisse für General (Allgemein), Eclipse Modeling Framework, EJB, Java und Java EE. Grafik: Außerdem gibt es ein Verzeichnis für Google Cloud, das Optionen zum Erstellen von Java-Projekten in der flexiblen App Engine-Umgebung und der App Engine-Standardumgebung sowie von Dataflow Java-Projekten enthält.
  4. Geben Sie die Gruppen-ID ein.
  5. Geben Sie die Artifact-ID (Artefakt-ID) ein.
  6. Wählen Sie die Project Template (Projektvorlage) aus. Wählen Sie für das Beispiel WordCount Beispiel-Pipelines aus.
  7. Wählen Sie die Project Dataflow Version (Projekt-Dataflow-Version) aus. Wählen Sie für das Beispiel WordCount die Option 2.5.0 aus.
  8. Geben Sie den Namen für Package (Paket) ein. Geben Sie für das Beispiel WordCount com.google.cloud.dataflow.examples ein.
  9. Grafik: Ein Assistent zum Erstellen eines Dataflow-Projekts. Grafik: Bietet Felder für die Eingabe von Gruppen-ID, Artefakt-ID, Projektvorlage, Cloud Dataflow-Version, Paketname, Arbeitsbereich und Namensvorlage. Grafik: Enthält Schaltflächen, um zurückzugehen, weiterzugehen, den Vorgang abzubrechen und zu beenden.
  10. Klicken Sie auf Weiter.

Ausführungsoptionen konfigurieren

Nun sollte das Dialogfeld Set Default Cloud Tools for Eclipse Run Options (Standard-Cloud-Tools für Ausführungsoptionen mit Eclipse festlegen) angezeigt werden.

  1. Wählen Sie das Ihrem Google Cloud-Projekt zugeordnete Konto aus oder fügen Sie ein neues Konto hinzu. So fügen Sie ein neues Konto hinzu:
    1. Wählen Sie im Drop-down-Menü Account (Konto) die Option Add a new account... (Neues Konto hinzufügen...) aus.
    2. Ein neues Browserfenster wird geöffnet, um den Anmeldevorgang abzuschließen.
  2. Geben Sie die Google Cloud Platform-Projekt-ID ein.
  3. Wählen Sie einen Cloud Storage-Staging-Speicherort aus oder erstellen Sie einen Staging-Speicherort. So erstellen Sie einen Staging-Speicherort:
    1. Geben Sie für Cloud Storage Staging Location einen eindeutigen Namen ein. Der Standortname muss den Bucket-Namen und einen Ordner enthalten. Objekte werden in Ihrem Cloud Storage-Bucket im angegebenen Ordner erstellt. Der Bucket-Name darf keine vertraulichen Informationen enthalten, da der Bucket-Namespace global und öffentlich sichtbar ist.
    2. Klicken Sie auf Bucket erstellen.
    3. Grafik: Ein Dialogfeld zur Eingabe des Google Cloud-Kontos, der Google Cloud Platform-ID und des Cloud Storage-Staging-Speicherorts. Grafik: Mit der Schaltfläche "Erstellen" können Sie einen Staging-Speicherort erstellen. Es gibt Schaltflächen, um zurückzugehen, zum nächsten Fenster weiterzugehen, den Vorgang abzubrechen oder zu beenden.
  4. Klicken Sie auf Browse (Durchsuchen), um Ihren Dienstkontoschlüssel aufzurufen.
  5. Klicken Sie auf Beenden.

WordCount-Beispielpipeline im Cloud Dataflow-Dienst ausführen

Nachdem Sie Ihr Projekt für Cloud Tools for Eclipse erstellt haben, können Sie Pipelines erstellen, die im Dataflow-Dienst ausgeführt werden. Als Beispiel können Sie die WordCount-Beispielpipeline ausführen.

  1. Wählen Sie Run -> Run Configurations (-Ausführen -> Konfigurationen ausführen) aus.
  2. Wählen Sie im linken Menü Dataflow-Pipeline aus.
  3. Klicken Sie auf New Launch Configuration (Neue Startkonfiguration).
  4. Ein Dialogfeld zur Auswahl der Ausführungskonfiguration für die Dataflow-Pipeline. Zu den Optionen gehören Apache Tomcat, Lokaler Server von App Engine, Dataflow-Pipeline, Eclipse-Anwendung und Eclipse-Datentools. Der Mauszeiger bewegt sich über die Schaltfläche "Neue Startkonfiguration" und die Kurzinfo für die neue Startkonfiguration wird für diese Schaltfläche angezeigt.
  5. Klicken Sie auf den Haupt-Tab.
  6. Klicken Sie auf Durchsuchen, um Ihr Dataflow-Projekt auszuwählen.
  7. Klicken Sie auf Suchen... und wählen Sie den WordCount-Haupttyp aus.
  8. Klicken Sie auf den Tab Pipeline Arguments Pipelineargumente.
  9. Wählen Sie den Runner DataflowRunner aus.
  10. Klicken Sie auf den Tab Arguments (Argumente).
  11. Legen Sie im Feld Program arguments (Programmargumente) die Output (Ausgabe) auf Ihren Cloud Storage Staging Location (Cloud Storage-Staging-Speicherort) fest. Der Staging-Speicherort muss ein Ordner sein. Das Staging von Pipelinejobs kann nicht über das Stammverzeichnis eines Buckets erfolgen.
  12. Ein Dialogfeld, in dem der Tab "Arguments" (Argumente) ausgewählt ist. Im Feld "Program arguments" (Programmargumente) wird die Option "--output" auf den schreibbaren Staging-Speicherort festgelegt.
  13. Klicken Sie auf Ausführen.
  14. Wenn der Job beendet ist, sollten Sie unter anderem die folgende Zeile in der Eclipse-Konsole sehen:
    Submitted job: <job_id>

Clean-up

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Kurzanleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Öffnen Sie den Cloud Storage-Browser in der Google Cloud Console.
  2. Klicken Sie das Kästchen neben dem von Ihnen erstellten Bucket an.
  3. Klicken Sie auf Löschen.
  4. Klicken Sie auf Löschen, um zu bestätigen, dass Sie den Bucket und seinen Inhalt dauerhaft löschen möchten.

Weitere Informationen