Schnellstart

Auf dieser Seite erfahren Sie, wie Sie eine Cloud Composer-Umgebung in der Google Cloud Console erstellen und einen einfachen Apache Airflow-DAG (Workflow) ausführen.

Vorbereitung

  1. Melden Sie sich bei Ihrem Google-Konto an.

    Wenn Sie noch kein Konto haben, melden Sie sich hier für ein neues Konto an.

  2. Wählen Sie in der Cloud Console auf der Seite für die Projektauswahl ein Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Aktivieren Sie die Cloud Composer API.

    Aktivieren Sie die API

Umgebung erstellen

Console

  1. Rufen Sie in der Cloud Console die Seite "Umgebung erstellen" auf.

    Zur Seite "Umgebung erstellen"

  2. Geben Sie im Feld Name den Wert example-environment ein.

  3. Wählen Sie in der Drop-down-Liste Standort eine Region für die Cloud Composer-Umgebung aus. Weitere Informationen zur Auswahl einer Region finden Sie unter Verfügbare Regionen.

  4. Übernehmen Sie für die anderen Optionen der Umgebungskonfiguration die angegebenen Standardeinstellungen.

  5. Klicken Sie zum Anlegen der Umgebung auf Erstellen.

  6. Warten Sie, bis die Erstellung der Umgebung abgeschlossen ist. Danach wird links neben dem Umgebungsnamen ein grünes Häkchen angezeigt.

gcloud

gcloud composer environments create example-environment \
    --location LOCATION

Ersetzen Sie LOCATION durch die Compute Engine-Region, in der sich die Umgebung befindet. Achten Sie darauf, dass am von Ihnen angegebenen Standort Composer verfügbar ist.

Terraform

Zur Konfiguration dieser Umgebung mit Terraform fügen Sie der Terraform-Konfiguration den folgenden Ressourcenblock hinzu und führen terraform apply aus.

resource "google_composer_environment" "composer-quickstart" {
    name   = "example-environment"
    region = "LOCATION"
}

Ersetzen Sie LOCATION durch die Compute Engine-Region, in der sich die Umgebung befindet. Achten Sie darauf, dass am von Ihnen angegebenen Standort Composer verfügbar ist.

Umgebungsdetails ansehen

Wenn das Erstellen der Umgebung abgeschlossen ist, können Sie Informationen zur Bereitstellung Ihrer Umgebung aufrufen. Dazu gehören u. a. die Cloud Composer-Version, die URL für die Airflow-Weboberfläche und der DAGs-Ordner in Cloud Storage.

So rufen Sie die Bereitstellungsinformationen auf:

  1. Öffnen Sie in der Cloud Console die Seite "Umgebungen".

    Zur Seite "Umgebungen"

  2. Klicken Sie zum Aufrufen der Seite "Umgebungsdetails" auf example-environment.

DAG erstellen

Ein Airflow-DAG ist eine Sammlung strukturierter Aufgaben, die Sie planen und ausführen möchten. DAGs werden in Standard-Python-Dateien definiert.

Der Python-Code in quickstart.py führt Folgendes aus:

  1. Der DAG composer_sample_dag wird erstellt und anschließen einmal pro Tag ausgeführt.
  2. Die Aufgabe print_dag_run_conf wird ausgeführt. Sie gibt mithilfe des bash-Operators die Konfiguration der DAG-Ausführung aus.

Zum Erstellen eines DAG legen Sie eine Kopie der Datei quickstart.py auf Ihrem lokalen Computer an.

import datetime

import airflow
from airflow.operators import bash_operator

YESTERDAY = datetime.datetime.now() - datetime.timedelta(days=1)

default_args = {
    'owner': 'Composer Example',
    'depends_on_past': False,
    'email': [''],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': datetime.timedelta(minutes=5),
    'start_date': YESTERDAY,
}

with airflow.DAG(
        'composer_sample_dag',
        'catchup=False',
        default_args=default_args,
        schedule_interval=datetime.timedelta(days=1)) as dag:

    # Print the dag_run id from the Airflow logs
    print_dag_run_conf = bash_operator.BashOperator(
        task_id='print_dag_run_conf', bash_command='echo {{ dag_run.id }}')

DAG in Cloud Storage hochladen

Cloud Composer plant nur die DAGs, die sich im DAGs-Ordner des Cloud Storage-Buckets der Umgebung befinden.

Zum Planen Ihres DAG verschieben Sie quickstart.py von Ihrem lokalen Computer in den DAGs-Ordner Ihrer Umgebung:

  1. Öffnen Sie in der Cloud Console die Seite "Umgebungen".

    Zur Seite "Umgebungen"

  2. Zum Öffnen des Ordners /dags klicken Sie auf die Option DAG-Ordner für example-environment.

  3. Klicken Sie auf der Bucket-Detailseite auf Dateien hochladen und wählen Sie dann Ihre lokale Kopie von quickstart.py aus.

  4. Klicken Sie zum Hochladen der Datei auf Öffnen.

    Nachdem Sie Ihren DAG hochgeladen haben, fügt Cloud Composer den DAG zu Airflow hinzu und plant ihn sofort. Es kann einige Minuten dauern, bis der DAG in der Airflow-Weboberfläche angezeigt wird.

DAG in der Airflow-Weboberfläche aufrufen

Jede Cloud Composer-Umgebung hat einen Webserver, auf dem die Airflow-Weboberfläche ausgeführt wird, mit der Sie DAGs verwalten können.

So rufen Sie den DAG in der Airflow-Weboberfläche auf:

  1. Öffnen Sie in der Cloud Console die Seite "Umgebungen".

    Zur Seite "Umgebungen"

  2. Zum Öffnen der Airflow-Weboberfläche klicken Sie auf die Option Airflow für example-environment. Die Benutzeroberfläche wird in einem neuen Browserfenster geöffnet.

  3. Klicken Sie in der Airflow-Symbolleiste auf DAGs.

  4. Klicken Sie zum Öffnen der DAG-Detailseite auf composer_sample_dag.

    Die Seite für den DAG enthält die Baumansicht, eine grafische Darstellung der Aufgaben und Abhängigkeiten des Workflows.

Details zur Aufgabeninstanz in den Airflow-Logs aufrufen

Der von Ihnen geplante DAG enthält die Aufgabe print_dag_run_conf. Diese Aufgabe gibt die Konfiguration für die DAG-Ausführung aus, die Sie in den Airflow-Logs für die Aufgabeninstanz aufrufen können.

So rufen Sie die Details der Aufgabeninstanz auf:

  1. Klicken Sie in der Baumansicht des DAG in der Airflow-Weboberfläche auf Grafikansicht.

    Wenn Sie die Maus über die Grafik für die Aufgabe print_dag_run_conf bewegen, wird deren Status angezeigt. Tipp: Der Rahmen um die Aufgabe gibt den Status ebenfalls an. Ein hellgrüner Rahmen bedeutet z. B., dass die Aufgabe ausgeführt wird.

  2. Klicken Sie auf die Aufgabe print_dag_run_conf.

    Das Kontextmenü der Aufgabeninstanz wird angezeigt. Damit können Sie Metadaten abrufen und bestimmte Aktionen ausführen.

  3. Klicken Sie im Kontextmenü der Aufgabeninstanz auf Log anzeigen.

  4. Suchen Sie im Log nach Running: ['bash' für die Ausgabe des bash-Operators.

Bereinigen

So vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Kurzanleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite "Ressourcen verwalten"

  2. Wenn das Projekt, das Sie löschen möchten, an eine Organisation geknüpft ist, wählen Sie die entsprechende Organisation aus der Liste Organisation oben auf der Seite aus.
  3. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen .
  4. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Beenden, um das Projekt zu löschen.

Alternativ können Sie die Ressourcen löschen, die in dieser Anleitung verwendet werden:

  1. Löschen Sie die Cloud Composer-Umgebung.
  2. Löschen Sie den Cloud Storage-Bucket für die Cloud Composer-Umgebung. Durch das Löschen der Cloud Composer-Umgebung wird dessen Bucket nicht gelöscht.
  3. Löschen Sie die Pub/Sub-Themen für die Cloud Composer-Umgebung (composer-agent und composer-backend)). Durch das Löschen der Cloud Composer-Umgebung werden diese Themen nicht gelöscht.

Weitere Informationen