Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Auf dieser Seite wird Cloud Data Fusion: Studio vorgestellt. Das ist eine visuelle Benutzeroberfläche mit Drag-and-drop-Funktion, mit der Sie Datenpipelines aus einer Bibliothek vordefinierter Plug-ins erstellen und Ihre Pipelines konfigurieren, ausführen und verwalten können.
Das Erstellen einer Pipeline in Studio erfolgt in der Regel so:
Stellen Sie eine Verbindung zu einer lokalen oder Cloud-Datenquelle her.
Daten vorbereiten und transformieren
Stellen Sie eine Verbindung zum Ziel her.
Pipeline testen
Pipeline ausführen.
Pipelines planen und auslösen
Nachdem Sie die Pipeline entworfen und ausgeführt haben, können Sie sie auf der Seite Pipeline Studio in Cloud Data Fusion verwalten:
Pipelines können wiederverwendet werden, indem sie mit Einstellungen und Laufzeitargumenten parametrisiert werden.
Sie können die Pipelineausführung verwalten, indem Sie Compute-Profile anpassen, Ressourcen verwalten und die Pipelineleistung optimieren.
Verwalten Sie den Pipeline-Lebenszyklus, indem Sie Pipelines bearbeiten.
Pipeline-Versionsverwaltung mit Git-Integration verwalten
In Cloud Data Fusion können Sie in jeder Instanz mehrere Namespaces haben. Im Studio können Administratoren alle Namespaces zentral oder jeden Namespace einzeln verwalten.
In Studio stehen die folgenden Administratoreinstellungen zur Verfügung:
Systemverwaltung
Mit dem Modul Systemadministration in Studio können Sie neue Namespaces erstellen und die zentralen Konfigurationen des Compute-Profils auf Systemebene definieren, die für jeden Namespace in dieser Instanz gelten. Weitere Informationen finden Sie unter Studio-Verwaltung verwalten.
Namespace-Verwaltung
Mit dem Modul Namespace Admin in Studio können Sie die Konfigurationen für den jeweiligen Namespace verwalten. Für jeden Namespace können Sie Compute-Profile, Laufzeiteinstellungen, Treiber, Dienstkonten und Git-Konfigurationen definieren. Weitere Informationen finden Sie unter Studio-Verwaltung verwalten.
Pipeline Design Studio
Pipelines werden in der Cloud Data Fusion-Weboberfläche im Pipeline Design Studio entworfen und ausgeführt. Das Entwerfen und Ausführen von Datenpipelines umfasst die folgenden Schritte:
Verbindung mit einer Quelle herstellen: Cloud Data Fusion ermöglicht Verbindungen zu lokalen und Cloud-Datenquellen. Die Studio-Benutzeroberfläche enthält standardmäßige System-Plug-ins, die bereits in Studio installiert sind. Sie können zusätzliche Plug-ins aus einem Plug-in-Repository herunterladen, dem sogenannten Hub. Weitere Informationen finden Sie unter Plug-ins – Übersicht.
Datenvorbereitung: Mit Cloud Data Fusion können Sie Ihre Daten mit dem leistungsstarken Plug-in für die Datenvorbereitung Wrangler vorbereiten. Mit Wrangler können Sie eine kleine Stichprobe Ihrer Daten an einem Ort ansehen, untersuchen und transformieren, bevor Sie die Logik in Studio auf den gesamten Datensatz anwenden. So können Sie schnell Transformationen anwenden, um zu sehen, wie sich diese auf das gesamte Dataset auswirken. Sie können mehrere Transformationen erstellen und einem Rezept hinzufügen. Weitere Informationen finden Sie in der Wrangler-Übersicht.
Transformation: Transformations-Plug-ins ändern Daten, nachdem sie aus einer Quelle geladen wurden. Sie können beispielsweise einen Datensatz klonen, das Dateiformat in JSON ändern oder mit dem JavaScript-Plug-in eine benutzerdefinierte Transformation erstellen. Weitere Informationen finden Sie unter Plug-ins – Übersicht.
Verbindung zu einem Ziel herstellen: Nachdem Sie die Daten vorbereitet und Transformationen angewendet haben, können Sie eine Verbindung zum Ziel herstellen, an das Sie die Daten laden möchten. Cloud Data Fusion unterstützt Verbindungen zu mehreren Zielen. Weitere Informationen finden Sie unter Plug-ins.
Vorschau: Nachdem Sie die Pipeline entworfen haben, können Sie mit einem Vorschaujob Probleme beheben, bevor Sie die Pipeline bereitstellen und ausführen. Falls Fehler auftreten, können Sie sie im Modus Entwurf beheben. In Studio werden die ersten 100 Zeilen des Quelldatensatzes verwendet, um die Vorschau zu generieren. In Studio werden der Status und die Dauer des Vorschaujobs angezeigt. Sie können den Job jederzeit beenden.
Sie können auch die Protokolle während der Ausführung des Vorschaujobs beobachten. Weitere Informationen finden Sie unter Daten in der Vorschau.
Pipelinekonfigurationen verwalten: Nachdem Sie sich eine Vorschau der Daten angesehen haben, können Sie die Pipeline bereitstellen und die folgenden Pipelinekonfigurationen verwalten:
Compute-Konfiguration: Sie können das Compute-Profil ändern, mit dem die Pipeline ausgeführt wird. Beispiel: Sie möchten die Pipeline nicht mit dem standardmäßigen Dataproc-Cluster, sondern mit einem benutzerdefinierten Dataproc-Cluster ausführen.
Pipelinekonfiguration: Für jede Pipeline können Sie die Instrumentierung aktivieren oder deaktivieren, z. B. Zeitmesswerte. Die Instrumentierung ist standardmäßig aktiviert.
Engine-Konfiguration: Spark ist die Standardausführungs-Engine. Sie können benutzerdefinierte Parameter für Spark anpassen.
Ressourcen: Sie können den Arbeitsspeicher und die Anzahl der CPUs für den Spark-Treiber und ‑Executor angeben. Der Treiber orchestriert den Spark-Job. Der Executor übernimmt die Datenverarbeitung in Spark.
Pipeline-Benachrichtigung: Sie können die Pipeline so konfigurieren, dass nach Abschluss der Pipelineausführung Benachrichtigungen gesendet und Aufgaben zur Nachbearbeitung gestartet werden. Sie erstellen Pipeline-Benachrichtigungen, wenn Sie die Pipeline entwerfen. Nachdem Sie die Pipeline bereitgestellt haben, können Sie sich die Benachrichtigungen ansehen. Wenn Sie die Benachrichtigungseinstellungen ändern möchten, bearbeiten Sie die Pipeline.
Transformations-Push-down: Sie können den Transformations-Push-down aktivieren, wenn eine Pipeline bestimmte Transformationen in BigQuery ausführen soll.
Pipelines mithilfe von Makros, Einstellungen und Laufzeitargumenten wiederverwenden: Mit Cloud Data Fusion können Sie Datenpipelines wiederverwenden. Mit wiederverwendbaren Datenpipelines können Sie eine einzige Pipeline verwenden, um ein Datenintegrationsmuster auf eine Vielzahl von Anwendungsfällen und Datensätzen anzuwenden. Wiederverwendbare Pipelines bieten eine bessere Verwaltungsmöglichkeit. Mit ihnen können Sie die meisten Konfigurationseinstellungen einer Pipeline bei der Ausführung festlegen, anstatt sie beim Entwerfen zu hartcodieren. In Pipeline Design Studio können Sie Makros verwenden, um Plug-in-Konfigurationen Variablen hinzuzufügen, damit Sie die Variablensubstitutionen zur Laufzeit angeben können. Weitere Informationen finden Sie unter Makros, Einstellungen und Laufzeitargumente verwalten.
Ausführen: Nachdem Sie die Pipelinekonfigurationen überprüft haben, können Sie die Pipelineausführung starten. Sie können die Statusänderung während der Phasen der Pipelineausführung sehen, z. B. Bereitstellung, Start, Ausführung und Erfolg.
Planen und orchestrieren: Batch-Datenpipelines können so konfiguriert werden, dass sie nach einem bestimmten Zeitplan und mit einer bestimmten Häufigkeit ausgeführt werden. Nachdem Sie eine Pipeline erstellt und bereitgestellt haben, können Sie einen Zeitplan erstellen. Im Pipeline Design Studio können Sie Pipelines orchestrieren, indem Sie einen Trigger für eine Batch-Datenpipeline erstellen, damit sie ausgeführt wird, wenn eine oder mehrere Pipelineausführungen abgeschlossen sind. Diese werden als Downstream- und Upstream-Pipelines bezeichnet. Sie erstellen einen Trigger für die nachgelagerte Pipeline, damit sie nach Abschluss einer oder mehrerer vorgelagerter Pipelines ausgeführt wird.
Empfohlen: Sie können auch Composer verwenden, um Pipelines in Cloud Data Fusion zu orchestrieren. Weitere Informationen finden Sie unter Pipelines planen und Pipelines orchestrieren.
Pipelines bearbeiten: In Cloud Data Fusion können Sie eine bereitgestellte Pipeline bearbeiten. Wenn Sie eine bereitgestellte Pipeline bearbeiten, wird eine neue Version der Pipeline mit demselben Namen erstellt und als neueste Version gekennzeichnet. So können Sie Pipelines iterativ entwickeln, anstatt sie zu duplizieren, wodurch eine neue Pipeline mit einem anderen Namen erstellt wird. Weitere Informationen finden Sie unter Pipelines bearbeiten.
Logging und Monitoring: Wenn Sie Pipeline-Messwerte und ‑Protokolle überwachen möchten, sollten Sie den Stackdriver-Logging-Dienst aktivieren, um Cloud Logging mit Ihrer Cloud Data Fusion-Pipeline zu verwenden.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eCloud Data Fusion: Studio is a visual interface for designing, executing, and managing data pipelines using pre-built plugins, connecting to various on-premises and cloud data sources and destinations.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio includes System and Namespace Administration modules to centrally manage configurations, compute profiles, runtime preferences, and other settings for multiple namespaces within each Cloud Data Fusion instance.\u003c/p\u003e\n"],["\u003cp\u003ePipeline Design Studio enables users to connect to data sources, prepare and transform data with Wrangler, apply transformations, preview data, and manage pipeline configurations like compute, engine, and resource settings.\u003c/p\u003e\n"],["\u003cp\u003eUsers can reuse data pipelines by parameterizing them with macros, preferences, and runtime arguments, which allows for a single pipeline to be applied across various use cases and datasets, while also scheduling and orchestrating data pipelines.\u003c/p\u003e\n"],["\u003cp\u003eThe Studio offers features for editing deployed pipelines, managing source control with Git integration, and monitoring pipeline metrics and logs via Stackdriver logging, allowing for better control and manageability.\u003c/p\u003e\n"]]],[],null,["# Introduction to Cloud Data Fusion: Studio\n\nThis page introduces Cloud Data Fusion: Studio, which is a visual,\nclick-and-drag interface for building data pipelines from a library of prebuilt\nplugins and an interface where you configure, execute, and manage your pipelines.\nBuilding a pipeline in the Studio typically follows this process:\n\n1. Connect to an on-premises or cloud data source.\n2. Prepare and transform your data.\n3. Connect to the destination.\n4. Test your pipeline.\n5. Execute your pipeline.\n6. Schedule and trigger your pipelines.\n\nAfter you design and execute the pipeline, you can manage pipelines on the\nCloud Data Fusion **Pipeline Studio** page:\n\n- Reuse pipelines by parameterizing them with preferences and runtime arguments.\n- Manage pipeline execution by customizing compute profiles, managing resources, and fine-tuning pipeline performance.\n- Manage pipeline lifecycle by editing pipelines.\n- Manage pipeline source control using Git integration.\n\n| **Note:** The Studio also provides administrative controls to centrally manage your configurations.\n\nBefore you begin\n----------------\n\n- [Enable the Cloud Data Fusion API](/data-fusion/docs/how-to/enable-service).\n- [Create a Cloud Data Fusion instance](/data-fusion/docs/how-to/create-instance).\n- Understand [access control in Cloud Data Fusion](/data-fusion/docs/access-control).\n- Understand key [concepts and terms](/data-fusion/docs/concepts/overview#concepts) in Cloud Data Fusion.\n\nCloud Data Fusion: Studio overview\n----------------------------------\n\nThe Studio includes the following components.\n\n### Administration\n\nCloud Data Fusion lets you have multiple\n[namespaces](/data-fusion/docs/concepts/overview#namespace) in each instance. Within the Studio, administrators can manage\nall of the namespaces centrally, or each namespace individually.\n\nThe Studio provides the following administrator controls:\n\nSystem Administration\n: The **System Admin** module in the Studio lets you create new namespaces and\n define the central [compute profile](/data-fusion/docs/concepts/overview#compute-profile) configurations at the system level,\n which are applicable to each namespace in that instance. For more information,\n see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\nNamespace Administration\n: The **Namespace Admin** module in the Studio lets you manage the\n configurations for the specific namespace. For each namespace, you can define\n compute profiles, runtime preferences, drivers, service accounts and git\n configurations. For more information, see [Manage Studio administration](/data-fusion/docs/concepts/manage-studio-administration).\n\n### Pipeline Design Studio\n\nYou design and execute pipelines in the *Pipeline Design Studio* in the\nCloud Data Fusion web interface. Designing and executing data pipelines\nincludes the following steps:\n\n- **Connect to a source** : Cloud Data Fusion allows connections to on-premises and cloud data sources. The Studio interface has default system plugins, which come pre-installed in the Studio. You can download additional plugins from a plugin repository, known as the *Hub* . For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Data preparation** : Cloud Data Fusion lets you prepare your data using its powerful data preparation plugin: *Wrangler* . Wrangler helps you view, explore, and transform a small sample of your data in one place before running the logic on the entire dataset in the Studio. This lets you quickly apply transformations to gain an understanding of how they affect the entire dataset. You can create multiple transformations and add them to a recipe. For more information, see the [Wrangler overview](/data-fusion/docs/concepts/wrangler-overview).\n- **Transform** : Transform plugins change data after it's loaded from a source---for example, you can clone a record, change the file format to JSON, or use the Javascript plugin to create a custom transformation. For more information, see the [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Connect to a destination** : After you prepare the data and apply transformations, you can connect to the destination where you plan to load the data. Cloud Data Fusion supports connections to multiple destinations. For more information, see [Plugins overview](/data-fusion/docs/concepts/plugins).\n- **Preview** : After you design the pipeline, to debug issues before you deploy and run a pipeline, you run a *Preview job* . If you encounter any errors, you can fix them while in *Draft* mode. The Studio uses the first 100 rows of your source dataset to generate the preview. The Studio displays the status and duration of the Preview job. You can stop the job anytime. You can also monitor the log events as the Preview job runs. For more information, see [Preview data](/data-fusion/docs/how-to/preview-data).\n- **Manage pipeline configurations**: After you preview the data, you can\n deploy the pipeline and manage the following pipeline configurations:\n\n - **Compute configuration**: You can change the compute profile that runs the pipeline---for example, you want to run the pipeline against a customized Dataproc cluster rather than the default Dataproc cluster.\n - **Pipeline configuration**: For each pipeline, you can enable or disable instrumentation, such as timing metrics. By default, instrumentation is enabled.\n - **Engine configuration**: Spark is the default execution engine. You can pass custom parameters for Spark.\n - **Resources**: You can specify the memory and number of CPUs for the Spark driver and executor. The driver orchestrates the Spark job. The executor handles the data processing in Spark.\n - **Pipeline alert**: You can configure the pipeline to send alerts and start post-processing tasks after the pipeline run finishes. You create pipeline alerts when you design the pipeline. After you deploy the pipeline, you can view the alerts. To change alert settings, you can edit the pipeline.\n - **Transformation pushdown**: You can enable Transformation pushdown if you want a pipeline to execute certain transformations in BigQuery.\n\n For more information, see [Manage pipeline configurations](/data-fusion/docs/concepts/manage-pipeline-configurations).\n- **Reuse pipelines using macros, preferences, and runtime arguments** :\n Cloud Data Fusion lets you reuse data pipelines. With reusable\n data pipelines, you can have a single pipeline that can apply a data\n integration pattern to a variety of use cases and datasets. Reusable\n pipelines give you better manageability. They let you set most of the\n configuration of a pipeline at execution time, instead of hard-coding it at\n design time. In the Pipeline Design Studio, you can use macros to add\n variables to plugin configurations so that you can specify the variable\n substitutions at runtime. For more information,\n see [Manage macros, preferences, and runtime arguments](/data-fusion/docs/how-to/manage-macros-prefs-and-runtime-args).\n\n- **Execute**: Once you have reviewed the pipeline configurations, you\n can initiate the pipeline execution. You can see the status change during\n the phases of the pipeline run---for example provisioning, starting,\n running, and success.\n\n- **Schedule and orchestrate**: Batch data pipelines can be set to run on\n a specified schedule and frequency. After you create and deploy a pipeline,\n you can create a schedule. In the Pipeline Design Studio, you can\n orchestrate pipelines by creating a trigger on a batch data pipeline to\n have it run when one or more pipeline runs complete. These are called\n downstream and upstream pipelines. You create a trigger on the downstream\n pipeline so that it runs based on the completion of one or more upstream\n pipelines.\n\n Recommended: You can also use Composer to orchestrate pipelines\n in Cloud Data Fusion. For more information, see\n [Schedule pipelines](/data-fusion/docs/how-to/schedule-pipelines) and [Orchestrate pipelines](/data-fusion/docs/concepts/orchestrate-pipelines).\n- **Edit pipelines** : Cloud Data Fusion lets you edit a deployed\n pipeline. When you edit a deployed pipeline, it creates a new version of\n the pipeline with the same name and marks it as the latest version. This\n lets you develop pipelines iteratively rather than duplicating pipelines,\n which creates a new pipeline with a different name. For more information,\n see [Edit pipelines](/data-fusion/docs/how-to/edit-a-pipeline).\n\n- **Source Control Management** : Cloud Data Fusion lets you better\n manage pipelines between development and production with\n [Source Control Management of the pipelines using GitHub](/data-fusion/docs/how-to/source-control-management).\n\n- **Logging and monitoring**: To monitor pipeline metrics and logs, it's\n recommended that you enable the Stackdriver logging service to use\n Cloud Logging with your Cloud Data Fusion pipeline.\n\nWhat's next\n-----------\n\n- Learn more about [managing Studio administration](/data-fusion/docs/concepts/manage-studio-administration)."]]