Übersicht über das SAP ODP-Plug-in

In dieser Anleitung wird beschrieben, wie Sie Datenpipelines bereitstellen, konfigurieren und ausführen, die das SAP ODP-Plug-in verwenden. Sie können SAP als Quelle für die Batch- und Deltabasierte Datenextraktion in Cloud Data Fusion über die operative Datenbereitstellung (ODP) verwenden.

Dieses Plug-in ermöglicht die Bulk-Datenintegration aus SAP-Anwendungen mit Cloud Data Fusion. Sie können Bulk-Datenübertragungen aus SAP-DataSources ohne Codierung konfigurieren und ausführen.

Informationen zu unterstützten SAP-Anwendungen und DataSources zum Extrahieren finden Sie unter Supportdetails. Weitere Informationen zu SAP in Google Cloud.

Lernziele

  • SAP-ERP-System konfigurieren (DataSources in SAP aktivieren)
  • Stellen Sie das Plug-in in Ihrer Cloud Data Fusion-Umgebung bereit.
  • SAP-Transport von Cloud Data Fusion herunterladen und in SAP installieren
  • Erstellen Sie mit Cloud Data Fusion und SAP ODP die Datenpipelines für die Integration von SAP-Daten.

Hinweis

Für die Verwendung dieses Plug-ins benötigen Sie Domainkenntnisse in folgenden Bereichen:

  • Pipelines in Cloud Data Fusion erstellen
  • Zugriffsverwaltung mit IAM
  • SAP Cloud und lokale ERP-Systeme (Enterprise Resource Planning) konfigurieren

Nutzerrollen

Die Aufgaben auf dieser Seite werden von Personen mit den folgenden Rollen in Google Cloud oder in ihrem SAP-System ausgeführt:

Nutzertyp Beschreibung
Google Cloud-Administrator Nutzer mit dieser Rolle sind Administratoren von Google Cloud-Konten.
Cloud Data Fusion-Nutzer Nutzer, denen diese Rolle zugewiesen ist, sind berechtigt, Datenpipelines zu entwerfen und auszuführen. Sie haben mindestens die Rolle Data Fusion-Betrachter“ (roles/datafusion.viewer). Wenn Sie die rollenbasierte Zugriffssteuerung verwenden, benötigen Sie möglicherweise zusätzliche Rollen.
SAP-Administrator Nutzer mit dieser Rolle sind Administratoren des SAP-Systems. Sie können Software von der SAP-Dienstwebsite herunterladen. Es ist keine IAM-Rolle.
SAP-Nutzer Nutzer mit dieser Rolle sind berechtigt, eine Verbindung zu einem SAP-System herzustellen. Es ist keine IAM-Rolle.

Voraussetzungen für die ODP-Extraktion

  1. DataSource muss im SAP-System aktiviert sein.

  2. Daten müssen in DataSource eingefüllt sein.

  3. Die DataSource muss für die ODP-Extraktion aktiviert sein. So können Sie prüfen, ob sie aktiviert ist:

    1. Melden Sie sich im SAP-System an. Gehen Sie zum t-code SE16N.
    2. Geben Sie den Tabellennamen ROOSATTR und den DataSource-Namen in OLTPSOURCE an.
    3. Klicken Sie auf Ausführen oder drücken Sie F8.
    4. Wenn das Feld EXPOSE_EXTERNAL als X markiert ist, kann DataSource für die ODP-Extraktion verwendet werden.
  4. Wenn DataSource nicht in dieser Tabelle aufgeführt ist oder das Feld EXPOSE_EXTERNAL leer ist, gehen Sie so vor, um DataSource für die ODP-Extraktion bereitzustellen:

    1. Melden Sie sich im SAP-System an. Wechseln Sie zum t-code SA38.
    2. Geben Sie den Programmnamen RODPS_OS_EXPOSE an und klicken Sie auf Ausführen.
    3. Geben Sie den DataSource-Namen an und klicken Sie auf DataSource freigeben.
    4. Speichern Sie die Änderungen im Transport.

Datenextraktionsmodi

Das Plug-in unterstützt diese Datenextraktionsmodi:

  • Voll: Extrahiert alle Daten.
  • Synchronisierung: Bestimmt auf Basis des vorherigen Ausführungsstatus in SAP, ob der Extraktionsmodus vollständig (alle Daten), Delta (inkrementelle Änderungen) oder Wiederherstellung (wiederholte Ausführung) verwendet werden soll.

Mit DataSource filterbare Spalten

Für das Filtern von Bedingungen können nur einige DataSource-Spalten verwendet werden. Dies ist eine SAP-Einschränkung.

So erhalten Sie die Feldinformationen:

  1. Melden Sie sich im SAP-System an. Gehen Sie zu t-code-RSA3.
  2. Geben Sie den DataSource-Namen an und drücken Sie Enter.

    Sie können Felder aus dem Abschnitt Auswahl als Filter verwenden. Unterstützte Vorgänge sind Gleich und Zwischen (Bereich).

SAP-ERP-System konfigurieren

Das SAP ODP verwendet ein Remote Function Module (RFM), das auf jedem SAP-Server installiert werden muss, auf dem Daten extrahiert werden. Dieses RFM wird als SAP-Transport bereitgestellt.

So konfigurieren Sie Ihr SAP-System:

  1. Der Cloud Data Fusion-Nutzer muss die ZIP-Datei, die den SAP-Transport enthält, herunterladen und für den SAP-Administrator bereitstellen. Verwenden Sie den Link, der mit dem Plug-in im Hub bereitgestellt wird, um den Transport herunterzuladen. Siehe Cloud Data Fusion einrichten.
  2. Der SAP-Administrator muss den SAP-Transport in das SAP-System importieren und die erstellten Objekte prüfen. Weitere Informationen finden Sie unter SAP-Transport installieren.
  3. Der SAP-Nutzer kann entweder den Autorisierungstransport importieren oder die Autorisierungsrolle auf Grundlage des Autorisierungsobjekts erstellen. Weitere Informationen zu Autorisierungsobjekten finden Sie unter Erforderliche SAP-Autorisierung.

DataSource aktivieren

Zum Extrahieren der Daten muss eine DataSource im SAP-Quellsystem aktiviert werden. So aktivieren Sie eine DataSource in SAP:

  1. Gehen Sie zum Transaktionscode RSA5.
  2. Maximieren Sie die DataSource-Liste.
  3. Klicken Sie auf Suchen.
  4. Geben Sie den DataSource-Namen an und drücken Sie die Eingabetaste .
  5. Wenn die Suche erfolgreich ist, wird die DataSource in der Ergebnisliste angezeigt.

    Wählen Sie den DataSource-Namen aus und drücken Sie die -Eingabetaste.

  6. Wählen Sie die DataSource aus und klicken Sie auf DataSources aktivieren.

  7. Geben Sie im Dialogfeld Objektverzeichniseintrag erstellen den Paketnamen ein und klicken Sie auf Speichern.

  8. Geben Sie im Dialogfeld Aufforderung für transportable Workbench-Anfrage in das Feld Anfrage die Transportnummer ein. Drücken Sie die Eingabetaste.

    Die ausgewählte DataSource ist in SAP aktiviert.

SAP-Transportdateien installieren

Die SAP-Komponenten sind erforderlich, um Datenpipelines in Cloud Data Fusion zu entwerfen und auszuführen. Sie werden als SAP-Transportdateien bereitgestellt, die als ZIP-Datei archiviert werden (eine Transportanfrage, die aus einer Cofile und einer Datendatei besteht).

Die Transportanfrage-ID und die zugehörigen Dateien finden Sie in der folgenden Tabelle.

Transport-ID Cofile Datendatei Inhalt
DE3K900079 K900079.DE3 R900079.DE3 RFC-fähige Funktionsmodule
DE3K900042 K900042.DE3 R900042.DE3 Autorisierungsrolle

Nachdem der Transport in das SAP-System importiert wurde, werden die folgenden SAP-Objekte erstellt:

  • RFC-fähige Funktionsmodule:
    • /GOOG/ODP_DS_EXTRACT_DATA
    • /GOOG/ODP_DS_FETCH_DATA
    • /GOOG/ODP_DS_METADATA
    • /GOOG/ODP_REPL_CLEANUP
  • Autorisierungsrolle: /GOOG/ODP_AUTH

So installieren Sie den SAP-Transport:

Schritt 1: Transportanfragedateien hochladen

  1. Melden Sie sich im SAP-System als SAP-Systemadministrator an.
  2. Kopieren Sie die Cofiles in den Ordner /usr/sap/trans/cofiles.
  3. Kopieren Sie die Datendateien in den Ordner /usr/sap/trans/data.

Schritt 2: Transportanfragedateien importieren

Der SAP-Administrator kann die Transportanfragedateien mit einer der folgenden Optionen importieren:

Option 1: Transportanfragedateien mit dem SAP-Transport-Management-System importieren
  1. Melden Sie sich im SAP-System als SAP-Administrator an.
  2. Geben Sie die Transaktions-STMS ein.
  3. Klicken Sie auf Übersicht > Importe.
  4. Doppelklicken Sie in der Spalte „Warteschlange” auf die aktuelle SID.
  5. Klicken Sie auf Extras > Sonstige Anfragen > Hinzufügen.
  6. Wählen Sie die Transportanfrage-ID aus und klicken Sie auf Weiter.
  7. Wählen Sie die Transportanfrage in der Importwarteschlange aus und klicken Sie dann auf Anfrage > Importieren.
  8. Geben Sie die Clientnummer ein.
  9. Wählen Sie auf dem Tab Optionen die Optionen Originale überschreiben und Ungültige Komponentenversion ignorieren aus (falls verfügbar).

    Optional: Wenn Sie einen erneuten Import der Transporte für einen späteren Zeitpunkt planen möchten, wählen Sie Transportanfragen in der Warteschlange für einen späteren Import lassen und Transportanfragen noch einmal importieren aus. Dies ist nützlich für SAP-Systemupgrades und Sicherungswiederherstellungen.

  10. Klicken Sie auf Weiter.

  11. Verwenden Sie zum Prüfen des Imports Transaktionen wie SE80 oder SU01.

Option 2: Transportanfragedateien auf Betriebssystemebene importieren
  1. Melden Sie sich im SAP-System als SAP-Systemadministrator an.
  2. Fügen Sie dem Importpuffer die entsprechenden Anfragen hinzu, indem Sie den folgenden Befehl ausführen:

    tp addtobuffer TRANSPORT_REQUEST_ID SID
    

    Beispiel: tp addtobuffer IB1K903958 DD1

  3. Importieren Sie die Transportanfragen mit dem folgenden Befehl:

    tp import TRANSPORT_REQUEST_ID SID client=NNN U1238
    

    Ersetzen Sie NNN durch die Clientnummer. Beispiel: tp import IB1K903958 DD1 client=800 U1238

  4. Prüfen Sie mit den entsprechenden Transaktionen wie SE80 und SU01, ob das Funktionsmodul und die Autorisierungsrollen erfolgreich importiert wurden.

Erforderliche SAP-Autorisierungen

Zum Ausführen einer Datenpipeline in Cloud Data Fusion benötigen Sie einen SAP-Nutzer. Der SAP-Nutzer muss vom Typ Communications oder Dialog sein. Damit SAP-Dialogressourcen nicht verwendet werden, wird der Typ Communications empfohlen. Nutzer können mit dem SAP-Transaktionscode SU01 erstellt werden.

Weisen Sie dem SAP-Nutzer eine Autorisierungsrolle zu, um Datenpipelines in Cloud Data Fusion zu entwerfen und auszuführen. Sie können entweder die Autorisierungsrolle /GOOG/ODP_AUTH zuweisen, die in den mit dem Plug-in bereitgestellten SAP-Transporten enthalten ist, oder die Autorisierungsrolle manuell in SAP erstellen.

So erstellen Sie die Autorisierungsrolle manuell:

  1. Geben Sie in der SAP-GUI den Transaktionscode PFCG ein, um das Fenster Rollenwartung zu öffnen.
  2. Geben Sie im Feld Rolle einen Namen für die Rolle ein.

    Beispiel: zcdf_role

  3. Klicken Sie auf Einzelne Rolle.

    Das Fenster Rollen erstellen wird geöffnet.

  4. Geben Sie eine Beschreibung in das Feld Beschreibung ein und klicken Sie auf Speichern.

    Beispiel: Authorizations for SAP ODP plugin.

  5. Klicken Sie auf den Tab Autorisierungen. Der Titel des Fensters ändert sich in Rollen ändern.

  6. Klicken Sie unter Autorisierungsdaten bearbeiten und Profile generieren auf Autorisierungsdaten ändern.

    Das Fenster Vorlage auswählen wird geöffnet.

  7. Klicken Sie auf Vorlagen nicht auswählen.

    Das Fenster Rolle ändern: Autorisierungen wird geöffnet.

  8. Klicken Sie auf Manuell.

  9. Geben Sie die Berechtigungen in der folgenden SAP-Autorisierungstabelle an.

  10. Klicken Sie auf Speichern.

  11. Klicken Sie auf das Symbol Generieren, um die Autorisierungsrolle zu aktivieren.

Tabelle 3: SAP-Autorisierungen

Objektklasse Text der Objektklasse Autorisierungsobjekt Text des Autorisierungsobjekts Autorisierung Text Wert
AAAB Anwendungsübergreifende Autorisierungsobjekte S_RFC Autorisierungsprüfung für RFC-Zugriff ACTVT Aktivität 16
AAAB Anwendungsübergreifende Autorisierungsobjekte S_RFC Autorisierungsprüfung für RFC-Zugriff RFC_NAME Name des RFC-Objekts, auf das Zugriff gewährt wird /GOOG/CDF_ODP_FG,
/GOOG/ODP_DS_EXTRACT_DATA,
/GOOG/ODP_DS_FETCH_DATA,
/GOOG/ODP_DS_METADATA,
DDIF_FIELDINFO_GET,
RFCPING,
RFC_GET_FUNCTION_INTERFACE,
RODPS_REPL_ODP_CLOSE,
SAPTUNE_GET_SUMMARY_STATISTIC,
TH_WPINFO
AAAB Anwendungsübergreifende Autorisierungsobjekte S_RFC Autorisierungsprüfung für RFC-Zugriff RFC_TYPE Typ des RFC-Objekts, auf das Zugriff gewährt wird FUGR
FUNC
AAAB Anwendungsübergreifende Autorisierungsobjekte S_TCODE Transaktionscodeprüfung beim Start der Transaktion TCD Transaktionscode SM50
BC_A Grundlage: Verwaltung S_ADMI_FCD Systemautorisierungen S_ADMI_FCD Systemverwaltungsfunktion PADM,
ST0R
BC_A Grundlage: Verwaltung S_BTCH_ADM Hintergrundverarbeitung: Hintergrundadministrator BTCADMIN Hintergrundadministrator-ID Y
BC_A Grundlage: Verwaltung S_BTCH_JOB Hintergrundverarbeitung: Vorgänge für Hintergrundjobs JOBACTION Jobvorgänge RELE
BC_A Grundlage: Verwaltung S_BTCH_JOB Hintergrundverarbeitung: Vorgänge für Hintergrundjobs JOBGROUP Zusammenfassung der Jobs für eine Gruppe RELE
RO Autorisierungen: BW Service API S_RO_OSOA SAP DataSource-Autorisierungen ACTVT Aktivität 03
RO Autorisierungen: BW Service API S_RO_OSOA SAP DataSource-Autorisierungen OLTPSOURCE DataSource (OSOA/OSOD) *
RO Autorisierungen: BW Service API S_RO_OSOA SAP DataSource-Autorisierungen OSOAAPCO Anwendungskomponente einer DataSource (OSOA/OSOD) *
RO Autorisierungen: BW Service API S_RO_OSOA SAP DataSource-Autorisierungen OSOAPART Unterobjekt für DataSource DATA
* Wenn Sie verhindern möchten, dass ein Nutzer ODP-Pipelines mit bestimmten Datenquellen ausführt, verwenden Sie für das Autorisierungsobjekt S_RO_OSOA kein Sternchen (*). Geben Sie stattdessen die erforderlichen DataSource-Namen in OLTPSOURCE an (z. B. 2LIS_02_ITM, 0MATERIAL_ATTR).

Cloud Data Fusion einrichten

Achten Sie darauf, dass die Kommunikation zwischen der Cloud Data Fusion-Instanz und dem SAP-Server aktiviert ist. Richten Sie für private Instanzen Netzwerk-Peering ein. Nachdem das Netzwerk-Peering mit dem Projekt eingerichtet wurde, in dem die SAP-Systeme gehostet werden, ist keine weitere Konfiguration erforderlich, um eine Verbindung zu Ihrer Cloud Data Fusion-Instanz herzustellen. Sowohl das SAP-System als auch die Cloud Data Fusion-Instanz müssen sich im selben Projekt befinden.

Cloud Data Fusion-Nutzerschritte

So konfigurieren Sie Ihre Cloud Data Fusion-Umgebung für das Plug-in:

  1. Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Wählen Sie die gewünschte Instanz aus.

    Die Seite mit den Instanzdetails wird geöffnet.

  3. Prüfen Sie, ob die Instanz auf Version 6.4.0 oder höher aktualisiert wurde. Wenn die Instanz eine ältere Version hat, müssen Sie ein Upgrade ausführen.

  4. Öffnen Sie die Instanz. Klicken Sie beim Öffnen der Cloud Data Fusion-UI auf Hub.

  5. Wählen Sie den Tab SAP > SAP ODP aus.

    Wenn der SAP-Tab nicht sichtbar ist, finden Sie weitere Informationen unter Fehlerbehebung bei SAP-Integrationen.

  6. Klicken Sie auf SAP ODP Plug-ins bereitstellen.

    Das Plug-in wird jetzt auf der Studio-Seite im Menü Quelle angezeigt.

Schritte des SAP-Administrators und des Google Cloud-Administrators

Der SAP-Administrator lädt die folgenden JCo-Artefakte von der SAP-Supportwebsite herunter und übergibt sie an den Google Cloud-Administrator.

  • One Platform-unabhängig (sapjco3.jar)
  • One-Platform-abhängig (libsapjco3.so on Unix)

So laden Sie die Dateien herunter:

  1. Rufen Sie die Seite SAP-Connectors auf.

  2. Klicken Sie auf SAP Java Connector/Tools und Dienste. Sie können plattformspezifische Links für den Download auswählen.

  3. Wählen Sie die Plattform aus, auf der Ihre Cloud Data Fusion-Instanz ausgeführt wird:

    1. Wenn Sie für die VMs in Ihrem Cluster Standard-Google Cloud-Images verwenden (Standardeinstellung für Cloud Data Fusion), wählen Sie Linux für Intel-kompatible Prozessoren 64-Bit x86 aus.
    2. Wenn Sie ein benutzerdefiniertes Image verwenden, wählen Sie die entsprechende Plattform aus.
  4. Der Google Cloud-Administrator muss die JCo-Dateien in einen lesbaren Cloud Storage-Bucket kopieren. Stellen Sie den Bucket-Pfad für den Cloud Data Fusion-Nutzer bereit, sodass er in das entsprechende Plug-in-Attribut in Cloud Data Fusion eingeben werden kann: GCS-Pfad zu SAP JCo-Bibliothek (siehe Plug-in konfigurieren).

  5. Der Google Cloud-Administrator muss dem Cloud Data Fusion-Dienstkonto für die Designumgebung und das Dataproc-Dienstkonto für die Ausführungsumgebung Lesezugriff auf die beiden Dateien erteilen. Weitere Informationen finden Sie unter Cloud Data Fusion-Dienstkonten.

Plug-in konfigurieren

Das SAP ODP-Plug-in liest den Inhalt einer SAP DataSource.

Zum Filtern der Einträge können Sie die folgenden Attribute für das SAP ODP konfigurieren.

Basis

  • Referenzname: Name, der dazu dient, diese Quelle eindeutig für die Datenverlaufskontrolle, das Annotieren von Metadaten usw. zu identifizieren.
  • SAP-Client: Der zu verwendende SAP-Client (z. B. 100).
  • SAP-Sprache: SAP-Anmeldesprache (z. B. EN).
  • Verbindungstyp: SAP-Verbindungstyp (direkt oder Load Balancing). Wenn Sie einen Typ auswählen, werden die folgenden verfügbaren Felder geändert:

    Für eine direkte Verbindung:

    • Host des SAP-Anwendungsservers: Der Name oder die IP-Adresse des SAP-Servers.
    • SAP-Systemnummer: Die SAP-Systemnummer (z. B. 00).
    • SAP-Router: Der Routerstring.

    Für eine Verbindung mit Load-Balancing:

    • SAP Message Server Host: Der SAP Message-Host-Name oder die IP-Adresse.
    • SAP Message Server-Dienst oder Portnummer: Der SAP Message Server-Dienst oder die Portnummer (z. B. sapms02).
    • SAP-System-ID (SID): Die SAP-System-ID (z. B. N75).
    • Name der SAP-Anmeldegruppe: Der Name der SAP-Anmeldegruppe (z. B. PUBLIC).
  • SAP DataSource-Name: Der SAP DataSources-Name (z. B. 2LIS_02_ITM).

  • Schaltfläche Schema abrufen: Generiert ein Schema anhand der Metadaten von SAP mit automatischer Zuordnung der SAP-Datentypen zu den entsprechenden Cloud Data Fusion-Datentypen (gleiche Funktionalität wie die Option Validieren).

  • Extraktionstyp: Das Plug-in unterstützt die folgenden zwei Arten der Datenextraktion:

    • Vollständig (Alle Daten): Extrahiert alle verfügbaren Daten.
    • Synchronisierung (automatische Auswahl basierend auf der vorherigen Ausführung): Legt fest, ob der Modus vollständig, Delta (inkrementell) oder Wiederherstellung (Daten der letzten Ausführung wiederherstellen) auf der Grundlage des Typs und des Status der vorherigen Ausführung, die in SAP verfügbar sind, ausgeführt werden soll. Dieser extrahiert vollständige Daten bei der ersten Pipelineausführung (ODP-Modus F) und ändert Daten in nachfolgenden Pipeline-Ausführungen (ODP-Modi D, R).

      Weitere Informationen finden Sie unter Extraktionstypen.

Anmeldedaten

  • Nutzername für SAP-Anmeldung: SAP-Nutzername. Empfohlen: Wenn sich der SAP-Anmeldename regelmäßig ändert, verwenden Sie ein Makro.
  • SAP-Anmeldepasswort: SAP-Nutzerpasswort. Empfohlen: Verwenden Sie sichere Makros für sensible Werte wie Nutzerpasswort.

SAP JCo-Details

  • GCP-Projekt-ID: Google Cloud-Projekt-ID, die ein Projekt eindeutig identifiziert. Sie finden es im Dashboard in der Google Cloud Console.
  • GCS-Pfad zur SAP JCo-Bibliothek: Der Cloud Storage-Pfad, der die vom Nutzer hochgeladenen SAP JCo-Bibliotheksdateien enthält.

Erweitert

  • SAP ODP-Abonnentenname: Gibt einen gültigen ODP-Abonnentennamen für die Datenextraktion aus einer gültigen DataSource an. Dieser Name darf maximal 32 Zeichen lang sein und darf keine Leerzeichen enthalten. Er darf nur a-z, A-Z, 0-9, _, / enthalten. Er muss für verschiedene Pipelines eindeutig sein, die Daten aus derselben DataSource extrahieren. Wenn Sie dieses Feld leer lassen oder nicht angeben, verwendet das Ausführungs-Framework die Standardkombination aus Projekt-ID, Namespace und Pipelinename. Wenn dieser Standardwert mehr als 32 Zeichen enthält, wird er vom Plug-in gekürzt. In diesem Feld können Sie ein früheres Abo wiederverwenden, z. B. eines, das mit einem Drittanbietertool erstellt wurde.

  • Filteroptionen (gleich): Definiert den Wert, den ein Feld lesen muss. Eine Liste der Namen von Metadatenfeldern und ihrer Wertpaare sind Filteroptionen. Sie gibt die Filterbedingung an, die beim Lesen von Daten aus einer DataSource angewendet werden soll. Es werden nur Datensätze extrahiert, die dem Filter entsprechen. Der Filterschlüssel entspricht einem Feld im Schema und muss ein einfacher Typ sein (nicht ARRAY, RECORD oder UNION).

  • Filteroptionen (Bereich): Definieren niedrige und hohe Grenzen, in denen der Feldwert gelesen werden muss. Das Format hat "Niedrig" UND "Hoch". Eine Liste der Namen von Metadatenfeldern und ihrer Wertpaare sind Filteroptionen. Die Liste gibt die Filterbedingung an, die beim Lesen von Daten aus einer DataSource angewendet werden soll. Es werden nur Datensätze extrahiert, die dem Filter entsprechen. Der Filterschlüssel entspricht einem Feld im Schema und muss ein einfacher Typ sein (nicht ARRAY, RECORD oder UNION).

  • Anzahl der zu generierenden Splits: Erstellt Aufteilungen bzw. Partitionen, um Tabelleneinträge parallel zu extrahieren. Die Laufzeit-Engine erstellt die angegebene Anzahl von Partitionen (und SAP-Verbindungen) beim Extrahieren der Tabelleneinträge. Seien Sie vorsichtig, wenn Sie dieses Attribut auf eine Zahl größer als 16 setzen, da eine höhere Parallelität gleichzeitige Verbindungen mit SAP erhöht. Werte zwischen 8 und 16 werden empfohlen. Wenn der Wert 0 ist oder leer bleibt, wählt das System einen geeigneten Wert basierend auf der Anzahl der verfügbaren Executors und der zu extrahierenden Datensätzen sowie der Paketgröße aus.

  • Paketgröße (in KB): Anzahl der Datensätze, die in einem einzelnen SAP-Netzwerkaufruf extrahiert werden sollen. Dies ist die Anzahl der Datensätze, die SAP bei jedem Netzwerkextraktionsaufruf im Speicher speichert. Mehrere Datenpipelines, die Daten extrahieren, können die Speicherauslastung erhöhen und zu Fehlfunktionen aufgrund von Out of Memory-Fehlern führen. Seien Sie vorsichtig, wenn Sie dieses Attribut festlegen.

    Geben Sie eine positive ganze Zahl ein. Wenn 0 oder leer ist, verwendet das Plug-in den Standardwert 70000 (oder einen entsprechend berechneten Wert), wenn die Anzahl der zu extrahierenden Datensätze weniger als 70.000 beträgt.

    Wenn die Datenpipeline mit Out of Memory-Fehlern fehlschlägt, verringern Sie entweder die Paketgröße oder erhöhen Sie den für Ihre SAP-Arbeitsprozesse verfügbaren Speicher.

Pipeline konfigurieren

Bei großen Datasets (z. B. bei einigen Millionen Datensätzen) mit einer großen Anzahl von Aufteilungen (über 16 Splits) sendet das SAP-System möglicherweise doppelte Datensätze. Um dies zu verhindern, wird die Verwendung einer der folgenden Deduplizierungsmethoden in Ihrer Cloud Data Fusion-Pipeline empfohlen.

Bei beiden Methoden verwenden Sie die Schlüsselfelder der DataSource, um die Deduplizierung durchzuführen.

  • Wenn Sie eine BigQuery-Senke in der Pipeline verwenden, verwenden Sie den Upsert-Modus in der BigQuery-Senke. Geben Sie die Schlüsselfelder im Abschnitt Tabellenschlüssel des BigQuery-Senken-Plug-ins an.

  • Wenn Sie in der Pipeline keine BigQuery-Senke nutzen, verwenden Sie das Deduplizierungs-Plug-in, das nach dem SAP ODP-Quell-Plug-in in die Pipeline eingefügt wurde. Geben Sie die Schlüsselfelder im Bereich Eindeutige Felder des Deduplizierungs-Plug-ins an.

Datentypzuordnung

Tabelle 4: SAP-Datentypen, die Cloud Data Fusion-Typen zugeordnet sind

SAP-Datentyp ABAP-Typ Beschreibung (SAP) Cloud Data Fusion-Datentyp
Numerisch
INT1 b 1-Byte-Ganzzahl int
INT2 s 2-Byte-Ganzzahl int
INT4 i 4-Byte-Ganzzahl int
INT8 8 8-Byte-Ganzzahl long
DEZ p Nummer des Pakets im BCD-Format (DEC) decimal
DF16_DEC,
DF16_RAW
a Dezimales Gleitkomma 8 Byte IEEE 754r decimal
DF34_DEC,
DF34_RAW
e Dezimales Gleitkomma 16 Byte IEEE 754r decimal
FLTP f Binäre Gleitkommazahl double
Zeichen
CHAR,
LCHR
c Zeichenstring string
SSTRING,
GEOM_EWKB
string Zeichenstring string
STRING string Zeichenstring CLOB bytes
NUMC,
ACCP
n Numerischer Text string
Byte
RAW,
LRAW
x Binärdaten bytes
Rohstring xstring Bytestring BLOB bytes
Datum/Uhrzeit
DATS d Datum date
TIMS t Zeit time
TIMS utcl (Utclong),
TimeStamp
timestamp

Validierung

Klicken Sie oben rechts auf Validieren oder Schema abrufen.

Das Plug-in validiert die Attribute und generiert ein Schema anhand der Metadaten von SAP. SAP-Datentypen werden den entsprechenden Cloud Data Fusion-Datentypen automatisch zugeordnet.

Datenpipeline ausführen

  1. Nachdem Sie die Pipeline bereitgestellt haben, klicken Sie im oberen Bereich der Seitenleiste auf Konfigurieren.
  2. Wählen Sie Ressourcen aus.
  3. Ändern Sie bei Bedarf die Executor-CPU und den Arbeitsspeicher entsprechend der Gesamtdatengröße und der Anzahl der in der Pipeline verwendeten Transformationen.
  4. Klicken Sie auf Speichern.
  5. Klicken Sie zum Starten der Datenpipeline auf Ausführen.

Leistungsoptimierung

Das Plug-in verwendet die Parallelisierungsfunktionen von Cloud Data Fusion. Die folgenden Richtlinien können dabei helfen, die Laufzeitumgebung zu konfigurieren, damit die Laufzeit-Engine genügend Ressourcen bereitstellt, um den gewünschten Grad an Parallelität und Leistung zu erreichen.

SAP-Konfiguration optimieren

Empfohlen: Verwenden Sie einen SAP Communication-Nutzer anstelle eines Dialog-Nutzers (verwendet weniger SAP-Systemressourcen). Wenn ein Message Server in Ihrer Umgebung verfügbar ist, verwenden Sie außerdem eine SAP-Verbindung mit Load-Balancing anstelle einer direkten Verbindung.

Wenn Sie Werte für die Anzahl der Splits und die Paketgröße angeben, kann das Plug-in diese Werte anpassen, um die verfügbaren SAP-Arbeitsprozesse und den verfügbaren Arbeitsspeicher nicht auszuschöpfen. Dies sind die oberen Grenzen der verwendeten SAP-Ressourcen:

  • 50 % der verfügbaren Arbeitsprozesse
  • 70 % des verfügbaren Speichers pro Arbeitsvorgang

Plug-in-Konfiguration optimieren

Empfohlen: Lassen Sie Anzahl der zu generierenden Splits und Paketgröße leer, sofern Sie nicht mit den Speichereinstellungen Ihres SAP-Systems vertraut sind. Standardmäßig werden diese Werte automatisch optimiert, um eine bessere Leistung zu erzielen.

Verwenden Sie die folgenden Attribute, um beim Ausführen der Pipeline eine optimale Leistung zu erzielen:

  • Anzahl der zu generierenden Splits: Dadurch wird die Parallelität auf der Cloud Data Fusion-Seite direkt gesteuert. Die Laufzeit-Engine erstellt die angegebene Anzahl von Partitionen (und SAP-Verbindungen) beim Extrahieren der Tabelleneinträge. Werte zwischen 8 und 16 werden empfohlen, können aber mit der entsprechenden Konfiguration auf SAP-Seite bis zu 32 oder sogar 64 erhöht werden, wobei geeignete Speicherressourcen für die Arbeitsprozesse in SAP zugewiesen werden.

    Wenn der Wert 0 ist oder leer bleibt, wählt das System automatisch einen geeigneten Wert anhand der Anzahl der verfügbaren SAP-Arbeitsprozesse, der zu extrahierenden Datensätze und der Paketgröße aus.

  • Paketgröße: Die Größe jedes Datenpakets in Byte, das bei jedem Netzwerkaufruf an SAP abgerufen wird. Eine kleinere Größe führt dazu, dass häufige Netzwerkaufrufe wiederholt werden. Ein großes Paket (> 100 MB) kann den Datenabruf verlangsamen. 0 oder keine Eingabe ist standardmäßig auf 50 MB festgelegt.

Extraktionstypen

  • Wenn der Extraktionstyp Full ist, fordert das Plug-in immer vollständige Daten aus der DataSource an.
  • Wenn der Extraktionstyp Sync ist, prüft das Plug-in zuerst den Status der vorherigen Ausführung in SAP.
    • Wenn keine vorherige Ausführung vorhanden ist, wählen Sie Vollständige Daten (F) aus.
    • Wenn der vorherige Ausführungstyp Vollständig (F) war:
      • Wenn diese Ausführung erfolgreich abgeschlossen wurde, führen Sie den aktuellen Vorgang im Modus Delta (D) aus.
      • Andernfalls führen Sie den aktuellen Modus im Vollmodus (F) aus. Dadurch können die zuvor fehlerhaften Daten wiederhergestellt werden.
    • Wenn der vorherige Ausführungstyp der Deltamodus (D) oder der Wiederherstellungsmodus (R) war:
      • Wenn diese Ausführung erfolgreich abgeschlossen wurde, führen Sie den aktuellen Vorgang im Modus Delta (D) aus.
      • Andernfalls führen Sie den aktuellen Vorgang im Modus Wiederherstellung (R) aus. Dadurch können die vorherigen fehlerhaften Deltadaten wiederhergestellt werden.

Mehrere Pipelineextraktionen aus derselben DataSource

Diese Funktion wird derzeit nicht unterstützt. Es kann jeweils nur eine Pipeline Daten aus einer DataSource extrahieren.

Empfohlen: Lassen Sie das Feld SAP ODP-Abonnentenname leer und führen Sie nicht mehrere Pipelines aus, die Daten aus derselben DataSource extrahieren.

Cloud Data Fusion-Ressourceneinstellungen

Empfohlen: Verwenden Sie 1 CPU und 4 GB Arbeitsspeicher pro Executor. Dieser Wert gilt für jeden Executor-Prozess. Legen Sie diese im Dialogfeld > Ressourcen konfigurieren fest.

Dataproc-Clustereinstellungen

Empfohlen: Weisen Sie mindestens eine Gesamtzahl von CPUs (über Worker) zu, die größer als die vorgesehene Anzahl von Splits ist (siehe Plug-in-Konfiguration). Wenn Sie beispielsweise 16 Aufteilungen haben, definieren Sie insgesamt 20 oder mehr CPUs für alle Worker. Es gibt einen Aufwand von 4 CPUs für die Koordination.

Empfohlen: Verwenden Sie einen nichtflüchtigen Dataproc-Cluster, um die Datenpipeline-Laufzeit zu reduzieren. Dadurch wird der Bereitstellungsschritt entfernt, der einige Minuten oder länger dauern kann. Legen Sie dies im Abschnitt zur Compute Engine-Konfiguration fest.

Beispielkonfigurationen und Durchsatz

Beispiele für Entwicklungskonfigurationen:

  • Dataproc-Cluster mit 8 Workern, jeweils mit 4 CPUs und 26 GB Arbeitsspeicher. Sie können bis zu 28 Aufteilungen verwenden.
  • Dataproc-Cluster mit 2 Workern, jeweils 8 CPUs und 52 GB Arbeitsspeicher Sie können bis zu 12 verwenden.

Beispiele für Produktionskonfigurationen und Durchsatz:

  • Dataproc-Cluster mit 8 Workern, jeweils 8 CPUs und 32 GB Arbeitsspeicher. Verwenden Sie Anzahl der Teilungen bis zu 32 (die Hälfte der verfügbaren Gesamt-CPUs).
  • Dataproc-Cluster mit 16 Workern, jeweils mit 8 CPUs und 32 GB Arbeitsspeicher Verwenden Sie Anzahl der Teilungen bis zu 64 (die Hälfte der verfügbaren CPUs).

Die folgende Tabelle zeigt den Beispieldurchsatz für ein SAP S4HANA 1909-Produktionsquellensystem.

Name der Datenquelle Anzahl der Spalten Cluster Paketgröße Splits Extrahiertyp Extrahierte Datensätze Durchsatz
211_VAITM 127 16 Worker Standard (50 MB) 0 Vollständig 43 Mio. 38,35 GB/Stunde
211_VAITM 127 16 Worker Standard (50 MB) 0 Vollständig 43 Mio. 38,35 GB/Stunde
211_VAITM 127 16 Worker 10 MB 64 Vollständig 43 Mio. 36,78 GB/Stunde
0FI_GL_14 232 16 Worker 100 MB 64 Vollständig 306 Mio. 22,92 GB/Stunde
0FI_GL_4 89 8 Worker Standard (50 MB) 0 Vollständig 303 Mio. 35,90 GB/Stunde

Supportdetails

Unterstützte SAP-Produkte und -Versionen

Unterstützte Quellen:

  • SAP S4/HANA 1909 und höher
  • SAP ERP6 NW 7.31 SP16 und höher. Importieren Sie den SAP-Hinweis 2232584, um zusätzliche DataSources im System zu aktivieren.
  • SAP-ERP-Systeme auf Basis von NW 7.31 SP16 oder höher

Unterstützte SAP-Bereitstellungsmodelle

Das Plug-in wurde mit SAP-Servern getestet, die in Google Cloud bereitgestellt werden.

Unterstützte SAP-Datenquellen für die Extraktion

Das Plug-in unterstützt die folgenden DataSource-Typen:

  • Transaktionsdaten
  • Masterdaten
  • Attribute
  • Texte
  • Hierarchien

Erforderliche SAP-Hinweise

Wenn Sie zusätzliche DataSources aktivieren müssen, implementieren Sie den folgenden Hinweis für ERP6-Systeme: 2232584: Release von SAP-Extraktoren für ODP-Replikation (ODP SAPI). Dieser externe Website erfordert eine SAP-Anmeldung.

Aktive Hintergrundjobs in SAP, wenn die CDF-Pipeline einen Fehler enthält

Bei einem CDF-Pipelinefehler, z. B. bei einem Fehler in der Senke, versucht das ODP-Plug-in, alle aktiven SAP-Side-Prozesse im Zusammenhang mit der Extraktion zu bereinigen. Dazu ruft er den benutzerdefinierten RFM auf, der für die Bereinigung bestimmt ist: /GOOG/ODP_REPL_CLEANUP. Wenn keine Fehler auftreten, ruft das Plug-in die Standard-RFM auf, die die Warteschlange schließen soll: RODPS_REPL_ODP_CLOSE.

Begrenzung der Datenmenge oder der Breite des Eintrags

Die Anzahl der extrahierten Zeilen oder die Größe der Datenquelle ist nicht definiert. Wir haben mit bis zu 306 Millionen Zeilen in einer Pipelineausführung mit einer Eintragsbreite von 1 KB getestet.

Erwarteter Plug-in-Durchsatz

Für eine Umgebung, die gemäß den Richtlinien im Abschnitt Leistung optimieren konfiguriert ist, kann das Plug-in etwa 38 GB pro Stunde extrahieren. Die tatsächliche Leistung kann je nach Auslastung von Cloud Data Fusion und SAP-Systemen oder des Netzwerkverkehrs variieren.

Weitere Informationen