Übersicht über das SAP ODP-Plug-in

In dieser Anleitung wird beschrieben, wie Sie Datenpipelines bereitstellen, konfigurieren und ausführen, die das SAP ODP-Plug-in verwenden. Sie können SAP über Operational Data Deployment (ODP) als Quelle für die Batch- und Delta-basierte Datenextraktion in Cloud Data Fusion verwenden.

Dieses Plug-in ermöglicht die Bulk-Datenintegration von SAP-Anwendungen in Cloud Data Fusion. Sie können Bulk-Datenübertragungen von SAP-Datenquellen ohne Programmierung konfigurieren und ausführen.

Informationen zu unterstützten SAP-Anwendungen und Datenquellen für die Extraktion finden Sie in den FAQ. Weitere Informationen zu SAP in Google Cloud finden Sie in der Übersicht über SAP in Google Cloud.

Ziele

  • SAP ERP-System konfigurieren (DataSources in SAP aktivieren)
  • Plug-in in der Cloud Data Fusion-Umgebung bereitstellen
  • SAP-Transport von Cloud Data Fusion herunterladen und in SAP installieren
  • Verwenden Sie Cloud Data Fusion und SAP ODP, um Datenpipelines zur Integration von SAP-Daten zu erstellen.

Hinweis

Um dieses Plug-in verwenden zu können, benötigen Sie Fachkenntnisse in folgenden Bereichen:

Nutzerrollen

Die Konfigurationsaufgaben auf dieser Seite erfordern Änderungen in Ihrem SAP-System und in Google Cloud. Sie müssen mit Administratoren an diesen Systemen arbeiten, um die Konfigurationen durchzuführen.

Tabelle 1: Nutzerrollen

Nutzertyp Beschreibung
Google Cloud-Administrator Nutzer mit dieser Rolle sind Administratoren von Google Cloud-Konten.
CDF-Nutzer Nutzer, denen diese Rolle zugewiesen ist, sind berechtigt, Datenpipelines zu entwerfen und auszuführen. Sie erhalten mindestens die Rolle "Cloud Data Fusion-Betrachter" ([roles/datafusion.viewer](data-fusion/docs/access-control#roles)). Wenn Sie die rollenbasierte Zugriffssteuerung verwenden, benötigen Sie möglicherweise [zusätzliche Rollen](/data-fusion/docs/concepts/rbac#vordefinierte-roles).
SAP-Administrator Nutzer mit dieser Rolle sind Administratoren des SAP-Systems. Sie können Software von der SAP-Dienstwebsite herunterladen. Es ist keine IAM-Rolle.
SAP-Nutzer Nutzer mit dieser Rolle sind berechtigt, eine Verbindung zu einem SAP-System herzustellen. Es ist keine IAM-Rolle.

Voraussetzungen für die ODP-Extraktion

  1. Die Datenquelle muss im SAP-System aktiviert werden.

  2. Die Daten müssen in DataSource dargestellt werden.

  3. Die Datenquelle muss für die ODP-Extraktion aktiviert sein. So kannst du prüfen, ob die Funktion aktiviert ist:

    1. Melden Sie sich im SAP-System an. Rufen Sie den T-Code SE16N auf.
    2. Geben Sie den Tabellennamen ROOSATTR und den Namen der DataSource in OLTPSOURCE an.
    3. Klicken Sie auf Ausführen oder drücken Sie F8.
    4. Wenn das Feld EXPOSE_EXTERNAL als X markiert ist, kann die Datenquelle für die ODP-Extraktion verwendet werden.
  4. Wenn die DataSource nicht in dieser Tabelle aufgeführt ist oder das Feld EXPOSE_EXTERNAL leer ist, führen Sie die folgenden Schritte aus, um die DataSource für die ODP-Extraktion bereitzustellen:

    1. Melden Sie sich im SAP-System an. Rufen Sie t-code SA38 auf.
    2. Geben Sie den Programmnamen RODPS_OS_EXPOSE ein und klicken Sie auf Ausführen.
    3. Geben Sie den DataSource-Namen an und klicken Sie auf Release DataSource.
    4. Speichern Sie die Änderungen im Transportmittel.

Datenextraktionsmodi

Das Plug-in unterstützt diese Datenextraktionsmodi:

  • Vollständig: Alle Daten werden extrahiert.
  • Synchronisierung: Bestimmt, ob der vollständige Extraktionsmodus (alle Daten), der Delta-Modus (inkrementelle Änderungen) oder der Extraktionsmodus (letzte Ausführung ausführen) für die aktuelle Ausführung auf Basis des vorherigen Ausführungsstatus in SAP verwendet werden soll aus.

Nach DataSource filterbare Spalten

Für Filterbedingungen können nur einige DataSource-Spalten verwendet werden. Dies ist standardmäßig eine SAP-Einschränkung.

So erhalten Sie die Feldinformationen:

  1. Melden Sie sich im SAP-System an. Gehen Sie zum RSA-3-Code.
  2. Geben Sie den Namen der Datenquelle an und drücken Sie Enter.

    Sie können Felder, die im Abschnitt Auswahl angezeigt werden, als Filter verwenden. Unterstützte Vorgänge sind Gleich und Zwischen (Bereich).

SAP-ERP-System konfigurieren

Der SAP-ODP verwendet ein Remote Functions Module (RFM), das auf jedem SAP-Server installiert werden muss, auf dem Daten extrahiert werden. Diese Angebotsanfrage wird als SAP-Transport bereitgestellt.

So konfigurieren Sie Ihr SAP-System:

  1. Der Cloud Data Fusion-Nutzer muss die ZIP-Datei mit dem SAP-Transport herunterladen und an den SAP-Administrator senden. Verwenden Sie zum Herunterladen den Link im Plug-in des Hubs. Siehe Cloud Data Fusion einrichten.
  2. Der SAP-Administrator muss den SAP-Transport in das SAP-System importieren und die erstellten Objekte überprüfen. Weitere Informationen finden Sie unter SAP-Transport installieren.
  3. Der SAP-Nutzer kann entweder den Autorisierungstransport importieren oder die Autorisierungsrolle anhand des Autorisierungsobjekts erstellen. Weitere Informationen zu Autorisierungsobjekten finden Sie unter Erforderliche SAP-Autorisierung.

Datenquelle aktivieren

Zum Extrahieren der Daten muss eine Datenquelle im SAP-Quellsystem aktiviert sein. So aktivieren Sie eine Datenquelle in SAP:

  1. Zum Transaktionscode RSA5
  2. Maximieren Sie die Liste DataDataSources“.
  3. Klicken Sie auf Suchen.
  4. Geben Sie den Namen der Datenquelle ein und drücken Sie die -Eingabetaste.
  5. Wenn die Suche erfolgreich ist, wird die Datenquelle in der Ergebnisliste angezeigt.

    Wählen Sie den Namen der Datenquelle aus und drücken Sie die Eingabetaste ().

  6. Wählen Sie die Datenquelle aus und klicken Sie auf Datenquellen aktivieren.

  7. Geben Sie im Dialogfeld Create Object Directory Entry den Objektnamen ein und klicken Sie auf Save.

  8. Geben Sie im Dialogfeld Aufforderung für eine übertragbare Workbench-Anfrage die Transportnummer in das Feld Anfrage ein. Klicken Sie auf Eingabetaste.

    Die ausgewählte Datenquelle wurde in SAP aktiviert.

SAP-Transportdateien installieren

Die SAP-Komponenten werden benötigt, um Datenpipelines in Cloud Data Fusion zu entwerfen und auszuführen. Sie werden als SAP-Transportdateien bereitgestellt, die als ZIP-Datei archiviert sind (eine Transportanfrage, die aus einer Co-Datei und einer Datendatei besteht).

Die Transportanfrage-ID und die zugehörigen Dateien sind in der folgenden Tabelle enthalten:

Tabelle 2: SAP-Transport

Transport-ID Datei Datendatei Inhalt
DE3K900057 K900057.DE3 R900057.DE3 RFC-fähige Funktionsmodule
DE3K900042 K900042.DE3 R900042.DE3 Autorisierungsrolle

Nachdem der Transport in das SAP-System importiert wurde, werden die folgenden SAP-Objekte erstellt:

  • RFC-fähige Funktionsmodule:
    • /GOOG/ODP_DS_EXTRACT_DATA
    • /GOOG/ODP_DS_FETCH_DATA
    • /GOOG/ODP_DS_METADATA
  • Autorisierungsrolle: /GOOG/ODP_AUTH

So installieren Sie den SAP-Transport:

Schritt 1: Dateien mit Transportanfragen hochladen

  1. Melden Sie sich im SAP-System als SAP-Systemadministrator an.
  2. Kopieren Sie die Cofiles in den Ordner /usr/sap/trans/cofiles.
  3. Kopieren Sie die Datendateien in den Ordner /usr/sap/trans/data.

Schritt 2: Dateien mit Transportanfragen importieren

Der SAP-Administrator kann die Transportanfragedateien mithilfe einer der folgenden Optionen importieren:

Option 1: Transportanfragedateien mit dem SAP-Transport-Management-System importieren
  1. Melden Sie sich im SAP-System als SAP-Administrator an.
  2. Geben Sie die Transaktions-STMS ein.
  3. Klicken Sie auf Übersicht > Importe.
  4. Doppelklicken Sie in der Spalte "Warteschlange" auf die aktuelle SID.
  5. Klicken Sie auf Extras > Sonstige Anfragen > Hinzufügen.
  6. Wählen Sie die Transportanfrage-ID aus und klicken Sie auf Weiter.
  7. Wählen Sie die Transportanfrage in der Importwarteschlange aus und klicken Sie dann auf Anfrage > Importieren.
  8. Geben Sie die Clientnummer ein.
  9. Wählen Sie auf dem Tab Optionen die Optionen Originale überschreiben und Ungültige Komponentenversion ignorieren aus (falls verfügbar).

    Optional: Wenn Sie einen erneuten Import der Transporte für einen späteren Zeitpunkt planen möchten, wählen Sie Transportanfragen in der Warteschlange für späteren Import verlassen und Transportanfragen noch einmal importieren aus. Dies ist nützlich für SAP-Systemupgrades und -wiederherstellungen von Sicherungen.

  10. Klicken Sie auf Weiter.

  11. Sie können den Import mit allen Transaktionen wie SE80 und SU01 überprüfen.

Option 2: Transportanfragedateien auf Betriebssystemebene importieren
  1. Melden Sie sich im SAP-System als SAP-Systemadministrator an.
  2. Fügen Sie dem Importpuffer die entsprechenden Anfragen hinzu, indem Sie den folgenden Befehl ausführen:

    tp addtobuffer TRANSPORT_REQUEST_ID SID
    

    Beispiel: tp addtobuffer IB1K903958 DD1

  3. Importieren Sie die Transportanfragen mit dem folgenden Befehl:

    tp import TRANSPORT_REQUEST_ID SID client=NNN U1238
    

    Ersetzen Sie NNN durch die Clientnummer. Beispiel: tp import IB1K903958 DD1 client=800 U1238

  4. Prüfen Sie mithilfe passender Transaktionen wie SE80 und SU01, ob das Funktionsmodul und die Autorisierungsrollen erfolgreich importiert wurden.

Erforderliche SAP-Autorisierungen

Zum Ausführen einer Datenpipeline in Cloud Data Fusion benötigen Sie einen SAP-Nutzer. Der SAP-Nutzer muss vom Typ Communications oder Dialog sein. Um die Verwendung von SAP-Dialogressourcen zu vermeiden, wird der Typ Communications empfohlen. Nutzer können mit dem SAP-Transaktionscode SU01 erstellt werden.

Weisen Sie dem SAP-Nutzer eine Autorisierungsrolle zum Entwerfen und Ausführen von Datenpipelines in Cloud Data Fusion zu. Sie können entweder die Autorisierungsrolle /GOOG/ODP_AUTH zuweisen, die in den mit dem Plug-in bereitgestellten SAP-Transporten enthalten ist, oder die Autorisierungsrolle manuell in SAP erstellen.

So erstellen Sie die Autorisierungsrolle manuell:

  1. Geben Sie in der SAP-GUI den Transaktionscode PFCG ein, um das Fenster Rollenverwaltung zu öffnen.
  2. Geben Sie im Feld Rolle einen Namen für die Rolle ein.

    Beispiel: zcdf_role

  3. Klicken Sie auf Einzelne Rolle.

    Das Fenster Rollen erstellen wird geöffnet.

  4. Geben Sie im Feld Beschreibung eine Beschreibung ein und klicken Sie auf Speichern.

    Beispiel: Authorizations for SAP ODP plugin.

  5. Klicken Sie auf den Tab Autorisierungen. Der Titel des Fensters ändert sich in Rollen ändern.

  6. Klicken Sie unter Autorisierungsdaten bearbeiten und Profile generieren auf Autorisierungsdaten ändern.

    Das Fenster Vorlage auswählen wird geöffnet.

  7. Klicken Sie auf Keine Vorlagen auswählen.

    Das Fenster Rolle ändern: Autorisierungen wird geöffnet.

  8. Klicken Sie auf Manuell.

  9. Geben Sie die Autorisierungen ein, die in der folgenden SAP-Autorisierungstabelle angezeigt werden.

  10. Klicken Sie auf Speichern.

  11. Klicken Sie auf das Symbol Generieren, um die Autorisierungsrolle zu aktivieren.

Tabelle 3: SAP-Autorisierungen

Objektklasse Text der Objektklasse Autorisierungsobjekt Text des Autorisierungsobjekts Autorisierung Text Wert
AAAB Anwendungsübergreifende Autorisierungsobjekte S_RFC. Autorisierungsprüfung für RFC-Zugriff Logo: ACTVT Aktivität 16
AAAB Anwendungsübergreifende Autorisierungsobjekte S_RFC. Autorisierungsprüfung für RFC-Zugriff RFC_NAME. Name des RFC-Objekts, auf das der Zugriff zulässig ist /GOOG/CDF_ODP_FG,
/GOOG/ODP_DS_EXTRACT_DATA,
/GOOG/ODP_DS_FETCH_DATA,
/GOOG/ODP_DS_METADATA,
DDIF_FIELDINFO_GET,
RFCPING,
RFC_GET_FUNCTION_INTERFACE,
RODPS_REPL_ODP_CLOSE,
SAPTUNE_GET_SUMMARY_STATISTIC,
TH_WPINFO
AAAB Anwendungsübergreifende Autorisierungsobjekte S_RFC. Autorisierungsprüfung für RFC-Zugriff RFC_TYPE Typ des RFC-Objekts, auf das der Zugriff zulässig ist FUGR
FUNC
AAAB Anwendungsübergreifende Autorisierungsobjekte S_TCODE Prüfung des Transaktionscodes beim Start der Transaktion TCD Transaktionscode SM50
Logo: BC_A Grundlage: Verwaltung S_ADMI_FCD Systemautorisierungen S_ADMI_FCD Systemverwaltungsfunktion PADM,
ST0R
Logo: BC_A Grundlage: Verwaltung S_BTCH_ADM- Hintergrundverarbeitung: Hintergrundadministrator BTCADMIN Hintergrundadministrator-ID Y
Logo: BC_A Grundlage: Verwaltung S_BTCH_JOB Hintergrundverarbeitung: Vorgänge bei Hintergrundjobs JOBACTION Jobvorgänge RELE
Logo: BC_A Grundlage: Verwaltung S_BTCH_JOB Hintergrundverarbeitung: Vorgänge bei Hintergrundjobs JOBGRUPPE Zusammenfassung der Jobs für eine Gruppe RELE
RO Autorisierungen: BW Service API S_RO_OSOA [S_RO_OSOA] SAP DataSource-Autorisierungen Logo: ACTVT Aktivität 03
RO Autorisierungen: BW Service API S_RO_OSOA [S_RO_OSOA] SAP DataSource-Autorisierungen OLTPQUELLE Datenquelle (OSOA/OSOD) *
RO Autorisierungen: BW Service API S_RO_OSOA [S_RO_OSOA] SAP DataSource-Autorisierungen OSOAPAP Anwendungskomponente einer Datenquelle (OSOA/OSOD) *
RO Autorisierungen: BW Service API S_RO_OSOA [S_RO_OSOA] SAP DataSource-Autorisierungen Logo: OSOAPART Unterobjekt für DataSource DATA
* Wenn Sie verhindern möchten, dass ein Nutzer ODP-Pipelines mit bestimmten Datenquellen ausführt, verwenden Sie im Autorisierungsobjekt S_RO_OSOA kein Sternchen (*). Geben Sie stattdessen die erforderlichen DataSource-Namen in OLTPSOURCE an (z. B. 2LIS_02_ITM, 0MATERIAL_ATTR).

Cloud Data Fusion einrichten

Achten Sie darauf, dass die Kommunikation zwischen der Cloud Data Fusion-Instanz und dem SAP-Server aktiviert ist. Richten Sie für private Instanzen Netzwerk-Peering ein. Nachdem das Netzwerk-Peering mit dem Projekt eingerichtet wurde, in dem die SAP-Systeme gehostet werden, ist keine weitere Konfiguration erforderlich, um eine Verbindung zu Ihrer Cloud Data Fusion-Instanz herzustellen. Sowohl das SAP-System als auch die Cloud Data Fusion-Instanz müssen sich im selben Projekt befinden.

Schritte für Cloud Data Fusion-Nutzer

So konfigurieren Sie Ihre Cloud Data Fusion-Umgebung für das Plug-in:

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Wählen Sie die gewünschte Instanz aus.

    Die Seite Instanzdetails wird geöffnet.

  3. Für die Instanz muss ein Upgrade auf Version 6.4.0 oder höher durchgeführt werden. Wenn die Instanz eine frühere Version ist, müssen Sie ein Upgrade ausführen.

  4. Öffnen Sie die Instanz. Klicken Sie beim Öffnen der Cloud Data Fusion-UI auf Hub.

  5. Wählen Sie den Tab SAP > SAP ODP aus.

    Wenn der SAP-Tab nicht sichtbar ist, finden Sie weitere Informationen unter Fehlerbehebung bei SAP-Integrationen.

  6. Klicken Sie auf SAP ODP-Plug-ins bereitstellen.

    Das Plug-in wird jetzt im Menü Source (Quelle) auf der Studio-Seite angezeigt.

Schritte für SAP Admin und Google Cloud Admin

Der SAP-Administrator lädt die folgenden JCo-Artefakte von der SAP-Supportwebsite herunter und übergibt sie dem Google Cloud-Administrator.

  • Eine plattformunabhängige Datei (sapjco3.jar)
  • Eine plattformabhängig (libsapjco3.so unter Unix)

So laden Sie die Dateien herunter:

  1. Rufen Sie die Seite SAP-Connectors auf.

  2. Klicken Sie auf SAP Java Connector/Tools und Dienste. Sie können plattformspezifische Links für den Download auswählen.

  3. Wählen Sie die Plattform aus, auf der Ihre Cloud Data Fusion-Instanz ausgeführt wird:

    1. Wenn Sie für die VMs in Ihrem Cluster Standard-Google Cloud-Images verwenden (Standardeinstellung für Cloud Data Fusion), wählen Sie Linux for Intel-kompatible Prozessoren (64-Bit-x86) aus.
    2. Wenn Sie ein benutzerdefiniertes Image verwenden, wählen Sie die entsprechende Plattform aus.
  4. Der Google Cloud-Administrator muss die JCo-Dateien in einen lesbaren Cloud Storage-Bucket kopieren. Geben Sie den Cloud Data Fusion-Nutzer an, um ihn in das entsprechende Plug-in-Attribut in Cloud Data Fusion einzugeben: SAP JCo Library GCS-Pfad (siehePlug-in konfigurieren ).

  5. Der Google Cloud-Administrator muss dem Cloud Data Fusion-Dienstkonto für die Designumgebung und dem Dataproc-Dienstkonto für die Ausführungsumgebung Lesezugriff gewähren. Weitere Informationen finden Sie unter Cloud Data Fusion-Dienstkonten.

Plug-in konfigurieren

Das SAP ODP-Plug-in liest den Inhalt einer SAP DataSource.

Zum Filtern der Einträge können Sie die folgenden Attribute für den SAP-ODP konfigurieren.

Basic

  • Referenzname: Name, mit dem diese Quelle eindeutig für die Herkunft identifiziert wird, z. B. Metadaten annotieren
  • SAP-Client: Der zu verwendende SAP-Client (z.B. 100).
  • SAP-Sprache: SAP-Anmeldesprache (z.B. EN).
  • Connection Type (Verbindungstyp): SAP-Verbindungstyp (Direct oder Load-Balancing). Wenn Sie einen Typ auswählen, ändern sich die folgenden verfügbaren Felder:

    Für die direkte Verbindung {:#direct-connection}:

    • SAP-Anwendungsserver-Host: Der SAP-Servername oder die IP-Adresse.
    • SAP-Systemnummer: die SAP-Systemnummer (z.B. 00).
    • SAP Router: Der Router-String.

    Für eine Load-Balancing-Verbindung

    • SAP Message Server Host: Der Name oder die IP-Adresse des SAP Message Server.
    • SAP Message Server Service or Port Number: Der SAP Message Server-Dienst oder die Portnummer (z.B. sapms02).
    • SAP-System-ID (SID): die SAP-System-ID, z.B. N75).
    • Name der SAP-Anmeldegruppe: Der Name der SAP-Anmeldegruppe (z.B. PUBLIC).
  • SAP DataSource Name: Der Name der SAP DataSource-Ressource (z. B. 2LIS_02_ITM).

  • Schaltfläche Schema abrufen: Erzeugt ein Schema anhand der Metadaten aus SAP mit automatischer Zuordnung von SAP-Datentypen zu den entsprechenden Cloud Data Fusion-Datentypen (dieselben Funktionen wie die Validate) Schaltfläche

  • Extraktionstyp: Das Plug-in unterstützt die folgenden zwei Arten der Datenextraktion:

    • Full (Alle Daten): Alle verfügbaren Daten werden extrahiert.
    • Sync (automatische Auswahl basierend auf der vorherigen Ausführung): Bestimmt, ob der vollständige, Delta- (inkrementelle) oder Wiederherstellungsmodus (Wiederherstellung der Daten aus der letzten Ausführung) basierend auf der vorherigen Ausführung ausgeführt werden soll. Typ und Status sind in SAP verfügbar. Es extrahiert vollständige Daten in der ersten Pipelineausführung (ODP-Modus F) und ändert Daten in nachfolgenden Pipelineausführungen (ODP-Modi D, R).

      Weitere Informationen finden Sie unter Extraktionstypen.

Anmeldedaten

  • SAP-Anmeldename: SAP-Nutzername. Empfohlen: Wenn sich der SAP-Anmeldename regelmäßig ändert, verwenden Sie ein Makro.
  • SAP-Anmeldepasswort: SAP-Nutzerpasswort. Empfohlen: Verwenden Sie sichere Makros für vertrauliche Werte wie Nutzerpasswort.

SAP JCo-Details

  • GCP-Projekt-ID: Google Cloud-Projekt-ID, die ein Projekt eindeutig identifiziert. Sie finden es im Dashboard der Google Cloud Console.
  • SAP JCo Library GCS-Pfad: Der Cloud Storage-Pfad, der die vom Nutzer hochgeladenen SAP JCo-Bibliotheksdateien enthält.

Erweitert

  • SAP ODP Abonnent-Name: Gibt einen gültigen ODP-Abonnenten-Abonnenten für die Datenextraktion aus einer gültigen DataSource an. Dieser Name darf maximal 32 Zeichen ohne Leerzeichen enthalten und darf nur a-z, A-Z, 0-9, _, / enthalten. Er muss für verschiedene Pipelines eindeutig sein, die Daten aus derselben DataSource extrahieren. Wenn das Feld leer oder nicht angegeben ist, verwendet das Ausführungs-Framework die Standardkombination aus Projekt-ID, Namespace und Pipelinename. Wenn dieser Standardwert länger als 32 Zeichen ist, wird er vom Plug-in automatisch gekürzt.

  • Filteroptionen (Gleich): Definiert den Wert, den ein Feld lesen muss. Eine Liste von Metadatenfeldnamen und ihren Wertpaaren sind Filteroptionen. Gibt die Filterbedingung an, die angewendet werden soll, wenn Daten aus einer DataSource gelesen werden. Nur Datensätze, die dem Filter entsprechen, werden extrahiert. Der Filterschlüssel entspricht einem Feld im Schema und muss einen einfachen Typ haben (nicht ARRAY, RECORD oder UNION).

  • Filteroptionen (Bereich): Definiert niedrige und hohe Grenzen, in denen der Feldwert gelesen werden muss. Das Format ist niedrig UND hoch. Eine Liste von Metadatenfeldnamen und ihren Wertpaaren sind Filteroptionen. Sie gibt die Filterbedingung an, die angewendet werden soll, wenn Daten aus einer DataSource gelesen werden. Nur Datensätze, die dem Filter entsprechen, werden extrahiert. Der Filterschlüssel entspricht einem Feld im Schema und muss einen einfachen Typ haben (nicht ARRAY, RECORD oder UNION).

  • Number of Splits to Generate: Erstellt Partitionen, um Tabellendatensätze parallel zu extrahieren. Die Laufzeit-Engine erstellt die angegebene Anzahl von Partitionen (und SAP-Verbindungen) beim Extrahieren der Tabelleneinträge. Seien Sie vorsichtig, wenn Sie dieses Attribut auf eine Zahl größer als 16 festlegen, da eine höhere Parallelität die Anzahl gleichzeitiger Verbindungen mit SAP erhöht. Werte zwischen 8 und 16 werden empfohlen. Wenn der Wert 0 ist oder leer gelassen wird, wählt das System einen geeigneten Wert anhand der Anzahl der verfügbaren Executors und der zu extrahierenden Datensätze und der Paketgröße aus.

  • Paketgröße (in KB): Anzahl der Datensätze, die in einem einzelnen SAP-Netzwerkaufruf extrahiert werden sollen. Dies ist die Anzahl der Datensätze, die SAP bei jedem Netzwerkextraktionsaufruf im Speicher speichert. Mehrere Datenpipelines, die Daten extrahieren, können die Speicherauslastung maximieren und zu Fehlern aufgrund von Out of Memory-Fehlern führen. Seien Sie daher vorsichtig, wenn Sie dieses Attribut festlegen.

    Geben Sie eine positive ganze Zahl ein. Wenn 0 oder leer gelassen wird, verwendet das Plug-in einen Standardwert von 70000 (oder einen entsprechend berechneten Wert), wenn die Anzahl der zu extrahierenden Datensätze kleiner als 70.000 ist.

    Wenn die Datenpipeline mit Out of Memory-Fehlern fehlschlägt, verringern Sie entweder die Paketgröße oder erhöhen den verfügbaren Arbeitsspeicher für Ihre SAP-Arbeitsprozesse.

Pipeline konfigurieren

Bei großen Datensätzen (z. B. ein paar Millionen Datensätzen) mit einer großen Anzahl von Splits (über 16) sendet das SAP-System möglicherweise doppelte Datensätze. Um dies zu verhindern, wird die Verwendung einer der folgenden Deduplizierungsmethoden in Ihrer Cloud Data Fusion-Pipeline empfohlen.

In beiden Methoden verwenden Sie die Schlüsselfelder der DataSource, um die Deduplizierung durchzuführen.

  • Wenn Sie eine BigQuery-Senke in der Pipeline verwenden, verwenden Sie den Upsert-Modus in der BigQuery-Senke. Geben Sie im Abschnitt Table Key des BigQuery-Senken-Plug-ins die Schlüsselfelder an.

  • Wenn Sie in der Pipeline keine BigQuery-Senke verwenden, verwenden Sie das Plug-in "Deduplicate", das nach dem SAP ODP-Quell-Plug-in in der Pipeline eingefügt wird. Geben Sie die Schlüsselfelder im Abschnitt "Unique Fields" des Deduplizierungs-Plug-ins an.

.

Datentypzuordnung

Tabelle 4: SAP-Datentypen, die Cloud Data Fusion-Typen zugeordnet sind

SAP-Datentyp ABAP-Typ Beschreibung (SAP) Java-Datentyp CDAP-Datentyp
Numerisch
INT1 b 1-Byte-Ganzzahl int Schema.Type.INT
INT2 s 2-Byte-Ganzzahl int Schema.Type.INT
INT4 i 4-Byte-Ganzzahl int Schema.Type.INT
INT8 8 8-Byte-Ganzzahl long Schema.Type.LONG
DEZ p Verpackte Nummer im BCD-Format (DEC) BigDecimal Schema.LogicalType.DECIMAL
DF16_DEC,
DF16_RAW
a Dezimal-Gleitkomma (8 Byte) IEEE 754r BigDecimal Schema.LogicalType.DECIMAL
DF34_DEC,
DF34_RAW
e Dezimal-Gleitkomma (16 Byte): IEEE 754r BigDecimal Schema.LogicalType.DECIMAL
FLTP f Gleitkommazahl Double Schema.LogicalType.DOUBLE
Zeichen
CHAR,
LCHR
c Zeichenstring String Schema.Type.STRING
SSTRING,
GEOM_EWKB
string Zeichenstring String Schema.Type.STRING
STRING string Zeichenstring CLOB Byte [] Schema.Type.BYTES
NUMC,
ACCP
n Numerischer Text String Schema.Type.STRING
Byte
RAW,
LRAW
x Binärdaten Byte [] Schema.Type.BYTES
RAWSTRING xstring Byte string BLOB Byte [] Schema.Type.BYTES
Datum/Uhrzeit
Logo: DATS d Datum Date Schema.LogicalType.DATE
ZEITEN t Zeit Time Schema.LogicalType.TIME_MICROS
ZEITEN utcl (Utclong),
Zeitstempel
Timestamp Schema.LogicalType.TIMESTAMP_MICROS

Validierung

Klicken Sie oben rechts auf Validieren oder auf Schema abrufen.

Das Plug-in validiert die Attribute und generiert ein Schema basierend auf den Metadaten von SAP. SAP-Datentypen werden den entsprechenden Cloud Data Fusion-Datentypen automatisch zugeordnet.

Datenpipeline ausführen

  1. Klicken Sie nach der Bereitstellung der Pipeline im oberen mittleren Bereich auf Konfigurieren.
  2. Wählen Sie Ressourcen aus.
  3. Ändern Sie bei Bedarf die Executor-CPU und den Arbeitsspeicher entsprechend der Gesamtdatengröße und der Anzahl der in der Pipeline verwendeten Transformationen.
  4. Klicken Sie auf Speichern.
  5. Klicken Sie zum Starten der Datenpipeline auf Ausführen.

Leistungsoptimierung

Das Plug-in verwendet die Parallelisierungsfunktionen von Cloud Data Fusion. Die folgenden Richtlinien können Ihnen bei der Konfiguration der Laufzeitumgebung helfen, damit Sie der Laufzeit-Engine genügend Ressourcen bereitstellen können, um den gewünschten Grad an Parallelität und Leistung zu erreichen.

SAP-Konfiguration optimieren

Empfohlen: Verwenden Sie einen SAP Communication-Nutzer statt eines Dialognutzers (dadurch werden weniger SAP-Systemressourcen verwendet). Wenn ein Nachrichtenserver im Querformat verfügbar ist, verwenden Sie außerdem eine SAP-Verbindung mit Load-Balancing anstelle einer direkten Verbindung.

Wenn Sie Werte für NumberAnzahl der Aufteilungen“ und PackagePaketgröße“ angeben, werden diese Werte vom Plug-in unter Umständen so angepasst, dass die verfügbaren SAP-Arbeitsprozesse und der verfügbare Arbeitsspeicher nicht erschöpft sind. Dies sind die Obergrenzen der verwendeten SAP-Ressourcen:

  • 50% der verfügbaren Arbeitsprozesse
  • 70% des verfügbaren Arbeitsspeichers pro Arbeitsprozess

Optimize-Plug-in-Konfiguration

Empfohlen: Lassen Sie die Number of Splits to Generate und die Paketgröße leer, sofern Sie nicht mit den Speichereinstellungen Ihres SAP-Systems vertraut sind. Standardmäßig werden diese Werte automatisch optimiert, um eine bessere Leistung zu erzielen.

Verwenden Sie die folgenden Attribute, um eine optimale Leistung beim Ausführen der Pipeline sicherzustellen:

  • Number of Splits to Generate: Hiermit wird die Parallelität auf der Seite von Cloud Data Fusion direkt gesteuert. Die Laufzeit-Engine erstellt die angegebene Anzahl von Partitionen (und SAP-Verbindungen) und extrahiert dabei die Tabelleneinträge. Werte zwischen 8 und 16 werden empfohlen, können aber mit der entsprechenden Konfiguration auf SAP-Seite bis zu 32 oder sogar 64 erhöhen (es werden geeignete Arbeitsspeicherressourcen für die Arbeit zugewiesen). Prozesse in SAP).

    Wenn der Wert 0 ist oder leer gelassen wird, wählt das System automatisch einen geeigneten Wert anhand der Anzahl der verfügbaren SAP-Arbeitsprozesse, der zu extrahierenden Datensätze und der Paketgröße aus.

  • Paketgröße: Die Größe der Datenpakete in Byte, die bei jedem Netzwerkaufruf an SAP abgerufen werden. Eine kleinere Größe führt dazu, dass häufige Netzwerkaufrufe den zugehörigen Overhead wiederholen. Ein großes Paket (> 100 MB) kann den Datenabruf verlangsamen. 0 oder keine Eingabe ist standardmäßig auf 50 MB festgelegt.

Extrahierungsarten

  • Wenn der Extrahierungstyp Full ist, fordert das Plug-in immer vollständige Daten von der DataSource an.
  • Wenn der Extrahierungstyp Sync ist, überprüft das Plug-in zuerst den Status der vorherigen Ausführung in SAP.
    • Wenn es keine vorherige Ausführung gibt, wählen Sie FullFull (F)“-Daten aus.
    • Wenn der vorherige Ausführungstyp FullVoll“ (F) war:
      • Wenn die Ausführung erfolgreich abgeschlossen wurde, führen Sie das aktuelle im Delta(D)-Modus aus.
      • Andernfalls führen Sie den aktuellen Modus im Full (F)-Modus aus. Dies ermöglicht die Wiederherstellung der zuvor fehlerhaften Daten.
    • Wenn der vorherige Ausführungstyp DeltaDelta (D)“ oder RecoveryRecovery (R)“-Modus war:
      • Wenn die Ausführung erfolgreich abgeschlossen wurde, führen Sie das aktuelle im Delta(D)-Modus aus.
      • Andernfalls führen Sie den aktuellen Modus im Wiederherstellungsmodus aus. Dies ermöglicht die versehentliche Wiederherstellung der vorherigen Deltadaten.

Mehrere Pipelineextraktion aus derselben DataSource

Diese Funktion wird derzeit nicht unterstützt. Es können immer nur jeweils eine Pipeline Daten aus jeweils einer Datenquelle extrahieren.

Empfohlen: Lassen Sie das Feld SAP ODP Abonnent Name leer und führen Sie nicht mehrere Pipelines aus, die Daten aus derselben DataSource extrahieren.

Einstellungen für Cloud Data Fusion-Ressourcen

Empfohlen: Verwenden Sie 1 CPU und 4 GB Arbeitsspeicher pro Executor. Dieser Wert gilt für jeden Executor-Prozess. Legen Sie diese im Dialogfeld Konfigurieren > Ressourcen fest.

Einstellungen für Dataproc-Cluster

Empfohlen: Weisen Sie mindestens die Anzahl der CPUs (über die Worker) hinaus zur gewünschten Anzahl von Splits zu (siehe Plug-in-Konfiguration). Wenn Sie beispielsweise 16 Aufteilungen haben, definieren Sie insgesamt 20 oder mehr CPUs für alle Worker. Für die Koordination werden vier CPUs benötigt.

Empfohlen: Verwenden Sie einen nichtflüchtigen Dataproc-Cluster, um die Laufzeit der Datenpipeline zu reduzieren. Dadurch wird der Bereitstellungsschritt überflüssig, der einige Minuten oder länger dauern kann. Legen Sie dies im Bereich der Compute Engine-Konfiguration fest.

FAQ

Welche SAP-Produkte und -Versionen werden unterstützt?

Unterstützte Quellen:

  • SAP S4/HANA 1909 und höher
  • SAP ERP6 NW 7.31 SP16 und höher. Importieren Sie den SAP-Hinweis 2232584, um zusätzliche Datenquellen auf dem System zu aktivieren.
  • SAP-ERP-Systeme basierend auf NW 7.31 SP16 oder höher.

Welche SAP-Bereitstellungsmodelle werden unterstützt?

Das Plug-in wurde mit SAP-Servern getestet, die in Google Cloud bereitgestellt wurden.

Welche Arten von SAP-Datenquellen werden für die Extraktion unterstützt?

Das Plug-in unterstützt die folgenden DataSource-Typen:

  • Transaktionsdaten
  • Stammdaten
  • Attribute
  • SMS
  • Hierarchien

Gibt es SAP-Hinweise, die vor der Verwendung dieses Plug-ins implementiert werden müssen?

Wenn Sie zusätzliche Datenquellen aktivieren möchten, implementieren Sie den folgenden Hinweis für ERP6-Systeme: 2232584: Release von SAP-Extraktionen für die ODP-Replikation (ODP SAPI). Für diese externe Website ist eine SAP-Anmeldung erforderlich.

Gibt es eine Beschränkung der Datenmenge oder Datensatzbreite?

Die Anzahl der extrahierten Zeilen und die Größe der Datenquelle sind nicht begrenzt. Wir haben mit bis zu 306 Millionen Zeilen getestet, die in einer Pipelineausführung extrahiert wurden und eine Rekordbreite von 1 KB haben.

Wie hoch ist der erwartete Plug-in-Durchsatz?

Für eine Umgebung, die gemäß den Richtlinien im Abschnitt Leistung optimieren konfiguriert wurde, kann das Plug-in etwa 38 GB/Stunde extrahieren. Die tatsächliche Leistung kann je nach CDF- und SAP-Systemlast, Netzwerkverkehr usw. variieren.

Nächste Schritte