Metadaten aus Apache Hive für die Migration extrahieren

In diesem Dokument wird beschrieben, wie Sie mit dem Tool dwh-migration-dumper die erforderlichen Metadaten extrahieren, bevor Sie eine Migration von Apache Hive-Daten oder ‑Berechtigungen ausführen.

In diesem Dokument wird die Metadatenextraktion aus den folgenden Datenquellen behandelt:

  • Apache Hive
  • Apache Hadoop Distributed File System (HDFS)
  • Apache Ranger
  • Cloudera Manager
  • Apache Hive-Abfragelogs

Hinweise

Bevor Sie das Tool dwh-migration-dumper verwenden können, müssen Sie Folgendes tun:

Java installieren

Auf dem Server, auf dem Sie das dwh-migration-dumper-Tool ausführen möchten, muss Java 8 oder höher installiert sein. Ist dies nicht der Fall, laden Sie Java von der Java-Downloadseite herunter und installieren Sie es.

Erforderliche Berechtigungen

Das Nutzerkonto, das Sie für die Verbindung des dwh-migration-dumper-Tools mit dem Quellsystem angeben, muss Berechtigungen zum Lesen von Metadaten aus diesem System haben. Prüfen Sie, ob dieses Konto die entsprechende Rollenmitgliedschaft hat, um die für Ihre Plattform verfügbaren Metadatenressourcen abzufragen. Beispielsweise ist INFORMATION_SCHEMA eine Metadatenressource, die mehrere Plattformen gemeinsam haben.

Installieren Sie das dwh-migration-dumper-Tool.

So installieren Sie das dwh-migration-dumper-Tool:

  1. Laden Sie auf dem Computer, auf dem Sie das dwh-migration-dumper-Tool ausführen möchten, die ZIP-Datei aus dem GitHub-Repository des dwh-migration-dumper-Tools herunter.
  2. Laden Sie die Datei SHA256SUMS.txt herunter und führen Sie den folgenden Befehl aus, um die ZIP-Datei des dwh-migration-dumper-Tools zu validieren:

    Bash

    sha256sum --check SHA256SUMS.txt

    Wenn die Bestätigung fehlschlägt, finden Sie weitere Informationen unter Fehlerbehebung.

    Windows PowerShell

    (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

    Ersetzen Sie RELEASE_ZIP_FILENAME durch den heruntergeladenen ZIP-Dateinamen des dwh-migration-dumper-Befehlszeilen-Extraktionstools, z. B. dwh-migration-tools-v1.0.52.zip.

    Das Ergebnis True bestätigt die erfolgreiche Prüfsummenverifizierung.

    Das Ergebnis False weist auf einen Überprüfungsfehler hin. Achten Sie darauf, dass die Prüfsumme und die ZIP-Dateien aus derselben Releaseversion heruntergeladen und im selben Verzeichnis gespeichert werden.

  3. Extrahieren Sie die ZIP-Datei. Die Binärdatei des Extraktionstools befindet sich im Unterverzeichnis /bin des Ordners, der durch Extrahieren der ZIP-Datei erstellt wurde.

  4. Aktualisieren Sie die Umgebungsvariable PATH so, dass sie den Installationspfad für das Extraktionstool enthält.

Metadaten für die Migration extrahieren

Wählen Sie eine der folgenden Optionen aus, um zu erfahren, wie Sie Metadaten für Ihre Datenquelle extrahieren:

Apache Hive

Führen Sie die Schritte im Abschnitt „Apache Hive“ unter Metadaten und Abfragelogs aus Ihrem Data Warehouse extrahieren aus, um Ihre Apache Hive-Metadaten zu extrahieren. Anschließend können Sie die Metadaten in den Cloud Storage-Bucket hochladen, der Ihre Migrationsdateien enthält.

HDFS

Führen Sie den folgenden Befehl aus, um Metadaten aus HDFS zu extrahieren. Verwenden Sie dazu das Tool dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Ersetzen Sie Folgendes:

  • HDFS-HOST: der Hostname des HDFS-NameNode
  • HDFS-PORT: die Portnummer des HDFS-NameNode. Sie können dieses Argument überspringen, wenn Sie den 8020-Standardport verwenden.
  • MIGRATION-BUCKET: Der Cloud Storage-Bucket, den Sie zum Speichern der Migrationsdateien verwenden.

Mit diesem Befehl werden Metadaten aus HDFS in eine Datei namens hdfs-dumper-output.zip im Verzeichnis MIGRATION-BUCKET extrahiert.

Beim Extrahieren von Metadaten aus HDFS gibt es mehrere bekannte Einschränkungen:

  • Einige Aufgaben in diesem Connector sind optional und können fehlschlagen. In der Ausgabe wird dann ein vollständiger Stacktrace protokolliert. Solange die erforderlichen Aufgaben erfolgreich abgeschlossen wurden und die hdfs-dumper-output.zip generiert wurde, können Sie mit der HDFS-Migration fortfahren.
  • Der Extraktionsprozess kann fehlschlagen oder langsamer als erwartet ausgeführt werden, wenn die konfigurierte Threadpoolgröße zu groß ist. Wenn diese Probleme auftreten, empfehlen wir, die Threadpool-Größe mit dem Befehlszeilenargument --thread-pool-size zu verringern.

Apache Ranger

Führen Sie den folgenden Befehl aus, um Metadaten aus Apache Ranger mit dem Tool dwh-migration-dumper zu extrahieren.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Ersetzen Sie Folgendes:

  • RANGER-HOST: der Hostname der Apache Ranger-Instanz
  • RANGER-USER: Der Nutzername des Apache Ranger-Nutzers
  • RANGER-PASSWORD: Das Passwort des Apache Ranger-Nutzers.
  • RANGER-SCHEME: Gibt an, ob Apache Ranger http oder https verwendet. Der Standardwert ist http.
  • MIGRATION-BUCKET: Der Cloud Storage-Bucket, den Sie zum Speichern der Migrationsdateien verwenden.

Sie können auch die folgenden optionalen Flags einfügen:

  • --kerberos-auth-for-hadoop: Ersetzt --user und --password, wenn Apache Ranger durch Kerberos anstelle der einfachen Authentifizierung geschützt ist. Sie müssen den Befehl kinit vor dem Tool dwh-migration-dumper ausführen, um dieses Flag zu verwenden.
  • --ranger-disable-tls-validation: Fügen Sie dieses Flag ein, wenn das von der API verwendete HTTPS-Zertifikat selbstsigniert ist. Zum Beispiel bei Verwendung von Cloudera.

Mit diesem Befehl werden Metadaten aus Apache Ranger in eine Datei mit dem Namen ranger-dumper-output.zip im Verzeichnis MIGRATION-BUCKET extrahiert.

Cloudera

Führen Sie den folgenden Befehl aus, um Metadaten aus Cloudera mit dem Tool dwh-migration-dumper zu extrahieren.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Ersetzen Sie Folgendes:

  • CLOUDERA-URL: die URL für Cloudera Manager
  • CLOUDERA-USER: Der Nutzername des Cloudera-Nutzers.
  • CLOUDERA-PASSWORD: Das Passwort des Cloudera-Nutzers
  • MIGRATION-BUCKET: Der Cloud Storage-Bucket, den Sie zum Speichern der Migrationsdateien verwenden.
  • APPLICATION-TYPES: (Optional) Liste aller vorhandenen Anwendungstypen aus Hadoop YARN. Beispiel: SPARK, MAPREDUCE.
  • PAGE-SIZE: (Optional) Geben Sie an, wie viele Daten von Drittanbieterdiensten wie der Hadoop YARN API abgerufen werden. Der Standardwert ist 1000, was 1.000 Entitäten pro Anfrage entspricht.

Mit diesem Befehl werden Metadaten aus Cloudera in eine Datei mit dem Namen dwh-migration-cloudera.zip im Verzeichnis MIGRATION-BUCKET extrahiert.

Apache Hive-Abfragelogs

Führen Sie die Schritte im Abschnitt „Apache Hive“ unter Abfragelogs mit dem Logging-Hook hadoop-migration-assessment extrahieren aus, um Ihre Apache Hive-Abfragelogs zu extrahieren. Anschließend können Sie die Logs in den Cloud Storage-Bucket hochladen, der Ihre Migrationsdateien enthält.

Nächste Schritte

Mit den extrahierten Metadaten aus Hadoop können Sie die folgenden Aktionen ausführen: