Verwaltete Migration mit einem Dataproc Metastore-Dienst verwenden

Auf dieser Seite erfahren Sie, wie Sie eine verwaltete Migration von Dataproc Metastore starten und verwalten.

Sie können eine Migration mit den Dataproc Metastore APIs konfigurieren.

Hinweise

Migration starten

Wenn Sie einen Migrationsstart ausführen, stellt Dataproc Metastore eine Verbindung zu Cloud SQL her. und verwendet Cloud SQL als Back-End-Datenbank. Dabei führt Dataproc Metastore eine Pipeline aus, die Daten aus Cloud SQL in die eigene Datenbank (Spanner) kopiert.

Dataproc Metastore verwendet weiterhin Cloud SQL als Backend und repliziert Daten, bis der Prozess Vollständige Migration aufgerufen wird.

Bevor Sie eine Migration starten, müssen Sie die verwaltete Migration einrichten Voraussetzungen.

Hinweise zum Starten der Migration

  • Für einen Dataproc Metastore-Dienst kann jeweils nur eine Migration ausgeführt werden.

  • Eine Migration bleibt aktiv, bis Sie den Migrationsprozess abgeschlossen haben. Es gibt keine Frist für den Abschluss der Migration, z. B. die Migration kann 1 Tag, 30 Tage oder ein Jahr dauern.

  • Geplante Sicherungen sind während einer Migration nicht eingeschränkt. Das Back-up ist jedoch möglicherweise unvollständig. Deaktivieren Sie alle geplanten Sicherungen, während die Migration läuft, um Probleme zu vermeiden.

Wenn eine Migration gestartet wird, werden die folgenden Statusänderungen ausgelöst:

  • Dataproc Metastore wird in den Status MIGRATING versetzt.
  • Der Status der Migrationsausführung wird in RUNNING verschoben.
  • Die Phase der Migrationsausführung wechselt zu REPLICATION.

Console

Jetzt starten

  1. Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore:

    Zu Dataproc Metastore

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Namen des Dienstes. zu dem Sie migrieren möchten.

    Die Seite Dienstdetails wird geöffnet.

  3. Klicken Sie oben auf der Seite auf Daten migrieren.

    Die Seite Migration erstellen wird geöffnet und Sie sehen den Tab Konnektivität. Zeigt die Cloud SQL-Datenbankkonfiguration für Dataproc Metastore an Konfigurationseinstellungen.

Cloud SQL-Datenbankkonfiguration für DPMS

  1. Geben Sie unter Name der Instanzverbindung den Namen der Instanzverbindung der Cloud SQL-Datenbank im folgenden Format ein: project_id:region:instance_name.

  2. Geben Sie in das Feld IP-Adresse die IP-Adresse ein, die für die Verbindung zur Cloud SQL-Instanz erforderlich ist.

  3. Geben Sie im Feld Port den Wert 3306 ein.

  4. Geben Sie unter Hive-Datenbankname den Namen der Datenbank ein, die als Back-End des selbstverwalteten Hive-Metastores verwendet wird.

  5. Geben Sie im Feld Nutzername den Nutzernamen ein, den Sie für die Verbindung verwenden. Cloud SQL in den Hive Metastore importieren.

  6. Geben Sie im Feld Passwort das Passwort ein, das Sie für die Verbindung verwenden. Cloud SQL in den Hive Metastore importieren.

SOCKS5-Proxy-Dienst

  1. Geben Sie im Feld Proxy-Subnetz ein Subnetz vom Typ Regular ein. Das Subnetzwerk muss sich im Cloud SQL-VPC-Netzwerk befinden. Dieses Subnetz wird zum Bereitstellen des Zwischen-SOCKS5-Proxy-Dienstes verwendet.

  2. Geben Sie im Feld Nat Subnet ein Subnetz vom Typ Private Service Connect ein. Dieses Unternetzwerk sollte im Cloud SQL-VPC-Netzwerk vorhanden sein und wird verwendet, um den SOCKS5-Proxydienst mit Private Service Connect zu veröffentlichen.

  3. Klicken Sie auf Weiter.

    Der Tab Change Data Capture (CDC) wird geöffnet und zeigt die Cloud SQL-Datenbankkonfiguration für Datastream Konfigurationseinstellungen.

Cloud SQL-Datenbankkonfiguration für Datastream

  1. Geben Sie im Feld Nutzername den Nutzernamen ein, mit dem Sie sich bei der Cloud SQL-CDC anmelden, die von Datastream verwendet wird.

  2. Geben Sie im Feld Passwort das Passwort ein, mit dem Sie sich anmelden. mit der von Datastream verwendeten Cloud SQL-CDC.

  3. Geben Sie im Feld VPC-Netzwerk das Netzwerk in derselben VPC ein. als Cloud SQL-Instanz, die Datastream verwendet, eine private Verbindung zur CDC herstellen.

  4. Geben Sie im Feld Subnetz-IP-Bereich einen Subnetz-IP-Bereich mit mindestens /29 ein. Datastream verwendet diese IP, um eine Peering-Verbindung zum VPC-Netzwerk herzustellen.

  5. Geben Sie im Feld Reverse-Proxy-Subnetz das Subnetzwerk ein, das Sie in im selben VPC-Netzwerk wie Cloud SQL. Datastream verwendet diese Subnetzwerk. Das Subnetzwerk wird zum Hosten eine Reverse-Proxy-Verbindung für die Datastream-CDC. Das Subnetz muss in der in derselben Region wie der Dataproc Metastore-Dienst.

GCS-Konfiguration

  1. Wählen Sie als Bucket-ID den zu speichernden Cloud Storage-Pfad aus. CDC-Daten während der Migration.

  2. Geben Sie im Feld Stammpfad den Stammpfad im Cloud Storage-Bucket ein. Die Streamereignisdaten werden in diesen Pfad geschrieben.

  3. Klicken Sie auf Erstellen.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d \
  '{
    "migration_execution": {
      "cloud_sql_migration_config": {
        "cloud_sql_connection_config": {
          "instance_connection_name": INSTANCE_CONNECTION_NAME,
          "hive_database_name": "HIVE_DATABASE_NAME",
          "ip_address": "IP_ADDRESS",
          "port": 3306,
          "username": "CONNECTION_USERNAME",
          "password": "CONNECTION_PASSWORD",
          "proxy_subnet": "PROXY_SUBNET",
          "nat_subnet": "NAT_SUBNET"
        },
        "cdc_config": {
          "username": "CDC_USENAME",
          "password": "CDC_PASSWORD",
          "vpc_network": "VPC_NETWORK",
          "subnet_ip_range": "SUBNET_IP_RANGE",
          "reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
          "bucket": "BUCKET_NAME",
          "root_path": "ROOT_PATH",
        }
      }
    }
}' \
  https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration

Ersetzen Sie Folgendes:

  • SERVICE: der Name oder die ID Ihres Dataproc Metastore-Dienstes.
  • PROJECT_ID: die Projekt-ID des Google Cloud-Projekts, in dem sich Ihr Dataproc Metastore-Dienst befindet.
  • LOCATION: die Google Cloud-Region, in der sich Ihr Dataproc Metastore-Dienst befindet.

Cloud SQL-Migrationskonfiguration

  • INSTANCE_CONNECTION_NAME: Der Name der Instanzverbindung für die Cloud SQL-Datenbank im folgenden Format: PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.
  • HIVE_DATABASE_NAME: Der Name der selbst verwalteten Hive-Datenbank, die mit Cloud SQL verbunden ist.
  • IP_ADDRESS: Die IP-Adresse, die für die Verbindung zur Cloud SQL-Instanz erforderlich ist.
  • CONNECTION_USERNAME: Der Nutzername, mit dem Sie Cloud SQL mit dem Hive Metastore verbinden.
  • Passwort CONNECTION_PASSWORD mit dem Sie Cloud SQL mit dem Hive Metastore verbinden,
  • PROXY_SUBNET: das Subnetzwerk, das in verwendet wird dem Cloud SQL-VPC-Netzwerk. Dieses Subnetzwerk hostet eine Zwischenstufe Proxy zu stellen Verbindungen zwischen transitiven Netzwerken zur Verfügung.
  • NAT_SUBNET: ein Private Service Connect-Subnetz, das eine Verbindung vom Dataproc Metastore-Dienst zum Zwischenproxy herstellt. Die Prefix-Länge des Subnetzes sollte mindestens /29 betragen und im IPv4-Bereich liegen.

CDC-Konfiguration

  • CDC_USERNAME: der Nutzername, den der Der Datastream-Dienst wird für die Anmeldung in Cloud SQL verwendet.
  • CDC_PASSWORD: das Passwort, mit dem sich der Datastream-Dienst in Cloud SQL anmeldet.
  • VPC_NETWORK: ein Netzwerk im selben VPC-Netzwerk wie die Cloud SQL-Instanz, die von Datastream verwendet wird, um eine private Verbindung zum CDC herzustellen.
  • SUBNET_IP_RANGE: Subnetz-IP-Bereich bei mindestens /29, die Datastream verwendet wird, um das Peering VPC-Netzwerk.
  • REVERSE_PROXY_SUBNET_ID: ein Unternetzwerk im selben VPC-Netzwerk wie die von Datastream verwendete Cloud SQL-Instanz. Das Subnetzwerk wird verwendet, um eine Reverse-Proxy-Verbindung für den Datastream-CDC zu hosten. Das Subnetz muss in derselben Region konfiguriert sein wie den Dataproc Metastore-Dienst.
  • BUCKET_NAME: Der Cloud Storage-Pfad zum Speichern von CDC-Daten während der Migration.
  • ROOT_PATH: der Stammpfad in Cloud Storage Bucket. Die Ereignisdaten des Streams werden in diesen Pfad geschrieben.

Migration abschließen

Wenn Sie eine Migration abgeschlossen haben, stellt Dataproc Metastore eine Verbindung zu Spanner her und verwendet Spanner als Backend-Datenbank.

Eine vollständige Migration löst die folgenden Statusänderungen aus:

  • Dataproc Metastore wechselt zurück zum Status ACTIVE.
  • Der Status der Migrationsausführung wird in SUCCEEDED verschoben.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore.

  2. Klicken Sie oben auf der Seite auf Daten migrieren.

    Die Seite Daten migrieren wird geöffnet und Sie sehen die abgeschlossenen Migrationen.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration

Ersetzen Sie Folgendes:

  • SERVICE: der Name oder die ID Ihres Dataproc Metastore-Dienstes.
  • PROJECT_ID: die Projekt-ID des Google Cloud-Projekts, in dem sich Ihr Dataproc Metastore-Dienst befindet.
  • LOCATION: die Google Cloud-Region, in der sich Ihr Dataproc Metastore-Dienst befindet.

Migration abbrechen

Wenn Sie eine Migration abbrechen, werden alle Änderungen in Dataproc Metastore rückgängig gemacht und der Spanner-Datenbanktyp wird als Backend-Datenbank verwendet. Alle Daten, die während der Migration übertragen wurden, werden gelöscht.

Eine Migration abbrechen löst die folgenden Statusänderungen aus:

  • Dataproc Metastore wird in den Status ACTIVE zurückversetzt.
  • Der Status der Migrationsausführung ändert sich zu CANCELLED.

Console

  1. Öffnen Sie in der Google Cloud Console den Dataproc Metastore. Seite.

  2. Klicken Sie oben auf der Seite auf Daten migrieren.

    Die Seite Daten migrieren wird geöffnet und zeigt Ihre abgebrochenen verwalteten Migrationen an.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration

Ersetzen Sie Folgendes:

  • SERVICE_NAME: der Name oder die ID Ihres Dataproc Metastore-Dienst
  • PROJECT_ID: die Projekt-ID des Google Cloud-Projekts, in dem sich Ihr Dataproc Metastore-Dienst befindet.
  • LOCATION: die Google Cloud-Region, in der befindet sich Ihr Dataproc Metastore-Dienst.

Migrationsdetails abrufen

Details zu einer einzelnen verwalteten Migration abrufen.

Console

  1. Öffnen Sie in der Google Cloud Console den Dataproc Metastore. Seite.

  2. Klicken Sie oben auf der Seite auf Daten migrieren.

    Die Seite Daten migrieren wird geöffnet und enthält Ihre verwalteten Migrationen.

    Klicken Sie auf den Namen einer verwalteten Migration, um weitere Details zur Migration aufzurufen.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Ersetzen Sie Folgendes:

  • SERVICE: der Name oder die ID Ihres Dataproc Metastore-Dienstes.
  • PROJECT_ID: die Projekt-ID des Google Cloud-Projekts, in dem sich Ihr Dataproc Metastore-Dienst befindet.
  • LOCATION: die Google Cloud-Region, in der sich Ihr Dataproc Metastore-Dienst befindet.
  • MIGRATION_ID: der Name oder die ID Ihrer Dataproc Metastore-Migration.

Migrationen auflisten

Verwaltete Migrationen auflisten

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore.

  2. Klicken Sie oben auf der Seite auf Daten migrieren.

    Die Seite Daten migrieren wird geöffnet und zeigt Ihre verwalteten Migrationen an.

  3. Prüfen Sie, ob der Befehl die Migrationen aufgelistet hat.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Ersetzen Sie Folgendes:

  • SERVICE: der Name oder die ID Ihres Dataproc Metastore-Dienstes.
  • PROJECT_ID: die Projekt-ID des Google Cloud-Projekts, in dem sich Ihr Dataproc Metastore-Dienst befindet.
  • LOCATION: die Google Cloud-Region, in der sich Ihr Dataproc Metastore-Dienst befindet.

Migrationen löschen

Verwaltete Migrationen löschen

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore.

  2. Klicken Sie oben auf der Seite auf Daten migrieren.

    Die Seite Daten migrieren wird geöffnet und enthält Ihre verwalteten Migrationen.

  3. Wählen Sie die Migration aus und klicken Sie auf Löschen.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
   -X DELETE \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Ersetzen Sie Folgendes:

  • SERVICE: der Name oder die ID Ihres Dataproc Metastore-Dienstes.
  • PROJECT_ID: die Projekt-ID des Google Cloud-Projekts, in dem sich Ihr Dataproc Metastore-Dienst befindet.
  • LOCATION: die Google Cloud-Region, in der sich Ihr Dataproc Metastore-Dienst befindet.
  • MIGRATION_ID: der Name oder die ID des Dataproc Metastore-Migration

Nächste Schritte