Diese Seite wurde von der Cloud Translation API übersetzt.

Kerberos für Dataproc Metastore Thrift-Endpunkte konfigurieren

Auf dieser Seite wird erläutert, wie Sie Kerberos für Ihren Dataproc Metastore-Dienst konfigurieren, der das Thrift-Endpunktprotokoll verwendet. Wenn Ihr Dataproc Metastore-Dienst das gRPC-Endpunktprotokoll verwendet, lesen Sie den Hilfeartikel Kerberos für gRPC-Endpunkte konfigurieren.

Hinweis

Informationen zu den Grundlagen von Kerberos

In dieser Anleitung erstellen Sie mit einem Dataproc-Cluster die folgenden Kerberos-Assets:
- Eine Keytab-Datei.
- Eine krb5.conf-Datei
- Ein Kerberos-Hauptkonto.
Weitere Informationen zur Funktionsweise dieser Kerberos-Assets mit einem Dataproc Metastore-Dienst finden Sie unter Kerberos.
Sie können Ihr eigenes Kerberos-KDC erstellen und hosten oder sich über die Verwendung des lokalen KDC eines Dataproc-Clusters informieren.
Erstellen Sie einen Cloud Storage-Bucket oder erhalten Sie Zugriff auf einen vorhandenen. Sie müssen Ihre krb5.conf-Datei in diesem Bucket speichern.

Netzwerkanforderungen

Beachten Sie vor dem Konfigurieren von Kerberos die folgenden Netzwerkeinstellungen:

Richten Sie eine IP-Verbindung zwischen Ihrem VPC-Netzwerk und dem KDC ein. Dies ist erforderlich, um Ihre KDC-Datei beim Dataproc Metastore-Dienst zu authentifizieren.
Richten Sie alle erforderlichen Firewallregeln auf Ihrem KDC ein. Diese Regeln sind erforderlich, um Traffic vom Dataproc Metastore-Speicher zuzulassen. Weitere Informationen finden Sie unter Firewallregeln für Ihre Dienste.
Wenn Sie VPC Service Controls verwenden, müssen das Secret Manager-Secret und das Cloud Storage-Objekt krb5.conf zu einem Projekt gehören, das sich im selben Dienstperimeter wie der Dataproc Metastore-Dienst befindet.
Entscheiden Sie, welches VPC-Peering-Netzwerk Sie verwenden möchten. Sie müssen Ihren Dataproc-Cluster und den Dataproc Metastore-Dienst mit demselben VPC-Peering-Netzwerk konfigurieren.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für Ihr Projekt zuzuweisen, um die Berechtigung zum Erstellen eines Dataproc-Metastores mit Kerberos zu erhalten. Dabei wird das Prinzip der geringsten Berechtigung angewendet:

Vollständige Kontrolle über Dataproc Metastore-Ressourcen gewähren (roles/metastore.editor)
Vollzugriff auf alle Dataproc Metastore-Ressourcen gewähren, einschließlich der Verwaltung von IAM-Richtlinien (roles/metastore.admin)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigung metastore.services.create, die zum Erstellen eines Dataproc-Metastores mit Kerberos erforderlich ist.

Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Weitere Informationen zu bestimmten Rollen und Berechtigungen für Dataproc Metastore finden Sie unter Zugriff mit IAM verwalten.

Weitere Informationen finden Sie unter Dataproc Metastore-IAM und -Zugriffssteuerung.

Kerberos für Dataproc Metastore aktivieren

In der folgenden Anleitung wird gezeigt, wie Sie Kerberos für einen Dataproc Metastore-Dienst konfigurieren, der mit einem Dataproc-Cluster verbunden ist.

Dataproc-Cluster erstellen und Kerberos aktivieren

gcloud

Führen Sie den folgenden gcloud dataproc clusters create-Befehl aus, um einen Dataproc-Cluster mit Kerberos einzurichten:

gcloud dataproc clusters create CLUSTER_NAME \
    --image-version=2.0 \
    --enable-kerberos \
    --scopes 'https://www.googleapis.com/auth/cloud-platform'

Ersetzen Sie Folgendes:

CLUSTER_NAME: Der Name Ihres Dataproc-Clusters.

Dataproc-Cluster für Kerberos konfigurieren

In der folgenden Anleitung wird gezeigt, wie Sie mit SSH eine Verbindung zu einem primären Dataproc-Cluster herstellen, der mit Ihrem Dataproc Metastore-Dienst verknüpft ist.

Anschließend ändern Sie die Datei hive-site.xml und konfigurieren Kerberos für Ihren Dienst.

Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.
Klicken Sie in der Liste der VM-Instanzen in der Zeile des primären Dataproc-Knotens (your-cluster-name-m) auf SSH.

Im Stammverzeichnis des Knotens wird ein Browserfenster geöffnet.
Öffnen Sie die Datei /etc/hive/conf/hive-site.xml.
```
sudo vim /etc/hive/conf/hive-site.xml
```
Die Ausgabe sollte in etwa so aussehen:
```
<property>
<name>hive.metastore.kerberos.principal</name>
<value>PRINCIPAL_NAME</value>
</property>
<property>
<name>hive.metastore.kerberos.keytab.file</name>
<value>METASTORE_PRINCPAL_KEYTAB</value>
</property>
```
Ersetzen Sie:
- PRINCIPAL_NAME: Ein Hauptkontoname im folgenden Format: primary/instance@REALM. Beispiel: hive/test@C.MY-PROJECT.INTERNAL.
- METASTORE_PRINCIPAL_KEYTAB: Der Speicherort der Hive Metastore-Keytab-Datei. Verwenden Sie den folgenden Wert /etc/security/keytab/metastore.service.keytab.

Keytab-Datei erstellen

In der folgenden Anleitung wird beschrieben, wie Sie eine Keytab-Datei erstellen.

Eine Keytab-Datei enthält ein Paar Kerberos-Prinzipale und ein Paar verschlüsselter Schlüssel. Damit wird ein Dienstprinzipal mit einem Kerberos-KDC authentifiziert.

Keytab-Datei erstellen

Erstellen Sie in der Dataproc-SSH-Sitzung den Keytab und das Hauptkonto.

sudo kadmin.local -q "addprinc -randkey PRINCIPAL_NAME"
sudo kadmin.local -q "ktadd -k /etc/security/keytab/metastore.service.keytab PRINCIPAL_NAME"

Erstellen Sie in der Dataproc-SSH-Sitzung die Keytab-Datei und laden Sie sie in Secret Manager hoch.

Hinweis: Um diesen Befehl verwenden zu können, muss die Identität, die die Dataproc-VM ausführt, die Rolle „Administrator für Secret Manager“ haben.
```
gcloud secrets create SECRET_NAME --replication-policy automatic
sudo gcloud secrets versions add SECRET_NAME --data-file /etc/security/keytab/metastore.service.keytab
```
Ersetzen Sie Folgendes:
- SECRET_NAME: der Name Ihres Secrets.

Datei „krb5.conf“ aktualisieren

Als Nächstes müssen Sie die Datei krb5.conf aktualisieren, um sie mit Ihrem Dataproc-Cluster zu verknüpfen.

Ermitteln Sie die primäre interne IP-Adresse der primären Instanz des Dataproc-Clusters.

gcloud compute instances list

Die Ausführung dieses Befehls führt beispielsweise zu einer ähnlichen Ausgabe:

~$ gcloud compute instances list --project kerberos-project
NAME                                                 ZONE           MACHINE_TYPE   PREEMPTIBLE  INTERNAL_IP    EXTERNAL_IP     STATUS
cluster-236-m                                        us-central1-c  n2-standard-4               192.0.2.2      *.*.*.*         RUNNING
...

In diesem Fall lautet die interne IP-Adresse des Clusters 192.0.2.2.

Öffnen Sie die Datei krb5.conf.
```
sudo vim /etc/krb5.conf
```
Ersetzen Sie in der Datei die vorhandenen Parameter KDC und admin_server durch die interne IP-Adresse Ihres Dataproc-Clusters.

Wenn Sie beispielsweise den IP-Adresswert aus den vorherigen Schritten verwenden, sieht die Ausgabe in etwa so aus:
```
[realms]
US-CENTRAL1-A.C.MY-PROJECT.INTERNAL = {
   kdc = 192.0.2.2
   admin_server = 192.0.2.2
}
```
Laden Sie die Datei /etc/krb5.conf von der primären Dataproc-VM in Ihren Cloud Storage-Bucket hoch.
```
gcloud storage cp /etc/krb5.conf gs://PATH_TO_KRB5
```
Ersetzen Sie:
- PATH_TO_KRB5: Der Cloud Storage-URI, der die krb5.conf-Datei enthält.
Kopieren Sie nach Abschluss des Uploads den Pfad des Uploads. Sie müssen sie verwenden, wenn Sie Ihren Dataproc Metastore-Dienst erstellen.

IAM-Rollen und ‑Berechtigungen gewähren

Geben Sie dem Dataproc Metastore-Dienstkonto die Berechtigung für den Zugriff auf die Keytab-Datei. Dieses Konto wird von Google verwaltet und auf der UI-Seite für IAM-Berechtigungen durch Auswahl von Von Google bereitgestellte Rollenzuweisungen einbeziehen aufgeführt.
```
  gcloud projects add-iam-policy-binding PROJECT_ID \
      --member serviceAccount:service-PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com \
      --role roles/secretmanager.secretAccessor
```
Geben Sie dem Dataproc Metastore-Dienstkonto die Berechtigung für den Zugriff auf die Datei krb5.conf.

Hinweis: Der Cloud Storage-Bucket, der die krb5.conf-Datei enthält, kann zu einem anderen Projekt gehören als dem, zu dem der Dataproc Metastore-Dienst gehört. Verwenden Sie die Projekt-ID und ‑nummer des Projekts, das den Cloud Storage-Bucket enthält.
```
  gcloud projects add-iam-policy-binding PROJECT_ID \
      --member serviceAccount:service-PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com \
      --role roles/storage.objectViewer
```

Dataproc Metastore-Dienst mit Kerberos erstellen

Erstellen Sie einen neuen Dataproc Metastore-Dienst, der mit Ihren Kerberos-Dateien konfiguriert ist.

Achten Sie darauf, den Dienst im VPC-Netzwerk als Dataproc-Cluster zu erstellen.

gcloud metastore services create SERVICE \
   --location=LOCATION \
   --instance-size=medium \
   --network=VPC_NETWORK \
   --kerberos-principal=KERBEROS_PRINCIPAL \
   --krb5-config=KRB5_CONFIG \
   --keytab=CLOUD_SECRET

Ersetzen Sie Folgendes:

SERVICE: der Name Ihres Dataproc Metastore-Dienstes.
LOCATION: den Speicherort Ihres Dataproc Metastore-Dienstes.
VPC_NETWORK:der Name des VPC-Netzwerks. Verwenden Sie dasselbe Netzwerk, das in Ihrem Dataproc-Cluster konfiguriert ist.
KERBEROS_PRINCIPAL: der Name des Kerberos-Principals, den Sie zuvor erstellt haben.
KRB5_CONFIG: der Speicherort der krb5.config-Datei. Verwenden Sie den Cloud Storage-Objekt-URI, der auf Ihre Datei verweist.
CLOUD_SECRET: Der relative Ressourcenname einer Secret-Version im Secret Manager.

Nachdem Sie den Cluster erstellt haben, versucht Dataproc Metastore, mithilfe des angegebenen Hauptkontos, der Keytab-Datei und der krb5.conf-Datei eine Verbindung zu Ihren Kerberos-Anmeldedaten herzustellen. Wenn die Verbindung fehlschlägt, schlägt auch die Erstellung des Dataproc-Metastores fehl.

Dataproc-Cluster mit Dataproc Metastore verknüpfen

Nachdem der Dataproc Metastore-Dienst erstellt wurde, suchen Sie den Thrift-Endpunkt-URI und das Warehouse-Verzeichnis.

Stellen Sie eine SSH-Verbindung zur primären Instanz Ihres Dataproc-Clusters her.
Öffnen Sie in der SSH-Sitzung die Datei /etc/hive/conf/hive-site.xml.
```
sudo vim /etc/hive/conf/hive-site.xml
```

Ändern Sie /etc/hive/conf/hive-site.xml im Dataproc-Cluster.

<property>
<name>hive.metastore.uris</name>
<!-- Update this value. -->
<value>ENDPOINT_URI</value>
</property>
<!-- Add this property entry. -->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>WAREHOUSE_DIR</value>
</property>

Starten Sie HiveServer2 neu:

sudo systemctl restart hive-server2.service

Dataproc vor dem Einreichen von Jobs konfigurieren

Wenn Sie Ihre Dataproc-Jobs ausführen möchten, müssen Sie dem Nutzer hive die Property allowed.system.users in der Hadoop-Datei container-executor.cfg hinzufügen. So können Nutzer Abfragen ausführen, um auf Daten wie select * from zuzugreifen.

Öffnen Sie in der SSH-Sitzung die Hadoop-Datei container-executor.cfg.
```
sudo vim /etc/hadoop/conf/container-executor.cfg
```
Fügen Sie die folgende Zeile auf jedem Dataproc-Knoten hinzu.
```
allowed.system.users=hive
```

Kerberos-Ticket abrufen

Rufen Sie das Kerberos-Ticket ab, bevor Sie eine Verbindung zur Dataproc Metastore-Instanz herstellen.

sudo klist -kte /etc/security/keytab/metastore.service.keytab
sudo kinit -kt /etc/security/keytab/metastore.service.keytab PRINCIPAL_NAME
sudo klist # gets the ticket information.
sudo hive

Ersetzen Sie Folgendes:

PRINCIPAL_NAME: der Name des Hauptbevollmächtigten.

Kerberos für Dataproc Metastore Thrift-Endpunkte konfigurieren

Hinweis

Netzwerkanforderungen

Erforderliche Rollen

Kerberos für Dataproc Metastore aktivieren

Dataproc-Cluster erstellen und Kerberos aktivieren

gcloud

Dataproc-Cluster für Kerberos konfigurieren

Keytab-Datei erstellen

Datei „krb5.conf“ aktualisieren

IAM-Rollen und ‑Berechtigungen gewähren

Dataproc Metastore-Dienst mit Kerberos erstellen

Dataproc-Cluster mit Dataproc Metastore verknüpfen

Dataproc vor dem Einreichen von Jobs konfigurieren

Kerberos-Ticket abrufen

Nächste Schritte