Die folgenden Konzepte helfen Ihnen zu verstehen, wie Dataproc Metastore funktioniert und welche Funktionen Sie mit Ihrem Dienst verwenden können.
Dataproc Metastore-Versionen
Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.
Dataproc Metastore 2
Dataproc Metastore 2 verwendet einen Skalierungsfaktor, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst hoch- oder herunterskalieren, indem Sie den Skalierungsfaktor ändern.
Dataproc Metastore 2 ist die neue Dienstgeneration, die zusätzlich zu den Dataproc Metastore-Features horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.
Für Dataproc Metastore 2 gilt ein anderes Preismodell als für Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.
Dataproc Metastore 1
Dataproc Metastore 1 verwendet Dienststufen, um zu ermitteln, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Dienststufen bieten eine vorhersehbare, vorab festgelegte Menge an Ressourcen.
Dataproc Metastore-Version prüfen
Sie können in der Google Cloud Console prüfen, welche Version von Dataproc Metastore Sie verwenden.
- Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – Single Region.
- Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.
Allgemeine Dataproc Metastore-Begriffe
Die folgenden Begriffe werden im gesamten Dataproc Metastore-System und in der Dokumentation häufig verwendet.
Dienste
- Apache Hive Hive ist ein beliebtes Open-Source-Data-Warehouse-System, das auf Apache Hadoop basiert. Hive bietet eine SQL-ähnliche Abfragesprache namens HiveQL zur Analyse großer, strukturierter Datasets.
- Apache Hive-Metastore Der Hive-Metaspeicher enthält Metadaten zu Hive-Tabellen, z. B. deren Schema und Speicherort.
- Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst in Google Cloud, über den Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung zu ihm herstellen.
- Dataproc-Cluster: Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung zu ihm herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
- Dataproc Metastore-Dienst. Der Name der Metastore-Instanz, die Sie in Google Cloud erstellen. Sie können einen oder viele verschiedene Metastore-Dienste in Ihrer Implementierung verwenden.
- Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es als Alternative zum VPC-Peering für Netzwerke verwenden.
- VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud-Diensten verringern, indem Sie Perimeter erstellen, die die Ressourcen und Daten von Diensten schützen, die Sie explizit angeben.
Konzepte
- Tabellen: Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
- Hive-Warehouse-Verzeichnis. Der Standardspeicherort für verwaltete Tabellendaten.
- Artefakt-Bucket Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Dienstartefakte wie exportierte Metadaten und Daten zu verwalteten Tabellen gespeichert werden. Standardmäßig wird im Artefakt-Bucket das Standard-Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
- Endpunkte Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
- Endpunktprotokolle. Das Over-the-Wire-Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore- und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift und gRPC-Endpunkte.
- Metadatenföderation. Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
- Hilfsversionen: Ein Feature, mit dem Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.
Hive-Metastore-Konzepte
Für die Verwendung eines Dataproc Metastore-Dienstes müssen Sie mit den grundlegenden Hive-Metastore-Konzepten vertraut sein. Weitere Informationen finden Sie unter Hive Metastore.
Netzwerkanforderungen
Der Dataproc Metastore-Dienst erfordert den Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.
Projektkonfigurationen
Es gibt eine Reihe möglicher Projektkonfigurationen, die Sie beim Bereitstellen eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes verwenden können. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.