Konsep inti Metastore Dataproc

Gunakan konsep berikut untuk membantu Anda memahami cara kerja Dataproc Metastore dan berbagai fitur yang dapat digunakan dengan layanan Anda.

Versi Metastore Dataproc

Saat membuat layanan Dataproc Metastore, Anda dapat memilih untuk menggunakan layanan Dataproc Metastore 2 atau layanan Dataproc Metastore 1.

Metastore Dataproc 2

Dataproc Metastore 2 menggunakan faktor penskalaan untuk menentukan jumlah resource yang digunakan layanan Anda pada waktu tertentu. Setelah membuat Dataproc Metastore 2, Anda dapat meningkatkan atau menurunkan skala layanan dengan mengubah faktor penskalaan.

  • Dataproc Metastore 2 adalah layanan generasi baru yang menawarkan skalabilitas horizontal selain fitur Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat fitur dan manfaat.

  • Dataproc Metastore 2 memiliki paket harga yang berbeda dari Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat paket harga dan konfigurasi penskalaan.

Metastore Dataproc 1

Dataproc Metastore 1 menggunakan tingkat layanan untuk menentukan jumlah resource yang digunakan layanan Anda pada waktu tertentu. Tingkat layanan menyediakan jumlah sumber daya yang dapat diprediksi dan telah ditentukan sebelumnya.

Memeriksa versi Dataproc Metastore Anda

Anda dapat memeriksa versi Dataproc Metastore yang Anda gunakan di Konsol Google Cloud.

  • Dataproc Metastore 2: Tabel konfigurasi berisi nilai berikut: Edition Enterprise - Single Region.
  • Dataproc Metastore 1: Tabel konfigurasi berisi salah satu nilai berikut: Tier: DEVELOPER atau Tier: ENTERPRISE.

Istilah umum Metastore Dataproc

Istilah berikut umumnya digunakan di seluruh ekosistem dan dokumentasi Dataproc Metastore.

Service

  • Apache Hive. Hive adalah sistem data warehouse {i>open source<i} yang populer yang dibangun di atas Apache Hadoop. Hive menawarkan bahasa kueri mirip SQL yang disebut HiveQL, yang digunakan untuk menganalisis set data terstruktur dan besar.
  • Metastore Apache Hive. Metastore Hive menyimpan metadata tentang tabel Hive, seperti skema dan lokasinya.
  • Dataproc. Dataproc adalah layanan yang cepat, mudah digunakan, dan terkelola sepenuhnya di Google Cloud untuk menjalankan beban kerja Apache Spark dan Apache Hadoop dengan cara yang sederhana dan hemat biaya. Setelah membuat Dataproc Metastore, Anda dapat menghubungkannya dari cluster Dataproc.
  • Cluster Dataproc. Setelah membuat layanan Dataproc Metastore, Anda dapat menghubungkannya dari cluster Dataproc. Anda juga dapat menggunakan Dataproc Metastore dengan berbagai cluster lainnya, seperti cluster Apache Hive, Apache Spark, atau Presto yang dikelola sendiri.
  • Layanan Dataproc Metastore. Nama instance metastore yang Anda buat di Google Cloud. Anda dapat memiliki satu atau beberapa layanan metastore yang berbeda dalam penerapan Anda.
  • Private Service Connect. Private Service Connect memungkinkan Anda menyiapkan koneksi pribadi ke metadata Dataproc Metastore di seluruh jaringan VPC. Anda dapat menggunakannya untuk jaringan sebagai alternatif peering VPC.
  • Kontrol Layanan VPC. Kontrol Layanan VPC meningkatkan kemampuan Anda untuk mengurangi risiko pemindahan data yang tidak sah dari layanan Google Cloud dengan memungkinkan Anda membuat perimeter yang melindungi resource dan data layanan yang Anda tentukan secara eksplisit.

Konsep

  • Tabel. Semua aplikasi Hive telah mengelola tabel eksternal internal atau tidak terkelola yang menyimpan data Anda.
  • Direktori gudang Hive. Lokasi default tempat data tabel terkelola disimpan.
  • Bucket artefak. Bucket Cloud Storage yang dibuat di project Anda secara otomatis dengan setiap layanan metastore yang Anda buat. Bucket ini dapat digunakan untuk menyimpan artefak layanan Anda, seperti metadata yang diekspor dan data tabel terkelola. Secara default, bucket artefak menyimpan direktori warehouse default untuk layanan Dataproc Metastore Anda.
  • Endpoint. Layanan Dataproc Metastore memberi klien akses ke metadata Hive Metastore yang disimpan melalui satu atau beberapa endpoint jaringan. Dataproc Metastore menyediakan URI untuk endpoint ini.
  • Protokol endpoint. Protokol jaringan over-the-wire yang digunakan untuk komunikasi antara klien Dataproc Metastore dan Hive Metastore. Dataproc Metastore mendukung endpoint Apache Thrift dan gRPC.
  • Federasi Metadata. Fitur yang dapat digunakan untuk mengakses metadata yang disimpan dalam beberapa instance Dataproc Metastore.
  • Versi tambahan. Fitur yang dapat digunakan untuk menghubungkan beberapa versi klien Hive ke layanan Dataproc Metastore yang sama.

Konsep metastore Hive

Untuk menggunakan layanan Dataproc Metastore, Anda harus memahami konsep dasar metastore Hive. Untuk mengetahui informasi selengkapnya, lihat Hive Metastore.

Persyaratan Jaringan

Layanan Dataproc Metastore memerlukan akses jaringan agar dapat berfungsi dengan benar. Untuk informasi selengkapnya, lihat Mengonfigurasi persyaratan jaringan.

Konfigurasi project

Ada sejumlah kemungkinan konfigurasi project yang dapat Anda gunakan saat men-deploy cluster Dataproc dan layanan Dataproc Metastore. Untuk informasi selengkapnya, lihat deployment lintas project.

Langkah selanjutnya