Konsep inti Dataproc Metastore

Gunakan konsep berikut untuk membantu Anda memahami cara kerja Dataproc Metastore dan berbagai fitur yang dapat Anda gunakan dengan layanan Anda.

Versi Dataproc Metastore

Saat membuat layanan Dataproc Metastore, Anda dapat memilih untuk menggunakan layanan Dataproc Metastore 2 atau layanan Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 menggunakan faktor penskalaan untuk menentukan jumlah resource yang digunakan layanan Anda pada waktu tertentu. Setelah membuat Dataproc Metastore 2, Anda dapat meningkatkan atau menurunkan skala layanan dengan mengubah faktor penskalaan.

  • Dataproc Metastore 2 adalah generasi baru layanan yang menawarkan skalabilitas horizontal selain fitur Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat fitur dan manfaat.

  • Dataproc Metastore 2 memiliki paket harga yang berbeda dengan Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat paket harga dan konfigurasi penskalaan.

Dataproc Metastore 1

Dataproc Metastore 1 menggunakan paket layanan untuk menentukan jumlah resource yang digunakan layanan Anda pada waktu tertentu. Tingkat layanan menyediakan jumlah resource yang dapat diprediksi dan telah ditetapkan sebelumnya.

Memeriksa versi Metastore Dataproc

Anda dapat memeriksa versi Dataproc Metastore yang Anda gunakan di konsol Google Cloud.

  • Dataproc Metastore 2: Tabel konfigurasi berisi nilai berikut: Edisi Enterprise - Satu Region.
  • Dataproc Metastore 1: Tabel konfigurasi berisi salah satu nilai berikut: Tingkat: DEVELOPER atau Tingkat: ENTERPRISE.

Istilah umum Dataproc Metastore

Istilah berikut umum digunakan di seluruh ekosistem dan dokumentasi Dataproc Metastore.

Layanan

  • Apache Hive. Hive adalah sistem data warehouse open source populer yang dibuat di Apache Hadoop. Hive menawarkan bahasa kueri seperti SQL yang disebut HiveQL, yang digunakan untuk menganalisis set data besar dan terstruktur.
  • Metastore Apache Hive. Metastore Hive menyimpan metadata tentang tabel Hive, seperti skema dan lokasinya.
  • Dataproc. Dataproc adalah layanan cepat, mudah digunakan, dan terkelola sepenuhnya di Google Cloud untuk menjalankan beban kerja Apache Spark dan Apache Hadoop dengan cara yang sederhana dan hemat biaya. Setelah membuat Dataproc Metastore, Anda dapat terhubung ke metastore tersebut dari cluster Dataproc.
  • Cluster Dataproc. Setelah membuat layanan Dataproc Metastore, Anda dapat terhubung ke layanan tersebut dari cluster Dataproc. Anda juga dapat menggunakan Dataproc Metastore dengan berbagai cluster lainnya, seperti cluster Apache Hive, Apache Spark, atau Presto yang dikelola sendiri.
  • Layanan Dataproc Metastore. Nama instance metastore yang Anda buat di Google Cloud. Anda dapat memiliki satu atau beberapa layanan metastore yang berbeda dalam implementasi.
  • Private Service Connect. Private Service Connect memungkinkan Anda menyiapkan koneksi pribadi ke metadata Dataproc Metastore di seluruh jaringan VPC. Anda dapat menggunakannya untuk jaringan sebagai alternatif untuk peering VPC.
  • Kontrol Layanan VPC. Kontrol Layanan VPC meningkatkan kemampuan Anda untuk mengurangi risiko pemindahan data yang tidak sah dari layanan Google Cloud dengan memungkinkan Anda membuat perimeter yang melindungi resource dan data layanan yang Anda tentukan secara eksplisit.

Konsep

  • Tabel. Semua aplikasi Hive memiliki tabel internal terkelola atau tabel eksternal tidak terkelola yang menyimpan data Anda.
  • Direktori warehouse Hive. Lokasi default tempat data tabel terkelola disimpan.
  • Bucket artefak. Bucket Cloud Storage yang dibuat di project Anda secara otomatis dengan setiap layanan metastore yang Anda buat. Bucket ini dapat digunakan untuk menyimpan artefak layanan Anda, seperti metadata yang diekspor dan data tabel terkelola. Secara default, bucket artefak menyimpan direktori warehouse default layanan Dataproc Metastore Anda.
  • Endpoint. Layanan Dataproc Metastore memberi klien akses ke metadata Hive Metastore yang disimpan melalui satu atau beberapa endpoint jaringan. Dataproc Metastore menyediakan URI untuk endpoint ini.
  • Protokol endpoint. Protokol jaringan over-the-wire yang digunakan untuk komunikasi antara klien Dataproc Metastore dan Hive Metastore. Dataproc Metastore mendukung endpoint Apache Thrift dan gRPC.
  • Metadata Federation. Fitur yang memungkinkan Anda mengakses metadata yang disimpan di beberapa instance Dataproc Metastore.
  • Versi tambahan. Fitur yang memungkinkan Anda menghubungkan beberapa versi klien Hive ke layanan Dataproc Metastore yang sama.

Konsep metastore Hive

Untuk menggunakan layanan Dataproc Metastore, Anda harus memahami konsep dasar metastore Hive. Untuk mengetahui informasi selengkapnya, lihat Metastore Hive.

Persyaratan Jaringan

Layanan Dataproc Metastore memerlukan akses jaringan agar dapat berfungsi dengan benar. Untuk informasi selengkapnya, lihat Mengonfigurasi persyaratan jaringan.

Konfigurasi project

Ada sejumlah kemungkinan konfigurasi project yang dapat Anda gunakan saat men-deploy cluster Dataproc dan layanan Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat Deployment lintas project.

Langkah selanjutnya