Ringkasan Metastore Dataproc

Metastore Dataproc adalah metastore Apache Hive (HMS) terkelola sepenuhnya yang berjalan di Google Cloud. (HMS) adalah standar yang ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis, seperti skema, partisi, dan statistik kolom dalam database relasional.

Metastore Dataproc sangat tersedia, autohealing, dan serverless. Gunakan solusi ini untuk mengelola metadata data lake dan memberikan interoperabilitas antara berbagai mesin pemrosesan data dan fitur yang Anda gunakan.

Cara kerja Metastore Dataproc

Anda dapat menggunakan layanan Dataproc Metastore dengan menghubungkannya ke cluster Dataproc. Cluster Dataproc mencakup komponen yang mengandalkan HMS untuk mendorong perencanaan dan eksekusi kueri.

Dengan integrasi ini, Anda dapat menyimpan informasi tabel di antara tugas atau menyediakan metadata untuk cluster lain dan mesin pemrosesan lainnya.

Misalnya, menerapkan metastore mungkin membantu Anda menentukan bahwa sebagian file Anda berisi data pendapatan, bukan pelacakan nama file secara manual. Dalam hal ini, Anda dapat menentukan tabel untuk file tersebut dan menyimpan metadatanya di Dataproc Metastore. Setelah itu, Anda dapat menghubungkannya ke cluster Dataproc dan mengkueri tabel untuk mendapatkan informasi menggunakan Hive, Spark SQL, atau layanan kueri lainnya.

Versi Metastore Dataproc

Saat membuat layanan Dataproc Metastore, Anda dapat memilih untuk menggunakan layanan Dataproc Metastore 2 atau layanan Dataproc Metastore 1.

  • Dataproc Metastore 2 adalah generasi baru layanan yang menawarkan skalabilitas horizontal selain fitur Dataproc Metastore 1. Untuk mengetahui informasi selengkapnya, lihat fitur dan manfaat.

  • Dataproc Metastore 2 memiliki paket harga yang berbeda dari Metastore Dataproc. Untuk mengetahui informasi selengkapnya, lihat paket harga dan konfigurasi penskalaan.

Kasus penggunaan umum

Semua kasus penggunaan yang tercantum di bagian ini didukung oleh Dataproc Metastore 2 dan Dataproc Metastore 1, kecuali jika dinyatakan lain.

  • Tetapkan makna pada data Anda. Buat repositori metadata terpusat yang digunakan bersama di banyak cluster Dataproc efemeral. Gunakan berbagai mesin software open source (OSS), seperti [Apache Hive](https://hive.apache.org , Apache Spark, dan Presto.

  • Bangun tampilan terpadu mengenai data Anda. Menyediakan interoperabilitas antara layanan Google Cloud, seperti Dataproc, Dataplex, dan BigQuery, atau gunakan penawaran partner berbasis open source lainnya di Google Cloud.

Fitur dan manfaat

Semua fitur yang tercantum di bagian ini didukung oleh Dataproc Metastore 2 dan Dataproc Metastore 1, kecuali jika dinyatakan lain.

  • Kompatibilitas OSS. Terhubung ke mesin pemrosesan data Anda yang ada, seperti Apache Hive, Apache Spark, dan Presto.

  • Pengelolaan. Buat atau update metastore dalam hitungan menit, selesaikan dengan tugas pemantauan dan operasi yang dikonfigurasi sepenuhnya.

  • Integrasi. Integrasikan dengan produk Google Cloud lainnya, seperti menggunakan BigQuery sebagai sumber metadata untuk cluster Dataproc.

  • Keamanan bawaan. Gunakan protokol keamanan Google Cloud yang sudah ada, seperti Identity and Access Management (IAM) dan autentikasi Kerberos.

  • Impor sederhana. Impor metadata yang ada yang disimpan di metastore Hive Metastore eksternal ke layanan Metastore Dataproc.

  • Pencadangan Otomatis. Konfigurasikan cadangan metastore otomatis untuk membantu menghindari hilangnya data.

  • Pemantauan performa. Tetapkan tingkat performa untuk merespons workload dan lonjakan yang sangat intensif, tanpa melakukan prapenyiapan atau penyimpanan dalam cache.

  • Ketersediaan tinggi (HA).

    • Metastore Dataproc 2. Menyediakan ketersediaan tinggi (HA) tingkat zona tanpa memerlukan konfigurasi spesifik atau pengelolaan yang sedang berjalan. Hal ini dilakukan dengan mereplikasi database backend dan server HMS secara otomatis di beberapa zona di region yang Anda pilih. Selain HA Zonal, Dataproc Metastore 2 mendukung HA regional dan Pemulihan dari Bencana (DR).
    • Metastore Dataproc 1. Secara default, menyediakan ketersediaan tinggi zona (HA) tanpa memerlukan konfigurasi tertentu atau pengelolaan yang berkelanjutan. Hal ini dapat dilakukan dengan mereplikasi database backend dan server HMS secara otomatis di beberapa zona di region yang Anda pilih
  • Skalabilitas.

    • Metastore Dataproc 2. Gunakan faktor penskalaan horizontal untuk menentukan jumlah resource yang perlu digunakan layanan Anda pada waktu tertentu. Faktor penskalaan dapat dikontrol secara manual atau disetel ke penskalaan otomatis (Pratinjau) jika diperlukan.
    • Metastore Dataproc 1. Pilih antara tingkat developer atau tingkat perusahaan saat menyiapkan layanan Anda. Tingkat ini menentukan jumlah resource yang perlu digunakan layanan Anda pada waktu tertentu.
  • Dukungan. Dapatkan manfaat dari SLA dan saluran dukungan Google Cloud standar.

Integrasi dengan Google Cloud

Semua integrasi yang tercantum di bagian ini didukung oleh Dataproc Metastore 1 dan Dataproc Metastore 2, kecuali jika dinyatakan lain.

  • Dataproc. Hubungkan ke cluster Dataproc, sehingga Anda dapat menyalurkan metadata untuk workload big data OSS.
  • BigQuery. Buat kueri set data BigQuery di workload Dataproc Anda.
  • Dataplex. Buat kueri untuk data terstruktur dan semi-terstruktur yang ditemukan di dataplex lake.
  • Data Catalog. Sinkronkan Metastore Dataproc dengan Data Catalog untuk mengaktifkan penelusuran dan penemuan metadata.
  • Logging dan Pemantauan. Integrasikan Dataproc Metastore dengan produk Cloud Monitoring dan Logging.
  • Authentication dan IAM. Andalkan autentikasi OAuth standar yang digunakan oleh produk Google Cloud lainnya, yang mendukung penggunaan peran Identity and Access Management terperinci untuk mengaktifkan kontrol akses di setiap resource.

Langkah berikutnya