Komponen Trino opsional Dataproc

Anda dapat menginstal komponen tambahan seperti Trino saat membuat cluster Dataproc menggunakan fitur Komponen opsional. Halaman ini menjelaskan cara menginstal komponen Trino secara opsional di cluster Dataproc.

Trino adalah mesin kueri SQL terdistribusi open source. Server Trino dan UI Web secara default tersedia di port 8060 (atau port 7778 jika Kerberos diaktifkan) di node master pertama cluster.

Secara default, Trino di Dataproc dikonfigurasi agar berfungsi dengan konektor Hive, BigQuery, Memory, TPCH, dan TPCDS.

Setelah membuat cluster dengan komponen Trino, Anda dapat menjalankan kueri:

Menginstal komponen

Instal komponen saat Anda membuat cluster Dataproc.

Lihat Versi Dataproc yang didukung untuk mengetahui versi komponen yang disertakan dalam setiap rilis image Dataproc.

perintah gcloud

Untuk membuat cluster Dataproc yang menyertakan komponen Trino, gunakan perintah cluster-name gcloud dataproc clusters create dengan flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Mengonfigurasi properti

Tambahkan tanda --properties ke perintah gcloud dataproc clusters create untuk menetapkan properti konfigurasi trino, trino-jvm, dan trino-catalog.

  • Properti aplikasi: Gunakan properti cluster dengan awalan trino: untuk mengonfigurasi properti aplikasi Trino—misalnya, --properties="trino:join-distribution-type=AUTOMATIC".
  • Properti konfigurasi JVM: Gunakan properti cluster dengan awalan trino-jvm: untuk mengonfigurasi properti JVM untuk proses Java pekerja dan koordinator Trino—misalnya, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Membuat katalog baru dan menambahkan properti katalog: Gunakan trino-catalog:catalog-name.property-name untuk mengonfigurasi katalog Trino.

    Contoh: Flag `properties` berikut dapat digunakan dengan perintah `gcloud dataproc clusters create` untuk membuat cluster Trino dengan katalog Hive "prodhive". File prodhive.properties akan dibuat di bagian/usr/lib/trino/etc/catalog/ untuk mengaktifkan katalog prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Komponen Trino dapat ditentukan melalui Dataproc API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.

Konsol

    1. Aktifkan komponen dan gateway komponen.
      • Di konsol Google Cloud, buka halaman Create a cluster Dataproc. Panel Siapkan cluster dipilih.
      • Di bagian Komponen:
        • Di bagian Komponen opsional, pilih Trino dan komponen opsional lainnya untuk diinstal di cluster Anda.
        • Di bagian Component Gateway, pilih Enable component gateway (lihat Melihat dan Mengakses URL Component Gateway).