Anda dapat menginstal komponen tambahan seperti Trino saat membuat cluster Dataproc menggunakan fitur Komponen opsional. Halaman ini menjelaskan cara menginstal komponen Trino secara opsional di cluster Dataproc.
Trino adalah mesin kueri SQL
terdistribusi open source. Server Trino dan UI Web secara default tersedia di port 8060
(atau port 7778
jika Kerberos diaktifkan) pada node master pertama cluster.
Secara default, Trino di Dataproc dikonfigurasi untuk berfungsi dengan Hive
, BigQuery
, Memory
, TPCH
dan TPCDS
connectors.
Setelah membuat cluster dengan komponen Trino, Anda dapat menjalankan kueri:
- dari terminal lokal dengan
perintah
gcloud dataproc jobs submit trino
- dari jendela terminal pada node master pertama cluster menggunakan CLI
trino
(Antarmuka Command Line)—lihat Menggunakan Trino dengan Dataproc.
Menginstal komponen
Instal komponen saat Anda membuat cluster Dataproc.
Lihat Versi Dataproc yang didukung untuk versi komponen yang disertakan dalam setiap rilis image Dataproc.
Perintah gcloud
Untuk membuat cluster Dataproc yang menyertakan komponen Trino, gunakan perintah gcloud dataproc cluster create cluster-name dengan flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
Mengonfigurasi properti
Tambahkan flag --properties
ke perintah gcloud dataproc clusters create
untuk menetapkan properti konfigurasi trino, trino-jvm, dan trino-catalog.
-
Properti aplikasi: Gunakan properti cluster dengan
awalan
trino:
untuk mengonfigurasi properti aplikasi Trino—misalnya,--properties="trino:join-distribution-type=AUTOMATIC"
. - Properti konfigurasi JVM: Gunakan properti cluster dengan awalan
trino-jvm:
guna mengonfigurasi properti JVM untuk proses Java pekerja dan koordinator Trino—misalnya,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Membuat katalog baru dan menambahkan properti katalog: Gunakan
trino-catalog:catalog-name.property-name
untuk mengonfigurasi katalog Trino.Contoh: Tanda `properties` berikut dapat digunakan dengan perintah `gcloud dataproc cluster create` untuk membuat cluster Trino dengan katalog Hive "prodhive". File
prodhive.properties
akan dibuat di/usr/lib/trino/etc/catalog/
untuk mengaktifkan katalog produk.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
REST API
Komponen Trino dapat ditentukan melalui Dataproc API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.
Konsol
- Aktifkan gateway komponen dan komponen.
- Di Konsol Google Cloud, buka halaman Buat cluster Dataproc. Panel Siapkan cluster dipilih.
- Di bagian Components:
- Di bagian Optional Components, pilih Trino dan komponen opsional lainnya untuk diinstal di cluster Anda.
- Pada Gateway Komponen, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Gateway Komponen).