Halaman ini menunjukkan cara menyelesaikan masalah terkait Workbench eksplorasi data di Dataplex.
Database tidak ditemukan
Saat Anda menjalankan kueri Spark dari workbench SQL atau notebook Jupyter, error berikut akan terjadi:
Script failed in execution.
org.apache.spark.sql.catalyst.parser.ParseException:
No viable alternative at input `zone-name`(line 1, pos24)
Nama zona Dataplex dipetakan ke nama database yang kompatibel dengan Hive,
yang dapat dikueri menggunakan Spark. Nama zona Dataplex dapat berisi
tanda hubung (-
), sedangkan nama database Hive tidak boleh. Oleh karena itu, tanda hubung
dalam nama zona Dataplex dipetakan ke garis bawah (_
) dalam
nama database Hive.
Untuk menyelesaikan masalah ini, ikuti langkah berikut:
Mendapatkan daftar database yang tersedia:
show databases
Tinjau daftar nama database yang ditampilkan dan pastikan Anda membuat kueri nama database yang benar.
Tabel tidak ditemukan
Saat Anda menjalankan kueri Spark dari workbench SQL atau notebook Jupyter, error berikut akan terjadi:
Script failed in execution.
org.apache.spark.sql.AnalysisException: Table or view not found
Dataplex menemukan metadata untuk aset BigQuery dan Cloud Storage, serta membuatnya dapat diakses menggunakan Dataproc Metastore (DPMS). Kueri Spark di workbench SQL atau notebook Jupyter terhubung ke DPMS saat menjalankan kueri SQL untuk mendapatkan metadata tabel.
Untuk menyelesaikan masalah ini, ikuti langkah berikut:
Dapatkan daftar tabel yang tersedia:
show tables in DATABASE_NAME
Pastikan Anda membuat kueri nama tabel yang benar.
Jika nama tabel berisi huruf besar, tetapkan
spark.sql.caseSensitive
ketrue
dalam konfigurasi lingkungan.
Error izin
Kueri Spark gagal dengan error izin. Contoh:
HiveException
TTransportException
Untuk menggunakan fitur Jelajahi di Dataplex, Anda harus diberi peran dan izin yang diperlukan pada resource Dataplex dan aset pokok.
Untuk mengatasi masalah izin, ikuti langkah-langkah berikut:
- Pastikan Anda diberi peran dan izin yang diperlukan untuk menggunakan workbench Eksplorasi data.
- Pastikan Anda memiliki izin
read
pada aset Cloud Storage dan BigQuery yang mendasarinya. - Untuk paket kustom, pastikan Agen Layanan Cloud Dataplex memiliki izin
read
di bucket Cloud Storage yang dikonfigurasi di lingkungan.
Tidak dapat menghapus lake yang berisi skrip atau notebook
Saat Anda menghapus data lake yang digunakan untuk Dataplex Explore, dan jika data lake tersebut berisi skrip atau notebook, error berikut akan terjadi:
Failed to delete `projects/locations/region/lakes/lakename` since it has child
resources.
Dataplex Explore memerlukan minimal satu lingkungan untuk ada di browser resource.
Untuk mengatasi masalah ini, gunakan salah satu solusi berikut:
- Gunakan perintah gcloud CLI untuk menghapus skrip dan notebook dari lake, lalu hapus lake.
- Buat lingkungan sementara yang mengaktifkan browser resource. Hapus semua skrip dan notebook, diikuti dengan lingkungan sementara dan data set.
Tugas dibatalkan
Saat Anda menjalankan kueri Spark, tugas akan dibatalkan jika ada error kritis.
Untuk mengatasi masalah ini, lihat pesan error untuk mengidentifikasi akar masalah, lalu perbaiki.
TTransportException saat membuat kueri tabel Iceberg
Saat Anda membuat kueri tabel Iceberg yang lebar, TTransportException
akan muncul.
Iceberg memiliki masalah umum di Spark 3.1 yang tersedia di image Dataproc 2.0 yang digunakan oleh Dataplex Explore.
Untuk mengatasi masalah ini, tambahkan proyeksi tambahan dalam kueri SELECT
.
Contoh:
SELECT a,b,c, 1 AS dummy FROM ICEBERG_TABLE
Dalam contoh ini, 1 AS dummy
adalah proyeksi tambahan. Untuk mengetahui informasi selengkapnya,
lihat halaman detail masalah.
Danau tidak muncul di browser resource Jelajahi
Jelajah hanya tersedia untuk danau di wilayah us-central1
, europe-west2
,
europe-west1
, us-east1
, us-west1
, asia-southeast1
, asia-northeast1
. Danau yang termasuk dalam wilayah lain tidak akan muncul di browser resource Jelajah.
Tidak dapat memulai Dataplex Explore
Di konsol Google Cloud, pada halaman Dataplex, saat Anda mengklik Jelajahi, pesan berikut akan ditampilkan:
In order to use Dataplex Explore to query data in CLoud Storage and BigQuery
using open soure applications (ex: SparkSQL), connect a metastore. Get started
by setting up one. If DPMS is already attached to the lake and you are seeing
this page, please check the DPMS logs for any possible issues.
Jelajah hanya berfungsi jika data lake memiliki Dataproc Metastore (DPMS) yang dikonfigurasi dan setidaknya satu penyiapan lingkungan.
Untuk mengatasi masalah ini, tautkan data lake Anda ke Dataproc Metastore.
Batasan kuota
Saat membuat lingkungan, Anda mungkin melihat error terkait kuota.
Untuk mengatasi masalah ini, tinjau kuota berikut sebelum membuat lingkungan:
- Anda dapat membuat 10 lingkungan per data lake.
- Anda dapat membuat lingkungan dengan maksimum 150 node.
- Durasi sesi untuk setiap sesi pengguna dibatasi hingga 10 jam.
Waktu startup sesi lama
Perlu waktu 2,5-3,5 menit untuk memulai sesi baru per pengguna. Setelah sesi aktif, sesi tersebut akan digunakan untuk menjalankan kueri dan notebook berikutnya untuk pengguna yang sama.
Untuk mengurangi waktu startup sesi, buat lingkungan default dengan mengaktifkan startup cepat.
Tidak dapat menjadwalkan notebook yang berisi paket Python kustom
Di konsol Google Cloud, saat Anda menjadwalkan notebook yang berisi paket Python kustom, error berikut akan terjadi:
Selected environment ENVIRONMENT_NAME has additional Python
packages configured. These packages will not be available in the default runtime
for the scheduled notebook when scheduling in the Console. To make the required
additional Python packages available in the runtime, please create Notebook
Schedule using gcloud command instead, referencing a container image with
required additional packages.
Anda tidak dapat menjadwalkan notebook di konsol Google Cloud jika lingkungan memiliki paket Python kustom.
Untuk mengatasi masalah ini, gunakan gcloud CLI untuk menjadwalkan notebook yang berisi paket kustom.