Workbench eksplorasi data di Dataplex (Jelajahi) memungkinkan Anda membuat kueri data yang dikelola sepenuhnya secara interaktif dengan akses sekali klik ke skrip Spark SQL dan notebook Jupyter. Jelajahi memungkinkan Anda berkolaborasi di seluruh tim dengan publikasi, berbagi, dan penelusuran aset coding bawaan.
Pelajari penyediaan, penskalaan, dan pengelolaan infrastruktur serverless yang diperlukan untuk menjalankan skrip dan notebook Spark SQL menggunakan kredensial pengguna. Anda dapat mengoperasikan pekerjaan dengan penjadwalan serverless dari workbench.
Dokumen ini menjelaskan cara menggunakan fitur Jelajahi di Dataplex.
Biaya
Dataplex menawarkan Jelajah di paket pemrosesan premium.
Terminologi
Dokumen ini menggunakan istilah berikut:
Lingkungan
Lingkungan menyediakan resource komputasi serverless untuk kueri dan notebook Spark SQL Anda agar dapat berjalan dalam data lake. Administrator Dataplex membuat dan mengelola lingkungan.
Administrator dapat memberikan otorisasi kepada satu atau beberapa pengguna untuk menjalankan kueri dan notebook di lingkungan yang dikonfigurasi dengan memberi mereka peran Developer Dataplex atau izin IAM terkait.
Sesi
Saat pengguna yang diotorisasi memilih lingkungan untuk menjalankan kueri dan notebook, Dataplex menggunakan konfigurasi lingkungan yang ditentukan untuk membuat sesi aktif khusus pengguna. Bergantung pada konfigurasi lingkungan, jika tidak digunakan, sesi akan otomatis dihentikan.
Perlu waktu beberapa menit untuk memulai sesi baru per pengguna. Setelah dimulai, sesi akan menjalankan kueri dan notebook berikutnya untuk pengguna yang sama. Sesi aktif maksimal selama 10 jam.
Untuk lingkungan, Dataplex hanya membuat satu sesi per pengguna, yang digunakan bersama oleh skrip Spark SQL dan notebook Jupyter.
Dataplex menggunakan kredensial pengguna dalam sesi untuk menjalankan operasi, seperti membuat kueri data dari Cloud Storage dan BigQuery.
Node
Node menentukan kapasitas komputasi dalam konfigurasi lingkungan. Satu node dipetakan ke 4 Data Compute Unit (DCU), yang sebanding dengan 4 vCPU dan 16 GB RAM.
Lingkungan default
Anda dapat membuat satu lingkungan default per danau dengan ID default
.
Lingkungan default harus menggunakan konfigurasi default. Konfigurasi default
terdiri dari hal berikut:
- Kapasitas komputasi satu node
- Ukuran disk utama 100 GB
- Penonaktifan sesi otomatis (waktu penonaktifan otomatis) ditetapkan ke waktu tidak ada aktivitas selama 10 menit
- Parameter
sessionSpec.enableFastStartup
, yang secara default ditetapkan ketrue
. Jika parameter ini ditetapkan ketrue
, Dataplex akan menyediakan sesi untuk lingkungan ini terlebih dahulu sehingga sesi tersebut tersedia, yang akan mengurangi waktu startup sesi awal. - Sesi startup cepat adalah sesi node tunggal, yang dikenai biaya oleh Dataplex dengan tarif SKU Pemrosesan Premium yang mirip dengan sesi reguler. Maksimum satu sesi selalu aktif tersedia untuk startup cepat, yang menimbulkan biaya meskipun tidak digunakan. Dataplex mempertahankan sesi yang telah dibuat sebelumnya ini selama 10 jam, menonaktifkannya, lalu membuat sesi baru.
Jika Anda tidak memilih lingkungan secara eksplisit dan jika Anda telah menyiapkan lingkungan default sebelumnya, Dataplex akan menggunakan lingkungan default untuk membuat sesi.
Skrip SQL
Skrip SQL adalah skrip Spark SQL yang disimpan sebagai konten dalam danau Dataplex. Anda dapat menyimpan skrip dalam lake dan membagikannya dengan akun utama lainnya. Selain itu, Anda dapat menjadwalkannya untuk dijalankan sebagai tugas Spark serverless batch di Dataplex. Dataplex memungkinkan akses Spark SQL siap pakai ke tabel yang dipetakan ke data di Cloud Storage dan BigQuery.
Notebook
Notebook Python 3 adalah notebook Jupyter yang Anda simpan sebagai konten di Dataplex lake. Anda dapat menyimpan notebook sebagai konten dalam data lake dan membagikannya kepada akun utama lainnya, atau menjadwalkannya untuk dijalankan sebagai tugas batch Spark Dataproc Serverless di Dataplex.
Untuk data di BigQuery, Anda dapat mengakses tabel BigQuery langsung melalui Spark tanpa menggunakan perintah magic %%bigquery
.
Sebelum memulai
Sebelum memulai, tautkan data lake Anda ke Dataproc Metastore dan berikan peran yang diperlukan.
Menautkan data lake ke Dataproc Metastore (DPMS)
Untuk menggunakan Jelajahi, lakukan hal berikut:
- Kaitkan instance Dataproc Metastore (DPMS) yang mengaktifkan gRPC versi 3.1.2 atau yang lebih baru dengan data lake Dataplex.
- Pastikan Anda memiliki Dataproc Metastore dan lingkungan yang dipetakan ke data lake.
Pelajari cara menyiapkan Dataproc Metastore dengan Dataplex untuk mengakses metadata di Spark.
Peran yang diperlukan
Bergantung pada tindakan yang ingin Anda lakukan, Anda memerlukan semua peran IAM berikut. Semua lingkungan di lake mewarisi izin yang diberikan di tingkat lake.
- Dataplex Viewer
- Developer Dataplex
- Dataplex Metadata Reader
- Data Reader Dataplex
Peran tambahan:
Logging
Untuk memahami penggunaan Pelajari, lihat dokumen berikut:
Batasan umum
Bagian ini menjelaskan batasan umum Jelajahi.
Jelajah tersedia untuk data lake di region berikut:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
Anda dapat menggunakan hingga 10 lingkungan per region dalam sebuah project. Untuk mengetahui informasi tentang cara meningkatkan batas kuota, lihat Mengelola kuota.
Anda dapat membuat lingkungan dengan maksimum 150 node. Durasi sesi untuk setiap sesi pengguna dibatasi hingga 10 jam.
Skrip Spark SQL hanya dapat membuat kueri data dalam data lake tertentu. Jika ingin membuat kueri data di data lake lain, Anda harus beralih ke data lake tersebut dan memilih lingkungan dalam data lake tersebut.
Setelah Anda membatalkan penghapusan project, Dataplex tidak akan memulihkan resource konten, seperti skrip SQL atau notebook. Lanjutkan dengan hati-hati saat menghapus project dengan resource konten Jelajahi.
Saat menjadwalkan notebook, jika lingkungan memiliki paket kustom, Anda hanya dapat menjadwalkan notebook menggunakan gcloud CLI. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan notebook dengan paket kustom.
Jika menghapus lingkungan sebelum menghapus skrip dan notebook, Anda tidak dapat mengakses halaman Jelajahi. Oleh karena itu, pastikan Anda menghapus skrip dan notebook sebelum menghapus lingkungan di Jelajahi.
Jelajahi sesi tidak mendukung Hadoop Distributed File System (HDFS). Jangan menyimpan data pengguna apa pun dalam sesi Jelajah karena data tersebut akan dihapus saat sesi berakhir.
Batas ukuran maksimum untuk notebook atau skrip SQL adalah 1 MB.
Membuat lingkungan
Di konsol Google Cloud, buka halaman Kelola Danau Dataplex.
Pilih lake Dataplex yang ingin Anda buat lingkungannya.
Klik tab Environments.
Klik Create environment.
Di kolom Nama tampilan, masukkan nama untuk lingkungan Anda.
Di Environment ID, masukkan ID unik.
Opsional: Masukkan deskripsi untuk lingkungan baru.
Di panel Configure compute, tentukan hal berikut:
- Jumlah node: Jumlah node yang akan disediakan untuk sesi pengguna yang dibuat untuk lingkungan ini.
- Jumlah maksimum node: Jumlah maksimum node yang dapat diskalakan secara otomatis oleh Dataplex dalam sesi pengguna yang terkait dengan lingkungan ini.
- Primary disk size: Jumlah ukuran disk yang terkait dengan setiap node yang disediakan.
- Waktu penonaktifan otomatis: Waktu tidak ada aktivitas, setelahnya Dataplex otomatis menonaktifkan sesi pengguna yang terkait dengan lingkungan ini. Anda dapat menetapkan minimum 10 menit dan maksimum 60 menit.
Di panel Software packages (optional), Anda dapat menentukan paket Python, file JAR, dan properti Spark tambahan untuk diinstal di sesi pengguna yang disediakan untuk lingkungan ini.
Saat Anda membuat lingkungan dan memberikan jalur Cloud Storage untuk JAR Java atau paket Python, agar Dataplex dapat menginstal JAR atau paket, pastikan Agen Layanan Cloud Dataplex memiliki izin yang diperlukan untuk mengakses file Cloud Storage.
Klik Create.
Catatan
Node dipetakan ke 4 Data Compute Unit (DCU), yang sebanding dengan 4 vCPU dan 16 GB RAM.
Anda dapat membuat lingkungan dengan satu node, atau dengan tiga node atau lebih.
Jika Anda adalah administrator data lake, Anda dapat menyiapkan lingkungan terlebih dahulu, sehingga pengguna dapat menjalankan beban kerja mereka menggunakan konfigurasi yang telah ditentukan sebelumnya.
Meskipun lingkungan dapat dibagikan kepada beberapa pengguna, Dataplex akan membuat sesi terpisah per pengguna menggunakan konfigurasi lingkungan.
Membuat lingkungan default
Lihat persyaratan konfigurasi untuk lingkungan default.
Konsol
Buka Dataplex di Konsol Google Cloud.
Buka tampilan Kelola.
Pilih Dataplex lake.
Klik tab Environments.
Klik Create default environment.
gcloud
Untuk membuat lingkungan default dengan pengaktifan startup cepat, jalankan perintah berikut:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Menjelajahi data menggunakan workbench Spark SQL
Untuk menjelajahi data BigQuery dan Cloud Storage, gunakan skrip Spark SQL.
Membuat dan menyimpan skrip
Di konsol Google Cloud, buka halaman Jelajahi Dataplex.
Di tampilan Explore, pilih data lake yang berisi aset data yang ingin Anda jelajahi.
Di browser resource, luaskan danau. Tindakan ini akan menampilkan folder berikut:
- Data: Berisi semua database dan tabel di instance DPMS yang terhubung ke data lake Anda, termasuk tabel Hudi, Iceberg, dan Delta Lake.
- Notebook: Berisi semua notebook yang dibuat di data lake yang dipilih.
- Skrip Spark SQL: Berisi semua skrip Spark SQL yang dibuat di danau yang dipilih.
Luaskan Data, lalu pilih database dan tabel yang diperlukan.
Untuk menggunakan contoh kueri, klik QUERY. Workbench Spark SQL akan otomatis mengisi tab baru dengan contoh kueri.
Untuk membuat skrip baru, di Spark SQL Editor, klik New script, dan masukkan kueri Anda.
Untuk menyimpan skrip, pilih Save > Save script.
Menjalankan skrip
Di Spark SQL Editor, klik tab dengan kueri yang ingin Anda jalankan.
Klik Pilih lingkungan. Pilih lingkungan tempat Anda ingin menjalankan kueri. Jika Anda tidak memilih lingkungan, Dataplex akan menggunakan lingkungan default untuk membuat sesi per pengguna.
Anda dapat menjalankan beberapa kueri Spark SQL dalam skrip yang sama dengan memisahkan kueri menggunakan titik koma.
Klik Run.
Lihat hasil Histori kueri untuk setiap kueri dalam skrip menggunakan daftar drop-down.
Menjadwalkan skrip
Anda dapat menjadwalkan skrip untuk dijalankan sebagai Tugas Dataplex. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola jadwal untuk skrip SQL.
Membagikan skrip
Anda dapat membagikan skrip kepada orang lain di organisasi menggunakan izin IAM:
Di tampilan Jelajahi, klik skrip Spark SQL yang ingin Anda bagikan.
Di menu Lainnya, klik Bagikan.
Tinjau izin. Menambahkan atau menghapus izin penonton, editor, dan administrator untuk skrip bersama.
Setelah Anda membagikan skrip, pengguna dengan izin lihat atau edit di tingkat danau dapat membuka danau dan mengerjakan skrip yang dibagikan.
Menjelajahi data BigQuery dan Cloud Storage menggunakan Spark SQL
Untuk set data BigQuery yang ditambahkan sebagai aset ke zona, Dataplex memungkinkan akses Spark SQL langsung ke semua tabel dalam set data tersebut. Anda dapat membuat kueri data di Dataplex menggunakan skrip atau notebook Spark SQL. Contoh:
select * from ZONE_ID.TABLE_ID
Jika aset Anda dipetakan ke bucket Cloud Storage di zona yang sama, Dataplex akan menyediakan daftar tabel terpadu yang dapat Anda kueri menggunakan Spark.
Menjelajahi data menggunakan notebook
Bagian ini menjelaskan cara membuat, menjadwalkan, membagikan, mengimpor, dan mengekspor notebook.
Membuat dan menyimpan notebook
Di konsol Google Cloud, buka halaman Jelajahi Dataplex.
Di tampilan Jelajahi, pilih danau.
Luaskan dan klik folder Notebooks.
Klik New notebook.
Di kolom Notebook path, berikan nama notebook.
Opsional: Di kolom Deskripsi, berikan deskripsi untuk notebook baru.
Opsional: Tambahkan label.
Klik Buat notebook. Notebook kini telah dibuat.
Untuk membuka notebook yang dibuat, klik Open notebook.
Pilih lingkungan tempat Anda ingin Dataplex membuat sesi pengguna, saat membuat atau membuka notebook. Pastikan Anda memilih lingkungan dengan paket yang Anda percayai.
Jika Anda tidak memilih lingkungan, Dataplex akan menggunakan lingkungan default. Jika Anda tidak memiliki lingkungan, buat lingkungan. Untuk mengetahui informasi selengkapnya, lihat Membuat lingkungan.
Sekarang Anda dapat menjelajahi data dengan menulis kode python dan menyimpan notebook setelah eksplorasi. Kemudian, Anda dapat melihat pratinjau notebook yang dibuat dan memeriksa outputnya tanpa membuat sesi dan menjalankan kode.
Menjadwalkan notebook
Anda dapat menjadwalkan notebook untuk dijalankan sebagai Tugas Dataplex. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola jadwal untuk notebook.
Membagikan notebook
Anda dapat membagikan notebook kepada orang lain di organisasi menggunakan izin IAM:
Di tampilan Jelajahi, klik folder Notebook.
Pilih notebook Jupyter yang ingin Anda bagikan.
Klik Bagikan.
Tinjau izin. Menambahkan atau menghapus izin penampil, editor, dan administrator untuk notebook ini.
Setelah Anda membagikan notebook, pengguna dengan izin lihat atau edit di tingkat danau dapat membuka danau dan mengerjakan notebook bersama.
Mengimpor notebook
Anda dapat mengimpor notebook dari bucket Cloud Storage:
Di tampilan Jelajahi, klik folder Notebook.
Klik Import.
Buka bucket Cloud Storage yang berisi notebook yang ingin Anda impor.
Pilih notebook, berikan nama, lalu klik Impor.
Notebook yang diimpor akan dibuat di folder Notebook. Anda dapat membuka, mengedit, membagikan, dan menjadwalkan notebook yang diimpor.
Mengekspor notebook
Anda dapat mengekspor notebook ke bucket Cloud Storage agar dapat digunakan oleh orang lain di organisasi dengan izin IAM.
Di tampilan Jelajahi, klik folder Notebook.
Tandai notebook yang ingin diekspor.
Klik menu
, lalu klik Ekspor.Masukkan jalur Cloud Storage tempat Anda ingin mengekspor notebook.
Klik Ekspor notebook.
Langkah selanjutnya
- Lihat referensi API untuk resource Tugas.
- Mengelola lingkungan Anda.
- Menemukan data.
- Menjadwalkan skrip dan notebook SQL.
- Mengelola metadata.