Menggunakan Workbench eksplorasi data

Workbench eksplorasi data di Dataplex (Jelajahi) memungkinkan Anda membuat kueri data yang dikelola sepenuhnya secara interaktif dengan akses sekali klik ke skrip Spark SQL dan notebook Jupyter. Jelajahi memungkinkan Anda berkolaborasi di seluruh tim dengan publikasi, berbagi, dan penelusuran aset coding bawaan.

Pelajari penyediaan, penskalaan, dan pengelolaan infrastruktur serverless yang diperlukan untuk menjalankan skrip dan notebook Spark SQL menggunakan kredensial pengguna. Anda dapat mengoperasikan pekerjaan dengan penjadwalan serverless dari workbench.

Dokumen ini menjelaskan cara menggunakan fitur Jelajahi di Dataplex.

Biaya

Dataplex menawarkan Jelajah di paket pemrosesan premium.

Terminologi

Dokumen ini menggunakan istilah berikut:

Lingkungan

Lingkungan menyediakan resource komputasi serverless untuk kueri dan notebook Spark SQL Anda agar dapat berjalan dalam data lake. Administrator Dataplex membuat dan mengelola lingkungan.

Administrator dapat memberikan otorisasi kepada satu atau beberapa pengguna untuk menjalankan kueri dan notebook di lingkungan yang dikonfigurasi dengan memberi mereka peran Developer Dataplex atau izin IAM terkait.

Sesi

Saat pengguna yang diotorisasi memilih lingkungan untuk menjalankan kueri dan notebook, Dataplex menggunakan konfigurasi lingkungan yang ditentukan untuk membuat sesi aktif khusus pengguna. Bergantung pada konfigurasi lingkungan, jika tidak digunakan, sesi akan otomatis dihentikan.

Perlu waktu beberapa menit untuk memulai sesi baru per pengguna. Setelah dimulai, sesi akan menjalankan kueri dan notebook berikutnya untuk pengguna yang sama. Sesi aktif maksimal selama 10 jam.

Untuk lingkungan, Dataplex hanya membuat satu sesi per pengguna, yang digunakan bersama oleh skrip Spark SQL dan notebook Jupyter.

Dataplex menggunakan kredensial pengguna dalam sesi untuk menjalankan operasi, seperti membuat kueri data dari Cloud Storage dan BigQuery.

Node

Node menentukan kapasitas komputasi dalam konfigurasi lingkungan. Satu node dipetakan ke 4 Data Compute Unit (DCU), yang sebanding dengan 4 vCPU dan 16 GB RAM.

Lingkungan default

Anda dapat membuat satu lingkungan default per danau dengan ID default. Lingkungan default harus menggunakan konfigurasi default. Konfigurasi default terdiri dari hal berikut:

  • Kapasitas komputasi satu node
  • Ukuran disk utama 100 GB
  • Penonaktifan sesi otomatis (waktu penonaktifan otomatis) ditetapkan ke waktu tidak ada aktivitas selama 10 menit
  • Parameter sessionSpec.enableFastStartup, yang secara default ditetapkan ke true. Jika parameter ini ditetapkan ke true, Dataplex akan menyediakan sesi untuk lingkungan ini terlebih dahulu sehingga sesi tersebut tersedia, yang akan mengurangi waktu startup sesi awal.
  • Sesi startup cepat adalah sesi node tunggal, yang dikenai biaya oleh Dataplex dengan tarif SKU Pemrosesan Premium yang mirip dengan sesi reguler. Maksimum satu sesi selalu aktif tersedia untuk startup cepat, yang menimbulkan biaya meskipun tidak digunakan. Dataplex mempertahankan sesi yang telah dibuat sebelumnya ini selama 10 jam, menonaktifkannya, lalu membuat sesi baru.

Jika Anda tidak memilih lingkungan secara eksplisit dan jika Anda telah menyiapkan lingkungan default sebelumnya, Dataplex akan menggunakan lingkungan default untuk membuat sesi.

Skrip SQL

Skrip SQL adalah skrip Spark SQL yang disimpan sebagai konten dalam danau Dataplex. Anda dapat menyimpan skrip dalam lake dan membagikannya dengan akun utama lainnya. Selain itu, Anda dapat menjadwalkannya untuk dijalankan sebagai tugas Spark serverless batch di Dataplex. Dataplex memungkinkan akses Spark SQL siap pakai ke tabel yang dipetakan ke data di Cloud Storage dan BigQuery.

Notebook

Notebook Python 3 adalah notebook Jupyter yang Anda simpan sebagai konten di Dataplex lake. Anda dapat menyimpan notebook sebagai konten dalam data lake dan membagikannya kepada akun utama lainnya, atau menjadwalkannya untuk dijalankan sebagai tugas batch Spark Dataproc Serverless di Dataplex.

Untuk data di BigQuery, Anda dapat mengakses tabel BigQuery langsung melalui Spark tanpa menggunakan perintah magic %%bigquery.

Sebelum memulai

Sebelum memulai, tautkan data lake Anda ke Dataproc Metastore dan berikan peran yang diperlukan.

Menautkan data lake ke Dataproc Metastore (DPMS)

Untuk menggunakan Jelajahi, lakukan hal berikut:

Pelajari cara menyiapkan Dataproc Metastore dengan Dataplex untuk mengakses metadata di Spark.

Peran yang diperlukan

Bergantung pada tindakan yang ingin Anda lakukan, Anda memerlukan semua peran IAM berikut. Semua lingkungan di lake mewarisi izin yang diberikan di tingkat lake.

Peran IAM Dataplex:

  • Dataplex Viewer
  • Developer Dataplex
  • Dataplex Metadata Reader
  • Data Reader Dataplex

Peran tambahan:

Logging

Untuk memahami penggunaan Pelajari, lihat dokumen berikut:

Batasan umum

Bagian ini menjelaskan batasan umum Jelajahi.

  • Jelajah tersedia untuk data lake di region berikut:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Anda dapat menggunakan hingga 10 lingkungan per region dalam sebuah project. Untuk mengetahui informasi tentang cara meningkatkan batas kuota, lihat Mengelola kuota.

  • Anda dapat membuat lingkungan dengan maksimum 150 node. Durasi sesi untuk setiap sesi pengguna dibatasi hingga 10 jam.

  • Skrip Spark SQL hanya dapat membuat kueri data dalam data lake tertentu. Jika ingin membuat kueri data di data lake lain, Anda harus beralih ke data lake tersebut dan memilih lingkungan dalam data lake tersebut.

  • Setelah Anda membatalkan penghapusan project, Dataplex tidak akan memulihkan resource konten, seperti skrip SQL atau notebook. Lanjutkan dengan hati-hati saat menghapus project dengan resource konten Jelajahi.

  • Saat menjadwalkan notebook, jika lingkungan memiliki paket kustom, Anda hanya dapat menjadwalkan notebook menggunakan gcloud CLI. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan notebook dengan paket kustom.

  • Jika menghapus lingkungan sebelum menghapus skrip dan notebook, Anda tidak dapat mengakses halaman Jelajahi. Oleh karena itu, pastikan Anda menghapus skrip dan notebook sebelum menghapus lingkungan di Jelajahi.

  • Jelajahi sesi tidak mendukung Hadoop Distributed File System (HDFS). Jangan menyimpan data pengguna apa pun dalam sesi Jelajah karena data tersebut akan dihapus saat sesi berakhir.

  • Batas ukuran maksimum untuk notebook atau skrip SQL adalah 1 MB.

Membuat lingkungan

  1. Di konsol Google Cloud, buka halaman Kelola Danau Dataplex.

    Buka Dataplex

  2. Pilih lake Dataplex yang ingin Anda buat lingkungannya.

  3. Klik tab Environments.

  4. Klik Create environment.

  5. Di kolom Nama tampilan, masukkan nama untuk lingkungan Anda.

  6. Di Environment ID, masukkan ID unik.

  7. Opsional: Masukkan deskripsi untuk lingkungan baru.

  8. Di panel Configure compute, tentukan hal berikut:

    1. Jumlah node: Jumlah node yang akan disediakan untuk sesi pengguna yang dibuat untuk lingkungan ini.
    2. Jumlah maksimum node: Jumlah maksimum node yang dapat diskalakan secara otomatis oleh Dataplex dalam sesi pengguna yang terkait dengan lingkungan ini.
    3. Primary disk size: Jumlah ukuran disk yang terkait dengan setiap node yang disediakan.
    4. Waktu penonaktifan otomatis: Waktu tidak ada aktivitas, setelahnya Dataplex otomatis menonaktifkan sesi pengguna yang terkait dengan lingkungan ini. Anda dapat menetapkan minimum 10 menit dan maksimum 60 menit.
  9. Di panel Software packages (optional), Anda dapat menentukan paket Python, file JAR, dan properti Spark tambahan untuk diinstal di sesi pengguna yang disediakan untuk lingkungan ini.

    Saat Anda membuat lingkungan dan memberikan jalur Cloud Storage untuk JAR Java atau paket Python, agar Dataplex dapat menginstal JAR atau paket, pastikan Agen Layanan Cloud Dataplex memiliki izin yang diperlukan untuk mengakses file Cloud Storage.

  10. Klik Create.

Catatan

  • Node dipetakan ke 4 Data Compute Unit (DCU), yang sebanding dengan 4 vCPU dan 16 GB RAM.

  • Anda dapat membuat lingkungan dengan satu node, atau dengan tiga node atau lebih.

  • Jika Anda adalah administrator data lake, Anda dapat menyiapkan lingkungan terlebih dahulu, sehingga pengguna dapat menjalankan beban kerja mereka menggunakan konfigurasi yang telah ditentukan sebelumnya.

  • Meskipun lingkungan dapat dibagikan kepada beberapa pengguna, Dataplex akan membuat sesi terpisah per pengguna menggunakan konfigurasi lingkungan.

Membuat lingkungan default

Lihat persyaratan konfigurasi untuk lingkungan default.

Konsol

  1. Buka Dataplex di Konsol Google Cloud.

    Buka Dataplex

  2. Buka tampilan Kelola.

  3. Pilih Dataplex lake.

  4. Klik tab Environments.

  5. Klik Create default environment.

gcloud

Untuk membuat lingkungan default dengan pengaktifan startup cepat, jalankan perintah berikut:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Menjelajahi data menggunakan workbench Spark SQL

Untuk menjelajahi data BigQuery dan Cloud Storage, gunakan skrip Spark SQL.

Membuat dan menyimpan skrip

  1. Di konsol Google Cloud, buka halaman Jelajahi Dataplex.

  2. Di tampilan Explore, pilih data lake yang berisi aset data yang ingin Anda jelajahi.

  3. Di browser resource, luaskan danau. Tindakan ini akan menampilkan folder berikut:

    • Data: Berisi semua database dan tabel di instance DPMS yang terhubung ke data lake Anda, termasuk tabel Hudi, Iceberg, dan Delta Lake.
    • Notebook: Berisi semua notebook yang dibuat di data lake yang dipilih.
    • Skrip Spark SQL: Berisi semua skrip Spark SQL yang dibuat di danau yang dipilih.
  4. Luaskan Data, lalu pilih database dan tabel yang diperlukan.

  5. Untuk menggunakan contoh kueri, klik QUERY. Workbench Spark SQL akan otomatis mengisi tab baru dengan contoh kueri.

  6. Untuk membuat skrip baru, di Spark SQL Editor, klik New script, dan masukkan kueri Anda.

  7. Untuk menyimpan skrip, pilih Save > Save script.

Menjalankan skrip

  1. Di Spark SQL Editor, klik tab dengan kueri yang ingin Anda jalankan.

  2. Klik Pilih lingkungan. Pilih lingkungan tempat Anda ingin menjalankan kueri. Jika Anda tidak memilih lingkungan, Dataplex akan menggunakan lingkungan default untuk membuat sesi per pengguna.

    Anda dapat menjalankan beberapa kueri Spark SQL dalam skrip yang sama dengan memisahkan kueri menggunakan titik koma.

  3. Klik Run.

  4. Lihat hasil Histori kueri untuk setiap kueri dalam skrip menggunakan daftar drop-down.

Menjadwalkan skrip

Anda dapat menjadwalkan skrip untuk dijalankan sebagai Tugas Dataplex. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola jadwal untuk skrip SQL.

Membagikan skrip

Anda dapat membagikan skrip kepada orang lain di organisasi menggunakan izin IAM:

  1. Di tampilan Jelajahi, klik skrip Spark SQL yang ingin Anda bagikan.

  2. Di menu Lainnya, klik Bagikan.

  3. Tinjau izin. Menambahkan atau menghapus izin penonton, editor, dan administrator untuk skrip bersama.

Setelah Anda membagikan skrip, pengguna dengan izin lihat atau edit di tingkat danau dapat membuka danau dan mengerjakan skrip yang dibagikan.

Menjelajahi data BigQuery dan Cloud Storage menggunakan Spark SQL

Untuk set data BigQuery yang ditambahkan sebagai aset ke zona, Dataplex memungkinkan akses Spark SQL langsung ke semua tabel dalam set data tersebut. Anda dapat membuat kueri data di Dataplex menggunakan skrip atau notebook Spark SQL. Contoh:

 select * from ZONE_ID.TABLE_ID

Jika aset Anda dipetakan ke bucket Cloud Storage di zona yang sama, Dataplex akan menyediakan daftar tabel terpadu yang dapat Anda kueri menggunakan Spark.

Menjelajahi data menggunakan notebook

Bagian ini menjelaskan cara membuat, menjadwalkan, membagikan, mengimpor, dan mengekspor notebook.

Membuat dan menyimpan notebook

  1. Di konsol Google Cloud, buka halaman Jelajahi Dataplex.

  2. Di tampilan Jelajahi, pilih danau.

  3. Luaskan dan klik folder Notebooks.

  4. Klik New notebook.

  5. Di kolom Notebook path, berikan nama notebook.

  6. Opsional: Di kolom Deskripsi, berikan deskripsi untuk notebook baru.

  7. Opsional: Tambahkan label.

  8. Klik Buat notebook. Notebook kini telah dibuat.

  9. Untuk membuka notebook yang dibuat, klik Open notebook.

  10. Pilih lingkungan tempat Anda ingin Dataplex membuat sesi pengguna, saat membuat atau membuka notebook. Pastikan Anda memilih lingkungan dengan paket yang Anda percayai.

    Jika Anda tidak memilih lingkungan, Dataplex akan menggunakan lingkungan default. Jika Anda tidak memiliki lingkungan, buat lingkungan. Untuk mengetahui informasi selengkapnya, lihat Membuat lingkungan.

    Sekarang Anda dapat menjelajahi data dengan menulis kode python dan menyimpan notebook setelah eksplorasi. Kemudian, Anda dapat melihat pratinjau notebook yang dibuat dan memeriksa outputnya tanpa membuat sesi dan menjalankan kode.

Menjadwalkan notebook

Anda dapat menjadwalkan notebook untuk dijalankan sebagai Tugas Dataplex. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola jadwal untuk notebook.

Membagikan notebook

Anda dapat membagikan notebook kepada orang lain di organisasi menggunakan izin IAM:

  1. Di tampilan Jelajahi, klik folder Notebook.

  2. Pilih notebook Jupyter yang ingin Anda bagikan.

  3. Klik Bagikan.

  4. Tinjau izin. Menambahkan atau menghapus izin penampil, editor, dan administrator untuk notebook ini.

    Setelah Anda membagikan notebook, pengguna dengan izin lihat atau edit di tingkat danau dapat membuka danau dan mengerjakan notebook bersama.

Mengimpor notebook

Anda dapat mengimpor notebook dari bucket Cloud Storage:

  1. Di tampilan Jelajahi, klik folder Notebook.

  2. Klik Import.

  3. Buka bucket Cloud Storage yang berisi notebook yang ingin Anda impor.

  4. Pilih notebook, berikan nama, lalu klik Impor.

    Notebook yang diimpor akan dibuat di folder Notebook. Anda dapat membuka, mengedit, membagikan, dan menjadwalkan notebook yang diimpor.

Mengekspor notebook

Anda dapat mengekspor notebook ke bucket Cloud Storage agar dapat digunakan oleh orang lain di organisasi dengan izin IAM.

  1. Di tampilan Jelajahi, klik folder Notebook.

  2. Tandai notebook yang ingin diekspor.

  3. Klik menu , lalu klik Ekspor.

  4. Masukkan jalur Cloud Storage tempat Anda ingin mengekspor notebook.

  5. Klik Ekspor notebook.

Langkah selanjutnya