Dataplex menghentikan dukungan untuk Explore. Uraian dokumen ini langkah-langkah untuk memigrasikan resource Dataplex Explore ke menggunakan BigQuery Studio. Anda dapat memigrasikan Notebook Spark SQL dan JupyterLab Anda ke BigQuery Studio, eksplorasi data terpadu terkelola sepenuhnya.
Fitur yang tidak digunakan lagi
- Workbench SQL Spark
- IDE Notebook
- Semua referensi konten
- Semua lingkungan
- Semua sesi
- Kemampuan tugas yang menjadwalkan Notebooks atau skrip SQL Spark dibuat di bagian Jelajahi
Jika ada pertanyaan atau klarifikasi, hubungi tim Explore di dataplex-explore-support@google.com.
Sebelum memulai
-
Aktifkan API BigQuery and BigQuery Studio.
Konten notebook
Jika Anda memiliki notebook di Explore yang dijalankan dalam instance Jupyterlab di serverless, setelah melakukan migrasi, Anda akan memiliki pengalaman yang sama menggunakan BigQuery Studio.
BigQuery Studio menawarkan antarmuka notebook dengan teknologi Colab Enterprise, yang memberikan beberapa keunggulan dibandingkan JupyterLab notebooks. Anda tetap dapat menulis, menyimpan, dan menjalankan notebook dengan cara serverless di BigQuery Studio. Selain itu, Anda dapat mendapatkan manfaat dari lingkungan cloud terintegrasi Colab Enterprise dengan GPU dan TPU yang canggih, kolaborasi real-time, berbagi, dan kontrol akses melalui Google Drive, penyimpanan otomatis, pustaka yang terpasang sebelumnya, penggunaan gratis dengan kuota, ekstensi dan widget bawaan, serta integrasi dengan layanan komputasi seperti BigQuery dan Cloud Storage.
Spark konten SQL
Dataplex Discovery mendaftarkan tabel yang ditemukan di BigQuery dan Dataproc Metastore. Tergantung di mana tabel terdaftar, gunakan salah satu opsi migrasi berikut.
- Tabel terdaftar di Dataproc Metastore dan BigQuery: jika skrip Spark SQL berinteraksi dengan Tabel yang ditemukan Dataplex melalui Dataproc Metastore, Anda dapat langsung melakukan kueri pada tabel-tabel tersebut BigQuery.
- Tabel hanya didaftarkan di Dataproc Metastore: jika Spark SQL berinteraksi dengan tabel yang tidak tersedia di BigQuery, maka Anda perlu menyiapkan integrasi BigQuery Studio dengan Metastore Dataproc. Metastore Dataproc menyediakan dua jenis endpoint: Thrift serta gRPC. Untuk informasi selengkapnya tentang cara menemukan protokol endpoint, lihat Temukan nilai URI endpoint Anda. Kemudian, siapkan integrasi BigQuery Studio menggunakan langkah-langkah berikut bagian.
Terhubung ke Metastore Dataproc berbasis Hemat
Endpoint berbasis Thrift dimulai dengan thrift://
. Untuk terhubung ke paket berbasis Harga Murah
Dataproc Metastore, teruskan URI endpoint Thrift di
SparkSession
, seperti dalam contoh berikut:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Menghubungkan ke endpoint berbasis gRPC
Endpoint berbasis gRPC dimulai dengan https://
. Spark tidak dapat terhubung ke aplikasi non-Thrift
berbasis endpoint secara langsung. Sebagai gantinya, Anda harus
menjalankan layanan {i>proxy<i} yang
mengonversi permintaan dari Thrift ke gRPC. Untuk terhubung ke layanan berbasis gRPC
Layanan Dataproc Metastore, ikuti langkah-langkah ini di
Notebook BigQuery Studio:
Download file JAR proxy Hive Metastore (HMS) versi terbaru di runtime notebook dengan menjalankan perintah berikut di notebook:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Mulai proxy HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Hubungkan sesi Spark ke proxy HMS lokal.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Referensi sesi
Resource sesi mengacu ke sesi aktif khusus pengguna. Migrasi dari sumber daya sesi tidak didukung.
Resource lingkungan
Lingkungan menyediakan resource komputasi serverless untuk kueri Spark SQL Anda dan notebook untuk dijalankan di dalam sebuah lake. Karena BigQuery Studio menyediakan lingkungan serverless untuk menjalankan kueri SQL dan notebook, migrasi resource lingkungan tidak didukung.
Menjadwalkan tugas dengan resource konten
Anda dapat menjadwalkan kueri di BigQuery Studio.