Memigrasikan Dataplex Explore ke BigQuery Studio

Dataplex menghentikan dukungan untuk Jelajahi. Dokumen ini menguraikan langkah-langkah untuk memigrasikan resource Dataplex Explore ke BigQuery Studio. Anda dapat memigrasikan konten Spark SQL dan JupyterLab Notebook ke BigQuery Studio, platform eksplorasi data terpadu.

Fitur yang tidak digunakan lagi

Untuk pertanyaan atau klarifikasi, hubungi tim Jelajah di dataplex-explore-support@google.com.

Sebelum memulai

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Konten notebook

Jika memiliki notebook di Jelajahi yang dijalankan di instance Jupyterlab secara serverless, setelah melakukan migrasi, Anda akan memiliki pengalaman yang sama di BigQuery Studio.

BigQuery Studio menawarkan antarmuka notebook yang didukung oleh Colab Enterprise, yang memberikan beberapa keunggulan dibandingkan notebook JupyterLab. Anda masih dapat menulis, menyimpan, dan menjalankan notebook secara serverless di BigQuery Studio. Selain itu, Anda dapat mendapatkan manfaat dari lingkungan cloud terintegrasi Colab Enterprise dengan GPU dan TPU yang canggih, kolaborasi real-time, berbagi, dan kontrol akses melalui Google Drive, penyimpanan otomatis, library yang diinstal sebelumnya, penggunaan gratis dengan kuota, widget dan ekstensi bawaan, serta integrasi dengan layanan Google lainnya seperti BigQuery dan Cloud Storage.

Konten Spark SQL

Dataplex Discovery mendaftarkan tabel yang ditemukan di BigQuery dan Dataproc Metastore. Bergantung pada tempat tabel didaftarkan, gunakan salah satu opsi migrasi berikut.

  • Tabel didaftarkan di Dataproc Metastore dan BigQuery: jika skrip Spark SQL berinteraksi dengan tabel yang ditemukan Dataplex melalui Dataproc Metastore, Anda dapat langsung membuat kueri tabel tersebut dari BigQuery.
  • Tabel hanya terdaftar di Dataproc Metastore: jika skrip Spark SQL berinteraksi dengan tabel yang tidak tersedia di BigQuery, Anda perlu menyiapkan integrasi BigQuery Studio dengan Dataproc Metastore. Dataproc Metastore menyediakan dua jenis endpoint: Thrift dan gRPC. Untuk mengetahui informasi selengkapnya tentang cara menemukan protokol endpoint, lihat Menemukan nilai URI endpoint. Kemudian, siapkan integrasi BigQuery Studio menggunakan langkah-langkah di bagian berikut.

Menghubungkan ke Metastore Dataproc berbasis Thrift

Endpoint berbasis Thrift dimulai dengan thrift://. Untuk terhubung ke Dataproc Metastore berbasis Thrift, teruskan URI endpoint Thrift dalam konfigurasi SparkSession, seperti dalam contoh berikut:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Menghubungkan ke endpoint berbasis gRPC

Endpoint berbasis gRPC dimulai dengan https://. Spark tidak dapat terhubung ke endpoint berbasis non-Thrift secara langsung. Sebagai gantinya, Anda harus menjalankan layanan proxy yang mengonversi permintaan dari Thrift ke gRPC. Untuk terhubung ke layanan Dataproc Metastore berbasis gRPC, ikuti langkah-langkah berikut di notebook BigQuery Studio:

  1. Download file JAR proxy Hive Metastore (HMS) versi terbaru di runtime notebook dengan menjalankan perintah berikut di notebook:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Mulai proxy HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Hubungkan sesi Spark ke proxy HMS lokal.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Resource sesi

Resource sesi mengacu pada sesi aktif khusus pengguna. Migrasi resource sesi tidak didukung.

Resource lingkungan

Lingkungan menyediakan resource komputasi serverless untuk kueri Spark SQL dan notebook Anda agar dapat berjalan dalam data lake. Karena BigQuery Studio menyediakan lingkungan tanpa server untuk menjalankan kueri dan notebook SQL, migrasi resource lingkungan tidak didukung.

Menjadwalkan tugas dengan referensi konten

Anda dapat menjadwalkan kueri di BigQuery Studio.