Memigrasikan Jelajah Dataplex ke BigQuery Studio

Dataplex menghentikan dukungan untuk Explore. Uraian dokumen ini langkah-langkah untuk memigrasikan resource Dataplex Explore ke menggunakan BigQuery Studio. Anda dapat memigrasikan Notebook Spark SQL dan JupyterLab Anda ke BigQuery Studio, eksplorasi data terpadu terkelola sepenuhnya.

Fitur yang tidak digunakan lagi

Jika ada pertanyaan atau klarifikasi, hubungi tim Explore di dataplex-explore-support@google.com.

Sebelum memulai

  • Aktifkan API BigQuery and BigQuery Studio.

    Mengaktifkan API

Konten notebook

Jika Anda memiliki notebook di Explore yang dijalankan dalam instance Jupyterlab di serverless, setelah melakukan migrasi, Anda akan memiliki pengalaman yang sama menggunakan BigQuery Studio.

BigQuery Studio menawarkan antarmuka notebook dengan teknologi Colab Enterprise, yang memberikan beberapa keunggulan dibandingkan JupyterLab notebooks. Anda tetap dapat menulis, menyimpan, dan menjalankan notebook dengan cara serverless di BigQuery Studio. Selain itu, Anda dapat mendapatkan manfaat dari lingkungan cloud terintegrasi Colab Enterprise dengan GPU dan TPU yang canggih, kolaborasi real-time, berbagi, dan kontrol akses melalui Google Drive, penyimpanan otomatis, pustaka yang terpasang sebelumnya, penggunaan gratis dengan kuota, ekstensi dan widget bawaan, serta integrasi dengan layanan komputasi seperti BigQuery dan Cloud Storage.

Spark konten SQL

Dataplex Discovery mendaftarkan tabel yang ditemukan di BigQuery dan Dataproc Metastore. Tergantung di mana tabel terdaftar, gunakan salah satu opsi migrasi berikut.

  • Tabel terdaftar di Dataproc Metastore dan BigQuery: jika skrip Spark SQL berinteraksi dengan Tabel yang ditemukan Dataplex melalui Dataproc Metastore, Anda dapat langsung melakukan kueri pada tabel-tabel tersebut BigQuery.
  • Tabel hanya didaftarkan di Dataproc Metastore: jika Spark SQL berinteraksi dengan tabel yang tidak tersedia di BigQuery, maka Anda perlu menyiapkan integrasi BigQuery Studio dengan Metastore Dataproc. Metastore Dataproc menyediakan dua jenis endpoint: Thrift serta gRPC. Untuk informasi selengkapnya tentang cara menemukan protokol endpoint, lihat Temukan nilai URI endpoint Anda. Kemudian, siapkan integrasi BigQuery Studio menggunakan langkah-langkah berikut bagian.

Terhubung ke Metastore Dataproc berbasis Hemat

Endpoint berbasis Thrift dimulai dengan thrift://. Untuk terhubung ke paket berbasis Harga Murah Dataproc Metastore, teruskan URI endpoint Thrift di SparkSession, seperti dalam contoh berikut:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Menghubungkan ke endpoint berbasis gRPC

Endpoint berbasis gRPC dimulai dengan https://. Spark tidak dapat terhubung ke aplikasi non-Thrift berbasis endpoint secara langsung. Sebagai gantinya, Anda harus menjalankan layanan {i>proxy<i} yang mengonversi permintaan dari Thrift ke gRPC. Untuk terhubung ke layanan berbasis gRPC Layanan Dataproc Metastore, ikuti langkah-langkah ini di Notebook BigQuery Studio:

  1. Download file JAR proxy Hive Metastore (HMS) versi terbaru di runtime notebook dengan menjalankan perintah berikut di notebook:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Mulai proxy HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Hubungkan sesi Spark ke proxy HMS lokal.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Referensi sesi

Resource sesi mengacu ke sesi aktif khusus pengguna. Migrasi dari sumber daya sesi tidak didukung.

Resource lingkungan

Lingkungan menyediakan resource komputasi serverless untuk kueri Spark SQL Anda dan notebook untuk dijalankan di dalam sebuah lake. Karena BigQuery Studio menyediakan lingkungan serverless untuk menjalankan kueri SQL dan notebook, migrasi resource lingkungan tidak didukung.

Menjadwalkan tugas dengan resource konten

Anda dapat menjadwalkan kueri di BigQuery Studio.