Halaman ini diterjemahkan oleh Cloud Translation API.

Menghubungkan ke Apache Spark

Sebagai administrator BigQuery, Anda dapat membuat koneksi agar analis data dapat menjalankan prosedur tersimpan untuk Apache Spark.

Sebelum memulai

Mengaktifkan BigQuery Connection API.

Mengaktifkan API
Untuk mendapatkan izin yang diperlukan untuk membuat koneksi Spark, minta administrator Anda untuk memberi Anda peran IAM BigQuery Connection Admin (roles/bigquery.connectionAdmin) di project. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran kustom atau peran yang telah ditentukan lainnya.
Opsional: Untuk mengelola metadata menggunakan Dataproc Metastore, pastikan Anda telah membuat layanan Dataproc Metastore.
Opsional: Untuk melihat histori tugas menggunakan antarmuka web Spark History Server, pastikan Anda telah membuat Dataproc Persistent History Server (PHS).

Pertimbangan lokasi

Saat Anda memilih lokasi untuk data Anda, pertimbangkan hal berikut:

Multi-region

Anda harus menentukan Google Cloud resource yang terletak di area geografis dengan luas yang sama:

Koneksi di multi-region BigQuery AS dapat merujuk ke Spark History Server atau Dataproc Metastore di satu region mana pun di wilayah geografis AS, seperti us-central1, us-east4, atau us-west2.
Koneksi di multi-region EU BigQuery dapat mereferensikan Spark History Server atau Dataproc Metastore di negara bagian anggota Uni Eropa, seperti europe-north1 atau europe-west3.

Satu region

Koneksi di satu region hanya dapat mereferensikan Google Cloud resource di region yang sama. Misalnya, koneksi dalam satu region us-east4 hanya dapat mereferensikan Spark History Server atau Dataproc Metastore di us-east4.

Membuat koneksi

Pilih salah satu opsi berikut:

Konsol

Buka halaman BigQuery.

Buka BigQuery
Di panel Penjelajah, klik Tambahkan data.

Dialog Tambahkan data akan terbuka.
Di panel Filter Menurut, di bagian Jenis Sumber Data, pilih Database.

Atau, di kolom Telusuri sumber data, Anda dapat memasukkan Spark.
Di bagian Sumber data unggulan, klik Apache Spark.
Klik kartu solusi Apache Spark: BigQuery Federation.
Di panel External data source, masukkan informasi berikut:
- Dalam daftar Jenis koneksi, pilih Apache Spark.
- Di kolom ID Koneksi, masukkan nama koneksi Anda—misalnya, spark_connection.
- Di daftar Lokasi data, pilih region.
Anda dapat membuat koneksi di region dan multi-region yang mendukung BigQuery. Untuk informasi selengkapnya, lihat Pertimbangan lokasi.
- Opsional: Dari daftar layanan Metastore, pilih Dataproc Metastore.
- Opsional: Di kolom History server cluster, masukkan Dataproc Persistent History Server.
Klik Buat koneksi.
Klik Buka koneksi.
Di panel Info koneksi, salin ID akun layanan untuk digunakan pada langkah berikut.

bq

Dalam lingkungan command line, gunakan perintah bq mk untuk membuat koneksi:
```
bq mk --connection --connection_type='SPARK' \
 --properties=PROPERTIES \
 --project_id=PROJECT_ID \
 --location=LOCATION
 CONNECTION_ID
```
Ganti kode berikut:
- PROPERTIES: pasangan nilai kunci untuk menyediakan parameter khusus koneksi dalam format JSON
  
  Contoh:
```
--properties='{
"metastoreServiceConfig": {"metastoreService": "METASTORE_SERVICE_NAME"},
"sparkHistoryServerConfig": {"dataprocCluster": "DATAPROC_CLUSTER_NAME"}
}'
```
  Ganti kode berikut:
  - METASTORE_SERVICE_NAME: Dataproc Metastore dengan konfigurasi jaringan gRPC—misalnya, projects/my-project-id/locations/us-central1/services/my-service
    
    Untuk mengetahui informasi selengkapnya, lihat cara mengakses metadata metastore Hive yang tersimpan menggunakan protokol endpoint.
  - DATAPROC_CLUSTER_NAME: konfigurasi Spark History Server—misalnya, projects/my-project-id/regions/us-central1/clusters/my-cluster
    
    Untuk mengetahui informasi selengkapnya, lihat Membuat cluster Persistent History Server.
- PROJECT_ID: Google Cloud project ID Anda
- LOCATION: lokasi tempat Anda ingin menyimpan koneksi—misalnya, US
- CONNECTION_ID: ID koneksi—misalnya, myconnection
  
  Saat Anda melihat detail koneksi di konsol Google Cloud , ID koneksi adalah nilai di bagian terakhir dari ID koneksi yang sepenuhnya memenuhi syarat yang ditampilkan di Connection ID—misalnya projects/.../locations/.../connections/myconnection

Ambil dan salin ID akun layanan karena Anda memerlukannya di langkah lain:

bq show --location=LOCATION --connection PROJECT_ID.LOCATION.CONNECTION_ID

Outputnya mirip dengan yang berikut ini:

Connection myproject.us.myconnection

       name           type                    properties
---------------------- ------- ---------------------------------------------------
myproject.us.myconnection  SPARK   {"serviceAccountId": "bqserver@example."}

Untuk mengetahui informasi tentang cara mengelola koneksi, lihat Mengelola koneksi.

Memberikan akses ke akun layanan

Agar prosedur tersimpan untuk Apache Spark dapat mengakses resource Google Cloud Anda, Anda perlu memberikan izin IAM yang diperlukan kepada akun layanan yang terkait dengan koneksi prosedur tersimpan. Atau, Anda dapat menggunakan akun layanan kustom untuk akses data.

Untuk membaca dan menulis data dari dan ke BigQuery, Anda harus memberikan izin IAM berikut kepada akun layanan:
- bigquery.tables.* di tabel BigQuery Anda
- bigquery.readsessions.* di project Anda
Peran IAM roles/bigquery.admin mencakup izin yang diperlukan akun layanan untuk membaca dan menulis data dari dan ke BigQuery.

Catatan: Jika prosedur tersimpan Anda menulis data ke bucket Cloud Storage sementara, lalu memuat data Cloud Storage ke BigQuery, Anda harus memberikan izin bigquery.jobs.create untuk akun layanan pada project Anda. Untuk mengetahui informasi selengkapnya tentang peran dan izin IAM di BigQuery, lihat Kontrol akses dengan IAM.
Untuk membaca dan menulis data dari dan ke Cloud Storage, Anda harus memberikan izin storage.objects.* kepada akun layanan di objek Cloud Storage.

Peran IAM roles/storage.objectAdmin mencakup izin yang diperlukan akun layanan untuk membaca dan menulis data dari dan ke Cloud Storage.
Jika Anda menentukan Dataproc Metastore saat membuat koneksi, maka agar BigQuery dapat mengambil detail tentang konfigurasi metastore, Anda harus memberikan izin metastore.services.get kepada akun layanan di Dataproc Metastore Anda.

Peran roles/metastore.metadataViewer bawaan mencakup izin yang diperlukan akun layanan untuk mengambil detail tentang konfigurasi metastore.

Anda juga perlu memberikan peran roles/storage.objectAdmin pada akun layanan di bucket Cloud Storage agar prosedur yang Anda simpan dapat mengakses direktori warehouse Hive di Dataproc Metastore Anda (hive.metastore.warehouse.dir). Jika prosedur tersimpan menjalankan operasi di metastore, Anda mungkin perlu memberikan izin tambahan. Untuk mengetahui informasi selengkapnya tentang peran dan izin IAM di Dataproc Metastore, lihat Peran dan izin yang telah ditetapkan di Dataproc Metastore.
Jika Anda menentukan Dataproc Persistent History Server saat membuat koneksi, Anda perlu memberikan peran berikut ke akun layanan:
- Peran roles/dataproc.viewer di Dataproc Persistent History Server Anda yang berisi izin dataproc.clusters.get.
- Peran roles/storage.objectAdmin pada bucket Cloud Storage yang Anda tentukan untuk spark:spark.history.fs.logDirectory properti saat membuat Dataproc Persistent History Server.
Untuk mengetahui informasi selengkapnya, lihat Dataproc Persistent History Server serta Peran dan izin Dataproc.

Berbagi koneksi dengan pengguna

Anda dapat memberikan peran berikut untuk mengizinkan pengguna membuat kueri data dan mengelola koneksi:

roles/bigquery.connectionUser: memungkinkan pengguna menggunakan koneksi untuk terhubung dengan sumber data eksternal dan menjalankan kueri pada sumber data tersebut.
roles/bigquery.connectionAdmin: memungkinkan pengguna mengelola koneksi.

Untuk informasi selengkapnya tentang peran dan izin IAM di BigQuery, baca Peran dan izin bawaan.

Pilih salah satu opsi berikut:

Konsol

Buka halaman BigQuery.

Buka BigQuery

Koneksi dicantumkan dalam project Anda, dalam grup yang disebut Koneksi eksternal.
Di panel Penjelajah, klik nama project Anda > Koneksi eksternal > koneksi.
Di panel Detail, klik Bagikan untuk membagikan koneksi. Kemudian, lakukan hal berikut:
1. Dalam dialog Izin koneksi, bagikan koneksi dengan akun utama lain dengan menambahkan atau mengedit akun utama.
2. Klik Simpan.

bq

Anda tidak dapat berbagi koneksi dengan alat command line bq. Untuk berbagi koneksi, gunakan konsol Google Cloud atau metode BigQuery Connections API untuk melakukannya.

API

Gunakan metode projects.locations.connections.setIAM di bagian referensi REST API Koneksi BigQuery, dan berikan instance resource policy.

Java

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Panduan memulai BigQuery menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi BigQuery Java API.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk library klien.

import com.google.api.resourcenames.ResourceName;
import com.google.cloud.bigquery.connection.v1.ConnectionName;
import com.google.cloud.bigqueryconnection.v1.ConnectionServiceClient;
import com.google.iam.v1.Binding;
import com.google.iam.v1.Policy;
import com.google.iam.v1.SetIamPolicyRequest;
import java.io.IOException;

// Sample to share connections
public class ShareConnection {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String location = "MY_LOCATION";
    String connectionId = "MY_CONNECTION_ID";
    shareConnection(projectId, location, connectionId);
  }

  static void shareConnection(String projectId, String location, String connectionId)
      throws IOException {
    try (ConnectionServiceClient client = ConnectionServiceClient.create()) {
      ResourceName resource = ConnectionName.of(projectId, location, connectionId);
      Binding binding =
          Binding.newBuilder()
              .addMembers("group:example-analyst-group@google.com")
              .setRole("roles/bigquery.connectionUser")
              .build();
      Policy policy = Policy.newBuilder().addBindings(binding).build();
      SetIamPolicyRequest request =
          SetIamPolicyRequest.newBuilder()
              .setResource(resource.toString())
              .setPolicy(policy)
              .build();
      client.setIamPolicy(request);
      System.out.println("Connection shared successfully");
    }
  }
}

Langkah berikutnya

Pelajari berbagai jenis koneksi.
Pelajari cara mengelola koneksi.
Pelajari cara membuat prosedur tersimpan untuk Apache Spark.
Pelajari cara mengelola prosedur tersimpan.