Membuat insight data di BigQuery

Insight data menawarkan cara otomatis untuk menjelajahi dan memahami data Anda. Dengan insight data, Gemini menggunakan metadata untuk membuat pertanyaan bahasa alami tentang tabel Anda dan kueri untuk menjawabnya. Hal ini membantu Anda menemukan pola, menilai kualitas data, dan melakukan analisis statistik.

Dokumen ini menjelaskan fitur utama insight data dan proses untuk mengotomatiskan pembuatan kueri guna eksplorasi data yang bermanfaat.

Sebelum memulai

Insight data dihasilkan menggunakan Gemini di BigQuery. Untuk mulai menghasilkan insight, Anda harus terlebih dahulu menyiapkan Gemini di BigQuery. Gemini mungkin tidak memproses data Anda di region yang sama dengan tempat data tersebut disimpan. Untuk mengetahui informasi selengkapnya, lihat Lokasi penayangan Gemini.

Peran yang diperlukan

Untuk membuat, mengelola, dan mengambil insight data, minta administrator Anda untuk memberikan peran IAM berikut kepada Anda:

Untuk mendapatkan akses hanya baca ke insight yang dihasilkan, minta administrator Anda untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke akun layanan.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya. Untuk melihat izin yang benar-benar diperlukan untuk menghasilkan insight, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Mengaktifkan API

Untuk menggunakan insight data, aktifkan API berikut di project Anda:

Untuk informasi selengkapnya tentang cara mengaktifkan Gemini untuk Google Cloud API, lihat Mengaktifkan Gemini untuk Google Cloud API di project Google Cloud.

Tentang insight data

Saat menjelajahi tabel baru yang tidak dikenal, analis data sering kali menghadapi masalah cold start. Masalah ini sering kali melibatkan ketidakpastian tentang struktur data, pola utama, dan insight yang relevan dalam data, sehingga sulit untuk mulai menulis kueri.

Insight data menangani masalah cold start dengan otomatis membuat kueri bahasa alami dan padanan SQL-nya berdasarkan metadata tabel. Daripada memulai dengan editor kueri kosong, Anda dapat dengan cepat memulai eksplorasi data dengan kueri yang bermakna dan menawarkan insight yang berharga. Untuk menyelidiki lebih lanjut, Anda dapat mengajukan pertanyaan lanjutan di kanvas data.

Contoh insight yang dijalankan

Pertimbangkan tabel bernama telco_churn dengan metadata berikut:

Nama kolom Jenis
CustomerID STRING
Gender STRING
Masa bakti INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Kontrak STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Berikut adalah beberapa contoh kueri yang dihasilkan insight data untuk tabel ini:

  • Identifikasi pelanggan yang telah berlangganan semua layanan premium dan telah menjadi pelanggan selama lebih dari 50 bulan.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifikasi layanan internet mana yang memiliki pelanggan yang paling banyak beralih.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifikasi rasio churn menurut segmen di antara pelanggan bernilai tinggi.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Praktik terbaik

Untuk meningkatkan akurasi insight yang dihasilkan, ikuti praktik terbaik berikut:

Mendasarkan insight pada hasil pembuatan profil data

Dalam AI generatif, perujukan adalah kemampuan untuk menghubungkan output model ke sumber informasi yang dapat diverifikasi. Anda dapat mendasarkan insight yang dihasilkan pada hasil pembuatan profil data. Pembuatan profil data menganalisis kolom dalam tabel BigQuery dan mengidentifikasi karakteristik statistik umum, seperti nilai data dan distribusi data yang khas. Saat membuat pemindaian pembuatan profil data untuk tabel, Anda dapat memilih untuk memublikasikan hasil pemindaian ke BigQuery dan Katalog Dataplex. BigQuery menggunakan hasil pembuatan profil data untuk membuat kueri yang lebih akurat dan relevan dengan melakukan hal berikut:

  1. Menganalisis hasil pembuatan profil data untuk mengidentifikasi pola, tren, atau pencilan yang menarik dalam data.
  2. Menghasilkan kueri yang berfokus pada pola, tren, atau pencilan ini untuk mengungkap insight.
  3. Memvalidasi kueri yang dihasilkan berdasarkan hasil pembuatan profil data untuk memastikan bahwa kueri menampilkan hasil yang bermakna.

Tanpa pemindaian pembuatan profil data, kueri yang dihasilkan Gemini lebih cenderung menyertakan klausul yang tidak akurat atau menghasilkan hasil yang tidak berarti.

Pastikan pemindaian pembuatan profil data untuk tabel Anda sudah yang terbaru dan bahwa hasil tersebut dipublikasikan ke BigQuery.

Anda dapat menyesuaikan setelan pembuatan profil data untuk meningkatkan ukuran sampel dan menyaring baris serta kolom. Setelah menjalankan pemindaian pembuatan profil data baru, buat ulang insight.

Menambahkan deskripsi tabel

Deskripsi tabel mendetail yang menjelaskan hal yang ingin Anda analisis dalam tabel dapat membantu Gemini di BigQuery menghasilkan insight yang lebih relevan. Setelah Anda menambahkan deskripsi tabel, buat ulang insight.

Misalnya, Anda dapat menambahkan deskripsi berikut ke tabel telco_churn: "Tabel ini melacak data churn pelanggan, termasuk detail langganan, masa berlaku, dan penggunaan layanan, untuk memprediksi perilaku churn pelanggan".

Menambahkan deskripsi kolom

Deskripsi kolom yang menjelaskan apa yang dimaksud dengan setiap kolom, atau bagaimana satu kolom terkait dengan kolom lainnya, dapat meningkatkan kualitas insight Anda. Setelah Anda memperbarui deskripsi kolom di tabel, buat ulang insight.

Misalnya, Anda dapat menambahkan deskripsi berikut ke kolom tertentu dalam tabel telco_churn:

  • Tenure: "Jumlah bulan pelanggan menggunakan layanan."
  • Churn: "Apakah pelanggan telah berhenti menggunakan layanan. TRUE menunjukkan bahwa pelanggan tidak lagi menggunakan layanan, FALSE menunjukkan bahwa pelanggan aktif."

Membuat insight untuk tabel BigQuery

Untuk menghasilkan insight untuk tabel BigQuery, Anda harus mengakses entri tabel di BigQuery menggunakan BigQuery Studio.

  1. Di konsol Google Cloud, buka BigQuery Studio.

    Buka BigQuery Studio

  2. Di panel Explorer, pilih tabel yang ingin Anda buat insight-nya.

  3. Klik tab Insight. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.

  4. Untuk memicu pipeline insight, klik Buat insight.

    Perlu waktu beberapa menit hingga insight terisi.

    Jika hasil pembuatan profil data yang dipublikasikan untuk tabel tersedia, hasil tersebut akan digunakan untuk menghasilkan insight. Jika tidak, insight akan dibuat berdasarkan nama dan deskripsi kolom.

  5. Di tab Insight, jelajahi pertanyaan dalam bahasa alami yang dihasilkan.

  6. Untuk melihat kueri SQL yang menjawab pertanyaan, klik pertanyaan.

  7. Untuk membuka kueri di BigQuery, klik Copy to Query.

  8. Untuk mengajukan pertanyaan lanjutan, lakukan hal berikut:

    1. Klik Ajukan pertanyaan lanjutan. Kueri akan terbuka di kanvas data baru.

    2. Klik Run, lalu klik Query these results.

    3. Untuk mengajukan pertanyaan lanjutan, masukkan perintah di kolom perintah Natural language atau edit SQL di editor kueri.

  9. Untuk membuat kumpulan kueri baru, klik Buat insight dan picu pipeline lagi.

Setelah Anda membuat insight untuk tabel, siapa saja yang memiliki izin dataplex.datascans.getData dan akses ke tabel tersebut dapat melihat insight tersebut.

Membuat insight untuk tabel eksternal BigQuery

Insight data BigQuery mendukung pembuatan insight untuk tabel eksternal BigQuery dengan data di Cloud Storage. Anda dan akun layanan Dataplex untuk project saat ini harus memiliki peran Storage Object Viewer (roles/storage.objectViewer) di bucket Cloud Storage yang berisi data. Untuk mengetahui informasi selengkapnya, lihat Menambahkan akun utama ke kebijakan level bucket.

Untuk membuat insight untuk tabel eksternal BigQuery, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.

Membuat insight untuk tabel BigLake

Untuk membuat insight untuk tabel BigLake, ikuti langkah-langkah berikut:

  1. Aktifkan BigQuery Connection API di project Anda.

    Mengaktifkan BigQuery Connection API

  2. Buat koneksi BigQuery. Untuk mengetahui informasi selengkapnya, lihat Mengelola koneksi.

  3. Berikan peran IAM Storage Object Viewer (roles/storage.objectViewer) ke akun layanan yang sesuai dengan koneksi BigQuery yang Anda buat.

    Anda dapat mengambil ID akun layanan dari detail koneksi.

  4. Untuk menghasilkan insight, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.

Harga

Untuk mengetahui detail harga fitur ini, lihat ringkasan harga Gemini di BigQuery.

Kuota dan batas

Untuk mengetahui informasi tentang kuota dan batas untuk fitur ini, lihat Kuota untuk Gemini di BigQuery.

Batasan

  • Insight data tersedia untuk tabel BigQuery, tabel BigLake, tabel eksternal, dan tampilan.
  • Untuk pelanggan multi-cloud, data dari cloud lain tidak tersedia.
  • Insight data tidak mendukung jenis kolom Geo atau JSON.
  • Pengoperasian insight tidak menjamin presentasi kueri setiap saat. Untuk meningkatkan kemungkinan menghasilkan kueri yang lebih menarik, mulai ulang pipeline insight.
  • Untuk tabel dengan kontrol akses tingkat kolom (ACL) dan izin pengguna yang dibatasi, Anda dapat menghasilkan insight jika memiliki akses baca ke semua kolom tabel. Untuk menjalankan kueri yang dihasilkan, Anda harus memiliki izin yang memadai.

Langkah selanjutnya