Membuat insight data di BigQuery
Insight data menawarkan cara otomatis untuk menjelajahi dan memahami data Anda. Dengan insight data, Gemini menggunakan metadata untuk membuat pertanyaan bahasa alami tentang tabel Anda dan kueri untuk menjawabnya. Hal ini membantu Anda menemukan pola, menilai kualitas data, dan melakukan analisis statistik.
Dokumen ini menjelaskan fitur utama insight data dan proses untuk mengotomatiskan pembuatan kueri guna eksplorasi data yang bermanfaat.
Sebelum memulai
Insight data dihasilkan menggunakan Gemini di BigQuery. Untuk mulai menghasilkan insight, Anda harus terlebih dahulu menyiapkan Gemini di BigQuery. Gemini mungkin tidak memproses data Anda di region yang sama dengan tempat data tersebut disimpan. Untuk mengetahui informasi selengkapnya, lihat Lokasi penayangan Gemini.
Peran yang diperlukan
Untuk membuat, mengelola, dan mengambil insight data, minta administrator Anda untuk memberikan peran IAM berikut kepada Anda:
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor
) atau Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin
) di project tempat Anda ingin membuat insight.BigQuery Data Viewer (
roles/bigquery.dataViewer
) di tabel BigQuery yang ingin Anda buat insight-nya.BigQuery Data Editor (
roles/bigquery.dataEditor
) di tabel BigQuery yang insight-nya ingin Anda buat.Pengguna BigQuery (
roles/bigquery.user
) atau Pengguna BigQuery Studio (roles/bigquery.studioUser
) di project tempat Anda ingin membuat insight.
Untuk mendapatkan akses hanya baca ke insight yang dihasilkan, minta administrator Anda untuk memberi Anda peran IAM berikut:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) di project yang berisi tabel BigQuery yang insight-nya ingin Anda lihat.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke akun layanan.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya. Untuk melihat izin yang benar-benar diperlukan untuk menghasilkan insight, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
Mengaktifkan API
Untuk menggunakan insight data, aktifkan API berikut di project Anda:
Untuk informasi selengkapnya tentang cara mengaktifkan Gemini untuk Google Cloud API, lihat Mengaktifkan Gemini untuk Google Cloud API di project Google Cloud.
Tentang insight data
Saat menjelajahi tabel baru yang tidak dikenal, analis data sering kali menghadapi masalah cold start. Masalah ini sering kali melibatkan ketidakpastian tentang struktur data, pola utama, dan insight yang relevan dalam data, sehingga sulit untuk mulai menulis kueri.
Insight data menangani masalah cold start dengan otomatis membuat kueri bahasa alami dan padanan SQL-nya berdasarkan metadata tabel. Daripada memulai dengan editor kueri kosong, Anda dapat dengan cepat memulai eksplorasi data dengan kueri yang bermakna dan menawarkan insight yang berharga. Untuk menyelidiki lebih lanjut, Anda dapat mengajukan pertanyaan lanjutan di kanvas data.
Contoh insight yang dijalankan
Pertimbangkan tabel bernama telco_churn
dengan metadata berikut:
Nama kolom | Jenis |
---|---|
CustomerID | STRING |
Gender | STRING |
Masa bakti | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Kontrak | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
Berikut adalah beberapa contoh kueri yang dihasilkan insight data untuk tabel ini:
Identifikasi pelanggan yang telah berlangganan semua layanan premium dan telah menjadi pelanggan selama lebih dari 50 bulan.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifikasi layanan internet mana yang memiliki pelanggan yang paling banyak beralih.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifikasi rasio churn menurut segmen di antara pelanggan bernilai tinggi.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Praktik terbaik
Untuk meningkatkan akurasi insight yang dihasilkan, ikuti praktik terbaik berikut:
Mendasarkan insight pada hasil pembuatan profil data
Dalam AI generatif, perujukan adalah kemampuan untuk menghubungkan output model ke sumber informasi yang dapat diverifikasi. Anda dapat mendasarkan insight yang dihasilkan pada hasil pembuatan profil data. Pembuatan profil data menganalisis kolom dalam tabel BigQuery dan mengidentifikasi karakteristik statistik umum, seperti nilai data dan distribusi data yang khas. Saat membuat pemindaian pembuatan profil data untuk tabel, Anda dapat memilih untuk memublikasikan hasil pemindaian ke BigQuery dan Katalog Dataplex. BigQuery menggunakan hasil pembuatan profil data untuk membuat kueri yang lebih akurat dan relevan dengan melakukan hal berikut:
- Menganalisis hasil pembuatan profil data untuk mengidentifikasi pola, tren, atau pencilan yang menarik dalam data.
- Menghasilkan kueri yang berfokus pada pola, tren, atau pencilan ini untuk mengungkap insight.
- Memvalidasi kueri yang dihasilkan berdasarkan hasil pembuatan profil data untuk memastikan bahwa kueri menampilkan hasil yang bermakna.
Tanpa pemindaian pembuatan profil data, kueri yang dihasilkan Gemini lebih cenderung menyertakan klausul yang tidak akurat atau menghasilkan hasil yang tidak berarti.
Pastikan pemindaian pembuatan profil data untuk tabel Anda sudah yang terbaru dan bahwa hasil tersebut dipublikasikan ke BigQuery.
Anda dapat menyesuaikan setelan pembuatan profil data untuk meningkatkan ukuran sampel dan menyaring baris serta kolom. Setelah menjalankan pemindaian pembuatan profil data baru, buat ulang insight.
Menambahkan deskripsi tabel
Deskripsi tabel mendetail yang menjelaskan hal yang ingin Anda analisis dalam tabel dapat membantu Gemini di BigQuery menghasilkan insight yang lebih relevan. Setelah Anda menambahkan deskripsi tabel, buat ulang insight.
Misalnya, Anda dapat menambahkan deskripsi berikut ke
tabel telco_churn
: "Tabel ini melacak data churn pelanggan,
termasuk detail langganan, masa berlaku, dan penggunaan layanan, untuk memprediksi perilaku
churn pelanggan".
Menambahkan deskripsi kolom
Deskripsi kolom yang menjelaskan apa yang dimaksud dengan setiap kolom, atau bagaimana satu kolom terkait dengan kolom lainnya, dapat meningkatkan kualitas insight Anda. Setelah Anda memperbarui deskripsi kolom di tabel, buat ulang insight.
Misalnya, Anda dapat menambahkan deskripsi berikut ke kolom tertentu
dalam tabel telco_churn
:
Tenure
: "Jumlah bulan pelanggan menggunakan layanan."Churn
: "Apakah pelanggan telah berhenti menggunakan layanan. TRUE menunjukkan bahwa pelanggan tidak lagi menggunakan layanan, FALSE menunjukkan bahwa pelanggan aktif."
Membuat insight untuk tabel BigQuery
Untuk menghasilkan insight untuk tabel BigQuery, Anda harus mengakses entri tabel di BigQuery menggunakan BigQuery Studio.
Di konsol Google Cloud, buka BigQuery Studio.
Di panel Explorer, pilih tabel yang ingin Anda buat insight-nya.
Klik tab Insight. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.
Untuk memicu pipeline insight, klik Buat insight.
Perlu waktu beberapa menit hingga insight terisi.
Jika hasil pembuatan profil data yang dipublikasikan untuk tabel tersedia, hasil tersebut akan digunakan untuk menghasilkan insight. Jika tidak, insight akan dibuat berdasarkan nama dan deskripsi kolom.
Di tab Insight, jelajahi pertanyaan dalam bahasa alami yang dihasilkan.
Untuk melihat kueri SQL yang menjawab pertanyaan, klik pertanyaan.
Untuk membuka kueri di BigQuery, klik Copy to Query.
Untuk mengajukan pertanyaan lanjutan, lakukan hal berikut:
Klik Ajukan pertanyaan lanjutan. Kueri akan terbuka di kanvas data baru.
Klik Run, lalu klik Query these results.
Untuk mengajukan pertanyaan lanjutan, masukkan perintah di kolom perintah Natural language atau edit SQL di editor kueri.
Untuk membuat kumpulan kueri baru, klik Buat insight dan picu pipeline lagi.
Setelah Anda membuat insight untuk tabel, siapa saja yang memiliki
izin dataplex.datascans.getData
dan akses ke tabel tersebut
dapat melihat insight tersebut.
Membuat insight untuk tabel eksternal BigQuery
Insight data BigQuery mendukung pembuatan insight untuk
tabel eksternal BigQuery dengan data di Cloud Storage.
Anda dan akun layanan Dataplex untuk project saat ini harus memiliki peran Storage Object Viewer (roles/storage.objectViewer
) di bucket Cloud Storage yang berisi data. Untuk mengetahui informasi
selengkapnya, lihat
Menambahkan akun utama ke kebijakan level bucket.
Untuk membuat insight untuk tabel eksternal BigQuery, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.
Membuat insight untuk tabel BigLake
Untuk membuat insight untuk tabel BigLake, ikuti langkah-langkah berikut:
Aktifkan BigQuery Connection API di project Anda.
Buat koneksi BigQuery. Untuk mengetahui informasi selengkapnya, lihat Mengelola koneksi.
Berikan peran IAM Storage Object Viewer (
roles/storage.objectViewer
) ke akun layanan yang sesuai dengan koneksi BigQuery yang Anda buat.Anda dapat mengambil ID akun layanan dari detail koneksi.
Untuk menghasilkan insight, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.
Harga
Untuk mengetahui detail harga fitur ini, lihat ringkasan harga Gemini di BigQuery.
Kuota dan batas
Untuk mengetahui informasi tentang kuota dan batas untuk fitur ini, lihat Kuota untuk Gemini di BigQuery.
Batasan
- Insight data tersedia untuk tabel BigQuery, tabel BigLake, tabel eksternal, dan tampilan.
- Untuk pelanggan multi-cloud, data dari cloud lain tidak tersedia.
- Insight data tidak mendukung jenis kolom
Geo
atauJSON
. - Pengoperasian insight tidak menjamin presentasi kueri setiap saat. Untuk meningkatkan kemungkinan menghasilkan kueri yang lebih menarik, mulai ulang pipeline insight.
- Untuk tabel dengan kontrol akses tingkat kolom (ACL) dan izin pengguna yang dibatasi, Anda dapat menghasilkan insight jika memiliki akses baca ke semua kolom tabel. Untuk menjalankan kueri yang dihasilkan, Anda harus memiliki izin yang memadai.
Langkah selanjutnya
- Pelajari pembuatan profil data Dataplex lebih lanjut.
- Pelajari cara menulis kueri dengan bantuan Gemini di BigQuery.