Halaman ini diterjemahkan oleh Cloud Translation API.

Mengelola indeks penelusuran

Indeks penelusuran adalah struktur data yang dirancang untuk memungkinkan penelusuran yang sangat efisien dengan fungsi SEARCH. Indeks penelusuran juga dapat mengoptimalkan beberapa kueri yang menggunakan fungsi dan operator yang didukung.

Sama seperti indeks yang dapat Anda temukan di bagian belakang buku, indeks penelusuran untuk kolom data string berfungsi seperti tabel tambahan yang memiliki satu kolom untuk kata-kata unik dan kolom lain untuk bagian data tempat kata tersebut muncul.

Membuat indeks penelusuran

Untuk membuat indeks penelusuran, gunakan pernyataan DDL CREATE SEARCH INDEX. Untuk menentukan jenis data primitif yang akan diindeks, lihat Membuat indeks penelusuran dan menentukan kolom serta jenis data. Jika Anda tidak menentukan jenis data apa pun, secara default, BigQuery akan mengindeks kolom jenis berikut yang berisi data STRING:

STRING
ARRAY<STRING>
STRUCT yang berisi setidaknya satu kolom bertingkat dari jenis STRING atau ARRAY<STRING>
JSON

Saat membuat indeks penelusuran, Anda dapat menentukan jenis penganalisis teks yang akan digunakan. Penganalisis teks mengontrol cara data ditokenkan untuk pengindeksan dan penelusuran. Defaultnya adalah LOG_ANALYZER. Penganalisis ini berfungsi dengan baik untuk log yang dihasilkan mesin dan memiliki aturan khusus seputar token yang biasa ditemukan dalam data kemampuan observasi, seperti alamat IP atau email. Gunakan NO_OP_ANALYZER jika Anda telah melakukan pra-pemrosesan data yang ingin dicocokkan persis. PATTERN_ANALYZER mengekstrak token dari teks menggunakan ekspresi reguler.

Membuat indeks penelusuran dengan penganalisis teks default

Dalam contoh berikut, indeks penelusuran dibuat pada kolom a dan c dari simple_table dan menggunakan penganalisis teks LOG_ANALYZER secara default:

CREATE TABLE dataset.simple_table(a STRING, b INT64, c JSON);

CREATE SEARCH INDEX my_index
ON dataset.simple_table(a, c);

Membuat indeks penelusuran di semua kolom dengan penganalisis `NO_OP_ANALYZER`

Saat Anda membuat indeks penelusuran di ALL COLUMNS, semua data STRING atau JSON dalam tabel akan diindeks. Jika tabel tidak berisi data tersebut, misalnya jika semua kolom berisi bilangan bulat, pembuatan indeks akan gagal. Saat Anda menentukan kolom STRUCT yang akan diindeks, semua subkolom bertingkat akan diindeks.

Pada contoh berikut, indeks penelusuran dibuat di a, c.e, dan c.f.g, serta menggunakan penganalisis teks NO_OP_ANALYZER:

CREATE TABLE dataset.my_table(
  a STRING,
  b INT64,
  c STRUCT <d INT64,
            e ARRAY<STRING>,
            f STRUCT<g STRING, h INT64>>) AS
SELECT 'hello' AS a, 10 AS b, (20, ['x', 'y'], ('z', 30)) AS c;

CREATE SEARCH INDEX my_index
ON dataset.my_table(ALL COLUMNS)
OPTIONS (analyzer = 'NO_OP_ANALYZER');

Karena indeks penelusuran dibuat di ALL COLUMNS, setiap kolom yang ditambahkan ke tabel akan otomatis diindeks jika berisi data STRING.

Membuat indeks penelusuran dan menentukan kolom serta jenis data

Saat membuat indeks penelusuran, Anda dapat menentukan jenis data yang akan digunakan. Jenis data mengontrol jenis kolom dan sub-kolom JSON dan STRUCT untuk pengindeksan. Jenis data default untuk pengindeksan adalah STRING. Untuk membuat indeks penelusuran dengan lebih banyak jenis data (misalnya, jenis numerik), gunakan pernyataan CREATE SEARCH INDEX dengan opsi data_types disertakan.

Pada contoh berikut, indeks penelusuran dibuat di kolom a, b, c, dan d dari tabel bernama simple_table. Jenis data kolom yang didukung adalah STRING, INT64, dan TIMESTAMP.

CREATE TABLE dataset.simple_table(a STRING, b INT64, c JSON, d TIMESTAMP);

CREATE SEARCH INDEX my_index
ON dataset.simple_table(a, b, c, d)
OPTIONS ( data_types = ['STRING', 'INT64', 'TIMESTAMP']);

Membuat indeks penelusuran di semua kolom dan menentukan jenis data

Saat Anda membuat indeks penelusuran di ALL COLUMNS dengan opsi data_types yang ditentukan, setiap kolom yang cocok dengan salah satu jenis data yang ditentukan akan diindeks. Untuk kolom JSON dan STRUCT, setiap sub-kolom bertingkat yang cocok dengan salah satu jenis data yang ditentukan akan diindeks.

Dalam contoh berikut, indeks penelusuran dibuat di ALL COLUMNS dengan jenis data yang ditentukan. Kolom a, b, c, d.e, d.f, d.g.h, d.g.i dari tabel bernama my_table diindeks:

CREATE TABLE dataset.my_table(
  a STRING,
  b INT64,
  c TIMESTAMP,
  d STRUCT <e INT64,
            f ARRAY<STRING>,
            g STRUCT<h STRING, i INT64>>)
AS (
  SELECT
    'hello' AS a,
    10 AS b,
    TIMESTAMP('2008-12-25 15:30:00 UTC') AS c,
    (20, ['x', 'y'], ('z', 30)) AS d;
)

CREATE SEARCH INDEX my_index
ON dataset.my_table(ALL COLUMNS)
OPTIONS ( data_types = ['STRING', 'INT64', 'TIMESTAMP']);

Karena indeks penelusuran dibuat di ALL COLUMNS, setiap kolom yang ditambahkan ke tabel akan otomatis diindeks jika cocok dengan salah satu jenis data yang ditentukan.

Mengindeks dengan perincian kolom

Saat membuat indeks penelusuran, Anda dapat menentukan perincian kolom untuk kolom yang diindeks. Perincian kolom memungkinkan BigQuery mengoptimalkan jenis kueri penelusuran tertentu dengan menyimpan informasi kolom tambahan dalam indeks penelusuran Anda. Untuk menetapkan perincian kolom untuk kolom yang diindeks, gunakan opsi index_granularity di index_column_option_list saat Anda menjalankan pernyataan CREATE SEARCH INDEX.

Secara internal, tabel BigQuery diatur ke dalam file. Saat Anda membuat indeks, BigQuery akan membuat pemetaan dari token ke file yang berisi token tersebut. Saat Anda menjalankan kueri penelusuran, BigQuery akan memindai semua file yang berisi token. Cara ini mungkin tidak efisien jika token penelusuran Anda jarang muncul di kolom yang Anda telusuri, tetapi sering muncul di kolom lain.

Misalnya, Anda memiliki tabel berikut yang berisi postingan lowongan kerja:

CREATE TABLE my_dataset.job_postings (job_id INT64, company_name STRING, job_description STRING);

Kata keterampilan mungkin sering muncul di kolom job_description, tetapi jarang muncul di kolom company_name. Misalnya, Anda menjalankan kueri berikut:

SELECT * FROM my_dataset.job_postings WHERE SEARCH(company_name, 'skills');

Jika Anda membuat indeks penelusuran di kolom company_name dan job_description tanpa menentukan perincian kolom, BigQuery akan memindai setiap file yang berisi kata keterampilan di kolom job_description atau company_name. Untuk meningkatkan performa kueri ini, Anda dapat menetapkan perincian kolom untuk company_name ke COLUMN:

CREATE SEARCH INDEX my_index
ON my_dataset.job_postings (
  company_name OPTIONS(index_granularity = 'COLUMN'),
  job_description);

Sekarang, saat Anda menjalankan kueri, BigQuery hanya memindai file yang berisi kata skills di kolom company_name.

Untuk melihat informasi tentang opsi mana yang ditetapkan pada kolom tabel yang diindeks, buat kueri tampilan INFORMATION_SCHEMA.SEARCH_INDEX_COLUMN_OPTIONS.

Ada batasan jumlah kolom yang dapat Anda indeks dengan perincian kolom. Untuk mengetahui informasi selengkapnya, silakan melihat Kuota dan batas.

Memahami pemuatan ulang indeks

Indeks penelusuran dikelola sepenuhnya oleh BigQuery dan otomatis dimuat ulang saat tabel berubah. Pemuatan ulang penuh indeks dapat terjadi dalam kasus berikut:

Masa berlaku partisi diperbarui.
Kolom yang diindeks diperbarui karena perubahan skema tabel.
Indeks tidak berlaku karena kurangnya slot pemesanan BACKGROUND untuk refresh inkremental. Untuk mencegah keusangan, Anda dapat menggunakan penskalaan otomatis dan memantau workload untuk menentukan ukuran reservasi maksimum dan dasar pengukuran terbaik.

Jika data kolom yang diindeks diperbarui di setiap baris, seperti selama operasi pengisian ulang, seluruh indeks perlu diperbarui, yang setara dengan refresh penuh. Sebaiknya lakukan pengisian ulang secara perlahan, seperti partisi demi partisi, untuk meminimalkan potensi dampak negatif.

Jika Anda membuat perubahan skema pada tabel dasar yang mencegah kolom yang diindeks secara eksplisit diindeks, indeks akan dinonaktifkan secara permanen.

Jika Anda menghapus satu-satunya kolom yang diindeks dalam tabel atau mengganti nama tabel itu sendiri, indeks penelusuran akan otomatis dihapus.

Indeks penelusuran dirancang untuk tabel besar. Jika Anda membuat indeks penelusuran pada tabel yang berukuran lebih kecil dari 10 GB, indeks tidak akan terisi. Demikian pula, jika Anda menghapus data dari tabel yang diindeks dan ukuran tabel di bawah 10 GB, indeks akan dinonaktifkan untuk sementara. Dalam hal ini, kueri penelusuran tidak menggunakan indeks dan kode IndexUnusedReason adalah BASE_TABLE_TOO_SMALL. Hal ini terjadi terlepas dari apakah Anda menggunakan pemesanan sendiri untuk tugas pengelolaan indeks Anda atau tidak. Jika ukuran tabel yang diindeks melebihi 10 GB, indeksnya akan otomatis terisi. Anda tidak akan dikenai biaya untuk penyimpanan hingga indeks penelusuran terisi dan aktif. Kueri yang menggunakan fungsi SEARCH selalu menampilkan hasil yang benar meskipun beberapa data belum diindeks.

Mendapatkan informasi tentang indeks penelusuran

Anda dapat memverifikasi keberadaan dan kesiapan indeks penelusuran dengan membuat kueri INFORMATION_SCHEMA. Ada tiga tampilan yang berisi metadata pada indeks penelusuran.

Tampilan INFORMATION_SCHEMA.SEARCH_INDEXES memiliki informasi tentang setiap indeks penelusuran yang dibuat pada set data.
Tampilan INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS memiliki informasi yang mengindeks kolom setiap tabel dalam set data.
Tampilan INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION memiliki informasi tentang indeks penelusuran untuk seluruh organisasi yang terkait dengan project saat ini.

`INFORMATION_SCHEMA.SEARCH_INDEXES` lihat contoh

Bagian ini mencakup contoh kueri tampilan INFORMATION_SCHEMA.SEARCH_INDEXES.

Contoh berikut menunjukkan semua indeks penelusuran aktif pada tabel dalam set data my_dataset, yang terletak di project my_project. Contoh ini mencakup nama indeks, pernyataan DDL yang digunakan untuk membuatnya, persentase cakupannya, dan penganalisis teksnya. Jika tabel dasar yang diindeks kurang dari 10 GB, maka indeksnya tidak terisi, dan dalam hal ini coverage_percentage adalah 0.

SELECT table_name, index_name, ddl, coverage_percentage, analyzer
FROM my_project.my_dataset.INFORMATION_SCHEMA.SEARCH_INDEXES
WHERE index_status = 'ACTIVE';

Hasilnya akan terlihat seperti berikut:

+-------------+-------------+--------------------------------------------------------------------------------------+---------------------+----------------+
| table_name  | index_name  | ddl                                                                                  | coverage_percentage | analyzer       |
+-------------+-------------+--------------------------------------------------------------------------------------+---------------------+----------------+
| small_table | names_index | CREATE SEARCH INDEX `names_index` ON `my_project.my_dataset.small_table`(names)      | 0                   | NO_OP_ANALYZER |
| large_table | logs_index  | CREATE SEARCH INDEX `logs_index` ON `my_project.my_dataset.large_table`(ALL COLUMNS) | 100                 | LOG_ANALYZER   |
+-------------+-------------+--------------------------------------------------------------------------------------+---------------------+----------------+

`INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS` lihat contoh

Bagian ini mencakup contoh kueri tampilan INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS.

Contoh berikut membuat indeks penelusuran di semua kolom my_table.

CREATE TABLE dataset.my_table(
  a STRING,
  b INT64,
  c STRUCT <d INT64,
            e ARRAY<STRING>,
            f STRUCT<g STRING, h INT64>>) AS
SELECT 'hello' AS a, 10 AS b, (20, ['x', 'y'], ('z', 30)) AS c;

CREATE SEARCH INDEX my_index
ON dataset.my_table(ALL COLUMNS);

Kueri berikut mengekstrak informasi tentang kolom yang diindeks. index_field_path menunjukkan kolom mana pada kolom yang diindeks. Hal ini berbeda dengan index_column_name hanya dalam kasus STRUCT, yang memberikan jalur lengkap ke kolom terindeks. Dalam contoh ini, kolom c berisi kolom ARRAY<STRING> e dan STRUCT lain yang disebut f dan berisi kolom STRING g, yang masing-masing diindeks.

SELECT table_name, index_name, index_column_name, index_field_path
FROM my_project.dataset.INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS

Hasilnya serupa dengan berikut ini:

+------------+------------+-------------------+------------------+
| table_name | index_name | index_column_name | index_field_path |
+------------+------------+-------------------+------------------+
| my_table   | my_index   | a                 | a                |
| my_table   | my_index   | c                 | c.e              |
| my_table   | my_index   | c                 | c.f.g            |
+------------+------------+-------------------+------------------+

Kueri berikut menggabungkan tampilan INFORMATION_SCHEMA.SEARCH_INDEX_COUMNS dengan tampilan INFORMATION_SCHEMA.SEARCH_INDEXES dan INFORMATION_SCHEMA.COLUMNS untuk menyertakan status indeks penelusuran dan jenis data setiap kolom:

SELECT
  index_columns_view.index_catalog AS project_name,
  index_columns_view.index_SCHEMA AS dataset_name,
  indexes_view.TABLE_NAME AS table_name,
  indexes_view.INDEX_NAME AS index_name,
  indexes_view.INDEX_STATUS AS status,
  index_columns_view.INDEX_COLUMN_NAME AS column_name,
  index_columns_view.INDEX_FIELD_PATH AS field_path,
  columns_view.DATA_TYPE AS data_type
FROM
  mydataset.INFORMATION_SCHEMA.SEARCH_INDEXES indexes_view
INNER JOIN
  mydataset.INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS index_columns_view
  ON
    indexes_view.TABLE_NAME = index_columns_view.TABLE_NAME
    AND indexes_view.INDEX_NAME = index_columns_view.INDEX_NAME
LEFT OUTER JOIN
  mydataset.INFORMATION_SCHEMA.COLUMNS columns_view
  ON
    indexes_view.INDEX_CATALOG = columns_view.TABLE_CATALOG
    AND indexes_view.INDEX_SCHEMA = columns_view.TABLE_SCHEMA
    AND index_columns_view.TABLE_NAME = columns_view.TABLE_NAME
    AND index_columns_view.INDEX_COLUMN_NAME = columns_view.COLUMN_NAME
ORDER BY
  project_name,
  dataset_name,
  table_name,
  column_name;

Hasilnya mirip dengan berikut ini:

+------------+------------+----------+------------+--------+-------------+------------+---------------------------------------------------------------+
| project    | dataset    | table    | index_name | status | column_name | field_path | data_type                                                     |
+------------+------------+----------+------------+--------+-------------+------------+---------------------------------------------------------------+
| my_project | my_dataset | my_table | my_index   | ACTIVE | a           | a          | STRING                                                        |
| my_project | my_dataset | my_table | my_index   | ACTIVE | c           | c.e        | STRUCT<d INT64, e ARRAY<STRING>, f STRUCT<g STRING, h INT64>> |
| my_project | my_dataset | my_table | my_index   | ACTIVE | c           | c.f.g      | STRUCT<d INT64, e ARRAY<STRING>, f STRUCT<g STRING, h INT64>> |
+------------+------------+----------+------------+--------+-------------+------------+---------------------------------------------------------------+

`INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION` lihat contoh

Bagian ini mencakup contoh kueri tampilan INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION.

Menemukan apakah konsumsi melebihi batas di region tertentu

Contoh berikut menggambarkan jika total ukuran tabel dasar yang diindeks di seluruh organisasi, yang menggunakan slot bersama dalam multi-region Amerika Serikat, melebihi 100 TB:

WITH
 indexed_base_table_size AS (
 SELECT
   SUM(base_table.total_logical_bytes) AS total_logical_bytes
 FROM
   `region-us`.INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION AS search_index
 JOIN
   `region-us`.INFORMATION_SCHEMA.TABLE_STORAGE_BY_ORGANIZATION AS base_table
 ON
   (search_index.table_name = base_table.table_name
     AND search_index.project_id = base_table.project_id
     AND search_index.index_schema = base_table.table_schema)
 WHERE
   TRUE
   -- Excludes search indexes that are permanently disabled.
   AND search_index.index_status != 'PERMANENTLY DISABLED'
   -- Excludes BASE_TABLE_TOO_SMALL search indexes whose base table size is
   -- less than 10 GB. These tables don't count toward the limit.
   AND search_index.index_status_details.throttle_status != 'BASE_TABLE_TOO_SMALL'
   -- Excludes search indexes whose project has BACKGROUND reservation purchased
   -- for search indexes.
   AND search_index.use_background_reservation = false
 -- Outputs the total indexed base table size if it exceeds 100 TB,
 -- otherwise, doesn't return any output.
)
SELECT * FROM indexed_base_table_size
WHERE total_logical_bytes >= 109951162777600 -- 100 TB

Hasilnya mirip dengan berikut ini:

+---------------------+
| total_logical_bytes |
+---------------------+
|     109951162777601 |
+---------------------+

Menemukan ukuran total tabel dasar yang diindeks menurut project di suatu region

Contoh berikut memberikan perincian pada setiap project di multi-region AS dengan total ukuran tabel dasar yang diindeks:

SELECT
 search_index.project_id,
 search_index.use_background_reservation,
 SUM(base_table.total_logical_bytes) AS total_logical_bytes
FROM
 `region-us`.INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION AS search_index
JOIN
 `region-us`.INFORMATION_SCHEMA.TABLE_STORAGE_BY_ORGANIZATION AS base_table
ON
 (search_index.table_name = base_table.table_name
   AND search_index.project_id = base_table.project_id
   AND search_index.index_schema = base_table.table_schema)
WHERE
 TRUE
  -- Excludes search indexes that are permanently disabled.
  AND search_index.index_status != 'PERMANENTLY DISABLED'
  -- Excludes BASE_TABLE_TOO_SMALL search indexes whose base table size is
  -- less than 10 GB. These tables don't count toward limit.
 AND search_index.index_status_details.throttle_status != 'BASE_TABLE_TOO_SMALL'
GROUP BY search_index.project_id, search_index.use_background_reservation

Hasilnya mirip dengan berikut ini:

+---------------------+----------------------------+---------------------+
|     project_id      | use_background_reservation | total_logical_bytes |
+---------------------+----------------------------+---------------------+
| projecta            |     true                   |     971329178274633 |
+---------------------+----------------------------+---------------------+
| projectb            |     false                  |     834638211024843 |
+---------------------+----------------------------+---------------------+
| projectc            |     false                  |     562910385625126 |
+---------------------+----------------------------+---------------------+

Menemukan indeks penelusuran yang dibatasi

Contoh berikut menampilkan semua indeks penelusuran yang di-throttle dalam organisasi dan region:

SELECT project_id, index_schema, table_name, index_name
FROM
 `region-us`.INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION
WHERE
 -- Excludes search indexes that are permanently disabled.
 index_status != 'PERMANENTLY DISABLED'
 AND index_status_details.throttle_status IN ('ORGANIZATION_LIMIT_EXCEEDED', 'BASE_TABLE_TOO_LARGE')

Hasilnya mirip dengan berikut ini:

+--------------------+--------------------+---------------+----------------+
|     project_id     |    index_schema    |  table_name   |   index_name   |
+--------------------+--------------------+---------------+----------------+
|     projecta       |     dataset_us     |   table1      |    index1      |
|     projectb       |     dataset_us     |   table1      |    index1      |
+--------------------+--------------------+---------------+----------------+

Opsi pengelolaan indeks

Untuk membuat indeks dan meminta BigQuery mengelolanya, Anda memiliki dua opsi:

Menggunakan gabungan slot bersama default: Jika data yang ingin diindeks di bawah batas per organisasi, Anda dapat menggunakan gabungan slot bersama untuk pengelolaan indeks.
Menggunakan pemesanan Anda sendiri: Untuk mencapai progres pengindeksan yang lebih dapat diprediksi dan konsisten pada workload produksi yang lebih besar, Anda dapat menggunakan pemesanan sendiri untuk pengelolaan indeks.

Menggunakan slot bersama

Jika Anda belum mengonfigurasi project agar menggunakan pemesanan khusus untuk pengindeksan, pengelolaan indeks akan ditangani dalam gabungan slot bersama yang gratis dan tunduk pada batasan berikut.

Jika Anda menambahkan data ke tabel yang menyebabkan ukuran total tabel yang diindeks melebihi batas organisasi Anda, BigQuery akan menjeda pengelolaan indeks untuk tabel tersebut. Jika hal ini terjadi, kolom index_status di tampilan INFORMATION_SCHEMA.SEARCH_INDEXES akan menampilkan PENDING DISABLEMENT dan indeks akan dimasukkan dalam antrean untuk dihapus. Selagi menunggu penonaktifan indeks, indeks masih digunakan dalam kueri dan Anda akan dikenai biaya untuk penyimpanan indeks. Setelah indeks dihapus, kolom index_status akan menampilkan indeks sebagai TEMPORARILY DISABLED. Dalam status ini, kueri tidak menggunakan indeks, dan Anda tidak dikenai biaya untuk penyimpanan indeks. Dalam hal ini, kode IndexUnusedReason adalah BASE_TABLE_TOO_LARGE.

Jika Anda menghapus data dari tabel dan ukuran total tabel yang diindeks di bawah batas per organisasi, pengelolaan indeks akan dilanjutkan. Kolom index_status dalam tampilan INFORMATION_SCHEMA.SEARCH_INDEXES adalah ACTIVE, kueri dapat menggunakan indeks, dan Anda akan dikenai biaya untuk penyimpanan indeks.

Anda dapat menggunakan tampilan INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION untuk memahami konsumsi saat ini terhadap batas per organisasi di wilayah tertentu, yang dikelompokkan menurut project dan tabel.

BigQuery tidak menjamin ketersediaan kapasitas dari gabungan slot bersama atau throughput pengindeksan yang Anda lihat. Untuk aplikasi produksi, Anda dapat menggunakan slot khusus untuk pemrosesan indeks.

Menggunakan pemesanan Anda sendiri

Alih-alih menggunakan gabungan slot bersama default, Anda dapat menetapkan pemesanan sendiri untuk mengindeks tabel. Menggunakan reservasi Anda sendiri memastikan performa tugas pengelolaan indeks yang dapat diprediksi dan konsisten, seperti pembuatan, pemuatan ulang, dan pengoptimalan latar belakang.

Tidak ada batas ukuran tabel saat tugas pengindeksan berjalan di pemesanan Anda.
Menggunakan pemesanan Anda sendiri memberi Anda fleksibilitas dalam pengelolaan indeks. Jika perlu membuat indeks yang sangat besar atau membuat update besar pada tabel yang diindeks, Anda dapat menambahkan lebih banyak slot ke penetapan untuk sementara.

Untuk mengindeks tabel dalam project dengan pemesanan yang ditentukan, buat pemesanan di region tempat tabel Anda berada. Kemudian, tetapkan project ke pemesanan dengan job_type ditetapkan ke BACKGROUND:

SQL

Gunakan pernyataan DDL CREATE ASSIGNMENT.

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery
Di editor kueri, masukkan pernyataan berikut:
```
CREATE ASSIGNMENT
  `ADMIN_PROJECT_ID.region-LOCATION.RESERVATION_NAME.ASSIGNMENT_ID`
OPTIONS (
  assignee = 'projects/PROJECT_ID',
  job_type = 'BACKGROUND');
```
Ganti kode berikut:
- ADMIN_PROJECT_ID: project ID dari project administrasi yang memiliki resource pemesanan
- LOCATION: lokasi pemesanan
- RESERVATION_NAME: nama pemesanan
- ASSIGNMENT_ID: ID tugas
  
  ID harus unik untuk project dan lokasi, diawali dan diakhiri dengan huruf kecil atau angka, dan hanya berisi huruf kecil, angka, dan tanda hubung.
- PROJECT_ID: ID project yang berisi tabel yang akan diindeks. Project ini ditetapkan ke pemesanan.
Klik Run.

Untuk mengetahui informasi selengkapnya tentang cara menjalankan kueri, lihat artikel Menjalankan kueri interaktif.

bq

Gunakan perintah bq mk:

bq mk \
    --project_id=ADMIN_PROJECT_ID \
    --location=LOCATION \
    --reservation_assignment \
    --reservation_id=RESERVATION_NAME \
    --assignee_id=PROJECT_ID \
    --job_type=BACKGROUND \
    --assignee_type=PROJECT

Ganti kode berikut:

ADMIN_PROJECT_ID: project ID dari project administrasi yang memiliki resource pemesanan
LOCATION: lokasi pemesanan
RESERVATION_NAME: nama pemesanan
PROJECT_ID: ID project yang akan ditetapkan ke pemesanan ini

Melihat tugas pengindeksan

Tugas pengindeksan baru dibuat setiap kali indeks dibuat atau diperbarui pada satu tabel. Untuk melihat informasi tentang tugas, buat kueri tampilan INFORMATION_SCHEMA.JOBS*. Anda dapat memfilter tugas pengindeksan dengan menetapkan job_type IS NULL AND SEARCH(job_id, '`search_index`') dalam klausa WHERE kueri Anda. Contoh berikut mencantumkan lima tugas pengindeksan terbaru dalam project my_project:

SELECT *
FROM
 region-us.INFORMATION_SCHEMA.JOBS
WHERE
  project_id  = 'my_project'
  AND job_type IS NULL
  AND SEARCH(job_id, '`search_index`')
ORDER BY
 creation_time DESC
LIMIT 5;

Memilih ukuran pemesanan Anda

Untuk memilih jumlah slot yang tepat untuk pemesanan, Anda harus mempertimbangkan kapan tugas pengelolaan indeks dijalankan, jumlah slot yang digunakan, dan seperti apa penggunaan Anda dari waktu ke waktu. BigQuery memicu tugas pengelolaan indeks dalam situasi berikut:

Anda membuat indeks pada tabel.
Data diubah dalam tabel yang diindeks.
Skema tabel berubah dan hal ini memengaruhi kolom mana yang akan diindeks.
Data dan metadata indeks dioptimalkan atau diperbarui secara berkala.

Jumlah slot yang Anda perlukan untuk tugas pengelolaan indeks pada tabel bergantung pada faktor-faktor berikut:

Ukuran tabel
Laju penyerapan data ke tabel
Tingkat pernyataan DML yang diterapkan pada tabel
Penundaan yang dapat diterima untuk membangun dan mempertahankan indeks
Kompleksitas indeks, biasanya ditentukan oleh atribut data, seperti jumlah istilah duplikat

Estimasi Awal

Estimasi berikut dapat membantu Anda memperkirakan jumlah slot yang diperlukan oleh pemesanan Anda. Karena sifat workload pengindeksan yang sangat bervariasi, Anda harus mengevaluasi ulang persyaratan setelah mulai mengindeks data.

Data yang ada: Dengan pemesanan 1.000 slot, tabel yang sudah ada di BigQuery dapat diindeks dengan kecepatan rata-rata hingga 4 GiB per detik, yaitu sekitar 336 TiB per hari.
Data yang baru diserap: Pengindeksan biasanya memerlukan lebih banyak resource pada data yang baru diserap, karena tabel dan indeksnya menjalani beberapa tahap pengoptimalan transformatif. Pengindeksan data yang baru diserap rata-rata menghabiskan resource tiga kali lipat dibandingkan pengindeksan pengisian ulang awal dari data yang sama.
Data yang jarang dimodifikasi: Tabel yang diindeks dengan sedikit atau tanpa modifikasi data memerlukan resource yang jauh lebih sedikit untuk pengelolaan indeks yang berkelanjutan. Titik awal yang direkomendasikan adalah mempertahankan 1/5 slot yang diperlukan untuk pengindeksan pengisian ulang awal data yang sama, dan tidak kurang dari 250 slot.
Progres pengindeksan diskalakan dengan perkiraan secara linear sesuai ukuran pemesanan. Namun, sebaiknya jangan gunakan pemesanan yang lebih kecil dari 250 slot untuk pengindeksan karena dapat menyebabkan inefisiensi yang dapat memperlambat progres pengindeksan.
Estimasi ini dapat berubah jika fitur, pengoptimalan, dan penggunaan yang sebenarnya bervariasi.
Jika total ukuran tabel organisasi Anda melebihi batas pengindeksan region, Anda harus mempertahankan pemesanan bukan nol yang ditetapkan untuk pengindeksan. Jika tidak, pengindeksan mungkin akan kembali ke tingkat default, sehingga menyebabkan penghapusan semua indeks yang tidak diinginkan.

Memantau Penggunaan dan Progres

Cara terbaik untuk menilai jumlah slot yang Anda perlukan untuk menjalankan tugas pengelolaan indeks secara efisien adalah dengan memantau penggunaan slot dan menyesuaikan ukuran pemesanan sebagaimana mestinya. Kueri berikut menghasilkan penggunaan slot harian untuk tugas pengelolaan indeks. Hanya 30 hari terakhir yang disertakan dalam region us-west1:

SELECT
  TIMESTAMP_TRUNC(job.creation_time, DAY) AS usage_date,
  -- Aggregate total_slots_ms used for index-management jobs in a day and divide
  -- by the number of milliseconds in a day. This value is most accurate for
  -- days with consistent slot usage.
  SAFE_DIVIDE(SUM(job.total_slot_ms), (1000 * 60 * 60 * 24)) AS average_daily_slot_usage
FROM
  `region-us-west1`.INFORMATION_SCHEMA.JOBS job
WHERE
  project_id = 'my_project'
  AND job_type IS NULL
  AND SEARCH(job_id, '`search_index`')
GROUP BY
  usage_date
ORDER BY
  usage_date DESC
limit 30;

Jika slot tidak cukup untuk menjalankan tugas pengelolaan indeks, indeks mungkin menjadi tidak sinkron dengan tabelnya dan tugas pengindeksan mungkin gagal. Dalam hal ini, BigQuery membangun ulang indeks dari awal. Untuk menghindari indeks yang tidak sinkron, pastikan Anda memiliki slot yang cukup untuk mendukung pembaruan indeks dari penyerapan dan pengoptimalan data. Untuk informasi selengkapnya tentang pemantauan penggunaan slot, lihat diagram resource admin.

Praktik terbaik

Indeks penelusuran dirancang untuk tabel besar. Performa indeks penelusuran meningkat seiring ukuran tabel.
Jangan mengindeks kolom yang hanya berisi sedikit nilai unik.
Jangan mengindeks kolom yang tidak pernah Anda inginkan untuk digunakan dengan fungsi SEARCH atau fungsi dan operator yang didukung lainnya.
Hati-hati saat membuat indeks penelusuran di ALL COLUMNS. Setiap kali Anda menambahkan kolom yang berisi data STRING atau JSON, kolom tersebut akan diindeks.
Anda harus menggunakan pemesanan Anda sendiri untuk pengelolaan indeks dalam aplikasi produksi. Jika Anda memilih menggunakan gabungan slot bersama default untuk tugas pengelolaan indeks, batas ukuran per organisasi akan berlaku.

Menghapus indeks penelusuran

Jika tidak lagi memerlukan indeks penelusuran atau ingin mengubah kolom mana yang akan diindeks pada tabel, Anda dapat menghapus indeks yang saat ini ada di tabel tersebut. Gunakan pernyataan DDL DROP SEARCH INDEX.

Jika tabel yang diindeks dihapus, indeksnya dihapus secara otomatis.

Contoh:

DROP SEARCH INDEX my_index ON dataset.simple_table;

Langkah berikutnya

Untuk mengetahui ringkasan kasus penggunaan, harga, izin yang diperlukan, dan batasan indeks penelusuran, lihat Pengantar penelusuran di BigQuery.
Untuk mengetahui informasi tentang penelusuran kolom yang diindeks secara efisien, lihat Menelusuri dengan indeks.

Mengelola indeks penelusuran

Membuat indeks penelusuran

Membuat indeks penelusuran dengan penganalisis teks default

Membuat indeks penelusuran di semua kolom dengan penganalisis NO_OP_ANALYZER

Membuat indeks penelusuran dan menentukan kolom serta jenis data

Membuat indeks penelusuran di semua kolom dan menentukan jenis data

Mengindeks dengan perincian kolom

Memahami pemuatan ulang indeks

Mendapatkan informasi tentang indeks penelusuran

INFORMATION_SCHEMA.SEARCH_INDEXES lihat contoh

INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS lihat contoh

INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION lihat contoh

Menemukan apakah konsumsi melebihi batas di region tertentu

Menemukan ukuran total tabel dasar yang diindeks menurut project di suatu region

Menemukan indeks penelusuran yang dibatasi

Opsi pengelolaan indeks

Menggunakan slot bersama

Menggunakan pemesanan Anda sendiri

SQL

bq

Melihat tugas pengindeksan

Memilih ukuran pemesanan Anda

Estimasi Awal

Memantau Penggunaan dan Progres

Praktik terbaik

Menghapus indeks penelusuran

Langkah berikutnya

Membuat indeks penelusuran di semua kolom dengan penganalisis `NO_OP_ANALYZER`

`INFORMATION_SCHEMA.SEARCH_INDEXES` lihat contoh

`INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS` lihat contoh

`INFORMATION_SCHEMA.SEARCH_INDEXES_BY_ORGANIZATION` lihat contoh