Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan deteksi otomatis skema

Deteksi otomatis skema

Deteksi otomatis skema memungkinkan BigQuery menyimpulkan skema untuk data CSV, JSON, atau Google Spreadsheet. Deteksi otomatis skema tersedia saat Anda memuat data ke BigQuery dan saat Anda membuat kueri sumber data eksternal.

Jika deteksi otomatis diaktifkan, BigQuery akan menyimpulkan jenis data untuk setiap kolom. BigQuery memilih file acak di sumber data dan memindai hingga 500 baris data pertama untuk digunakan sebagai sampel perwakilan. Selanjutnya, BigQuery memeriksa setiap kolom dan mencoba menetapkan jenis data ke kolom tersebut berdasarkan nilai dalam sampel. Jika semua baris dalam kolom kosong, deteksi otomatis akan ditetapkan secara default ke jenis data STRING untuk kolom tersebut.

Jika tidak mengaktifkan deteksi otomatis skema untuk data CSV, JSON, atau Google Spreadsheet, Anda harus memberikan skema secara manual saat membuat tabel.

Anda tidak perlu mengaktifkan deteksi otomatis skema untuk file ekspor Avro, Parquet, ORC, Firestore, atau Datastore. Format file ini menentukan deskripsi secara mandiri, sehingga BigQuery otomatis menyimpulkan skema tabel dari data sumber. Untuk file Parquet, Avro, dan Orc, Anda dapat secara opsional menyediakan skema eksplisit untuk mengganti skema yang diinferensi.

Anda dapat melihat skema yang terdeteksi untuk tabel dengan cara berikut:

Menggunakan Konsol Google Cloud.
Gunakan perintah bq show alat command line bq.

Saat mendeteksi skema, BigQuery terkadang mungkin mengubah nama kolom agar kompatibel dengan sintaksis GoogleSQL.

Untuk informasi tentang konversi jenis data, lihat yang berikut ini:

Konversi jenis data saat memuat data dari Datastore
Konversi jenis data saat memuat data dari Firestore
Konversi Avro
Konversi Parquet
Konversi ORC

Memuat data menggunakan deteksi otomatis skema

Untuk mengaktifkan deteksi otomatis skema saat memuat data, gunakan salah satu pendekatan berikut:

Di Konsol Google Cloud, di bagian Schema, untuk Auto detect, centang opsi Schema and input parameter.
Di alat command line bq, gunakan perintah bq load dengan parameter --autodetect.

Ketika deteksi otomatis skema diaktifkan, BigQuery akan melakukan upaya terbaik untuk otomatis menyimpulkan skema untuk file CSV dan JSON. Logika deteksi otomatis menyimpulkan jenis kolom skema dengan membaca hingga 500 baris data pertama. Baris utama dilewati jika tanda --skip_leading_rows ada. Jenis kolom didasarkan pada baris yang memiliki kolom paling banyak. Oleh karena itu, deteksi otomatis akan berfungsi seperti yang diharapkan selama setidaknya ada satu baris data yang memiliki nilai di setiap kolom.

Deteksi otomatis skema tidak digunakan pada file Avro, file Parquet, file ORC, file ekspor Firestore, atau file ekspor Datastore. Saat Anda memuat file ini ke BigQuery, skema tabel akan otomatis diambil dari data sumber yang mendeskripsikan sendiri.

Untuk menggunakan deteksi otomatis skema saat Anda memuat data JSON atau CSV:

Konsol

Di konsol Google Cloud, buka halaman BigQuery.

Buka BigQuery
Di panel Explorer, luaskan project Anda dan pilih set data.
Luaskan opsi Actions dan klik Open.
Di panel detail, klik Create table .
Di halaman Create table, di bagian Source:
- Untuk Create table from, pilih jenis sumber yang Anda inginkan.
- Di kolom sumber, cari bucket File/Cloud Storage, atau masukkan Cloud Storage URI. Perhatikan bahwa Anda tidak dapat menyertakan beberapa URI di Konsol Google Cloud, tetapi karakter pengganti didukung. Bucket Cloud Storage harus berada di lokasi yang sama dengan set data yang berisi tabel yang Anda buat.
- Untuk File format, pilih CSV atau JSON.
Di halaman Create table, di bagian Destination:
- Untuk Dataset name, pilih set data yang sesuai.
- Di kolom Table name, masukkan nama tabel yang Anda buat.
- Pastikan Table type disetel ke Native table.
Klik Create table.

bq

Berikan perintah bq load dengan parameter --autodetect.

(Opsional) Berikan flag --location dan tetapkan nilainya ke lokasi Anda.

Perintah berikut memuat file menggunakan deteksi otomatis skema:

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

Ganti yang berikut ini:

LOCATION: nama lokasi Anda. Flag --location bersifat opsional. Misalnya, jika Anda menggunakan BigQuery di region Tokyo, tetapkan nilai flag ke asia-northeast1. Anda dapat menetapkan nilai default untuk lokasi menggunakan file .bigqueryrc.
FORMAT: NEWLINE_DELIMITED_JSON atau CSV.
DATASET: set data yang berisi tabel tempat Anda memuat data.
TABLE: nama tabel tempat Anda memuat data.
PATH_TO_SOURCE: adalah lokasi file CSV atau JSON.

Contoh:

Masukkan perintah berikut untuk memuat myfile.csv dari mesin lokal Anda ke tabel bernama mytable yang disimpan dalam set data bernama mydataset.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

Masukkan perintah berikut untuk memuat myfile.json dari mesin lokal Anda ke tabel bernama mytable yang disimpan dalam set data bernama mydataset.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json