Jenis data

Halaman ini menjelaskan jenis data yang dapat Anda impor ke dalam set data AutoML Tables, dan bagaimana jenis tersebut dipetakan ke BigQuery atau CSV.

Pengantar

Saat Anda mengimpor data pelatihan, AutoML Tables menyarankan jenis data untuk setiap kolom berdasarkan jenis native dalam data input dan nilai dalam kolom tersebut. Jenis data kolom penting karena memengaruhi cara kolom digunakan dalam melatih model. Setelah mengimpor data, Anda meninjau setiap kolom untuk memastikan jenis data yang dipilih AutoML Tables adalah jenis data yang benar untuk data Anda.

Saat Anda membuat model, set data dikonversi menjadi daftar objek Baris, yang memiliki jenis datanya sendiri. Jika menggunakan prediksi online, Anda harus mengonversi data untuk menggunakan format ini.

Jenis data AutoML Tables

Kategoris

Nilai kategoris mewakili nilai-nilai dalam suatu kategori. Artinya, tingkat nominal. Nilai hanya berbeda berdasarkan namanya tanpa urutan. Anda dapat menggunakan angka untuk merepresentasikan nilai kategoris, tetapi nilai tersebut tidak memiliki hubungan numerik satu sama lain. Artinya, kategori 1 tidak "lebih besar" dari kategori 0.

Berikut adalah beberapa contoh nilai kategoris:

  • Boolean - true, false.
  • Negara - "USA", "Canada", "China", dan sebagainya.
  • Kode status HTTP - "200", "404", "500", dan sebagainya.

Nilai kategoris peka huruf besar/kecil; variasi ejaan diperlakukan sebagai kategori berbeda (misalnya, "Color" dan "Colour" tidak digabungkan).

Teks

Nilai teks mewakili teks bentuk bebas, yang biasanya terdiri dari token teks.

Berikut adalah beberapa contoh nilai teks:

  • "The quick brown fox"
  • "This restaurant is the best! The food is delicious"

Kolom teks diuraikan menjadi token oleh spasi kosong untuk pelatihan model.

Angka

Nilai numerik mewakili bilangan ordinal atau kuantitatif. Angka-angka ini dapat dibandingkan. Artinya, dua angka yang berbeda bisa kurang dari atau lebih besar dari satu sama lain.

AutoML Tables menafsirkan setiap string yang kompatibel sebagai numerik. Spasi di awal atau di akhir akan dipangkas.

Tabel berikut menunjukkan semua format yang kompatibel untuk tipe data numerik:

Format Contoh Notes
String numerik "101", 101.5" Karakter titik (".") adalah satu-satunya tanda desimal yang valid. "101,5" dan "100,000" bukan string numerik yang valid.
Notasi ilmiah "1.12345E+11", "1.12345e+11" Lihat catatan untuk string numerik terkait tanda desimal.
Bukan angka "NAN", "nan", "+NAN" Huruf besar atau kecil tidak dibedakan. Karakter plus ("+") atau minus ("-") yang ditambahkan di awal akan diabaikan. Ditafsirkan sebagai nilai NULL.
Tak terhingga "INF", "+inf" Huruf besar atau kecil tidak dibedakan. Karakter plus ("+") atau minus ("-") yang ditambahkan di awal akan diabaikan. Ditafsirkan sebagai nilai NULL.

Stempel waktu

Nilai Stempel waktu mewakili suatu titik waktu, yang direpresentasikan sebagai waktu sipil dengan zona waktu, atau stempel waktu Unix. Hanya fitur jenis Stempel waktu yang dapat digunakan untuk Time column.

Jika zona waktu tidak ditentukan dengan waktu sipil, zona waktu tersebut akan ditetapkan secara default ke UTC.

Tabel berikut menampilkan semua format string waktu yang kompatibel:

Format Contoh Catatan
%E4Y-%m-%d "2017-01-30" Lihat dokumentasi Abseil untuk deskripsi format ini.
%E4Y/%m/%d "2017/01/30"
%Y/%m/%d %H:%M:%E*S "2017/01/30 23:59:58"
%d-%m-%E4Y "30-11-2018"
%d/%m/%E4Y "30/11/2018"
%d-%B-%E4Y "30-November-2018"
%Y-%m-%dT%H:%M:%E*S%Ez "2019-05-17T23:56:09.05Z" RFC 3339
String stempel waktu Unix dalam detik "1541194447" Hanya untuk waktu antara 01/Jan/1990 dan 01/Jan/2030.
String stempel waktu Unix dalam milidetik "1541194447000"
String stempel waktu Unix dalam mikrodetik "1541194447000000"
String stempel waktu Unix dalam nanodetik "1541194447000000000"

Struct

Struct dapat digunakan untuk mewakili sekelompok kolom berlabel. Sebuah struct memiliki daftar nama kolom, yang masing-masing dikaitkan dengan sebuah jenis data. Daftar kolom dan jenis datanya harus sama untuk semua nilai struct di suatu kolom.

Berikut ini beberapa contoh struct:

  • Tekanan darah - {"timestamp": 1535761416, "systolic": 110, "diastolic": 70}
  • Produk - {"name": "iPhone", price: 1000}

Anda menggunakan jenis data STRUCT BigQuery untuk mewakili struct.

Array

Array dapat digunakan untuk mewakili daftar nilai. Nilai yang terkandung harus dari jenis data yang sama. Anda dapat menyertakan jenis data gabungan (struct) dalam sebuah array; semua struct harus memiliki struktur yang sama.

AutoML Tables memproses array untuk merepresentasikan bobot relatif. Dengan kata lain, item yang muncul kemudian dalam array lebih berbobot daripada item yang muncul di awal.

Berikut adalah beberapa contoh array:

  • Kategori produk:

    ["Clothing", "Women", "Dress", ...]

  • Pembelian terakhir:

    ["iPhone", "Laptop", "Suitcase", ...]

  • Data pengguna:

    [{"name": "Joelle", ID: 4093}, {"name": "Chloe", ID: 2047}, {"name": "Neko", ID: 3432}, ...]

Anda menggunakan jenis data ARRAY BigQuery untuk mewakili array.

Format nama kolom

Saat membuat skema untuk BigQuery atau baris header untuk CSV, beri nama kolom (fitur) di data pelatihan. Nama kolom dapat berisi karakter alfanumerik atau garis bawah (_). Nama kolom tidak boleh diawali dengan garis bawah.

Tabel BigQuery

Jenis data yang didukung

Sebelum membuat tabel BigQuery, Anda harus mengetahui jenis data BigQuery yang didukung dan cara pemetaannya ke jenis data AutoML Tables.

Jenis data BigQuery Didukung untuk impor? Jenis data AutoML Tables
INT64 Y Numerik, Kategoris
NUMERIC Y Numerik, Kategoris
FLOAT64 Y Numerik, Kategoris
BOOL Y Kategoris
STRING Y Teks, Kategori, Numerik
BYTES N
DATE Y Stempel waktu, Kategoris
DATETIME Y Stempel waktu, Kategoris
GEOGRAPHY N
WAKTU Y Kategoris
TIMESTAMP Y Stempel waktu, Kategoris
ARRAY Y Array
STRUCT Y Struct

File CSV

Jenis data yang didukung

Semua data CSV diimpor sebagai string. Anda dapat menggunakan jenis data AutoML Tables berikut saat mengimpor menggunakan CSV:

  • Teks
  • Kategoris
  • Angka
  • Stempel waktu

Format CSV

AutoML Tables menggunakan format CSV RFC 4180.

Format objek baris

Saat meminta prediksi online, Anda harus menampilkan data prediksi sebagai representasi JSON dari objek Baris. Tabel di bawah menunjukkan format data yang dapat diterima untuk setiap jenis data AutoML Tables. Anda dapat memilih format data yang paling mudah diberikan.

Jenis data AutoML Tables Row jenis data objek Format
Kategoris bool_type benar, salah
string_value "42"
"biru"
"31-01-2014"
"31-01-2014 13:14:15.123456789"
"21:02:42.118039"
"1553040000" (stempel waktu UNIX)
Angka string_value "42,3"
number_value 42.3
Teks string_value "Rubah cokelat cepat"
Stempel waktu string_value "2014-01-31"
"31-01-2014 13:14:15.123456789"
"1553040000" (stempel waktu UNIX)
Array list_value ["", "kucing", "ikan"]
Struct struct_value {"field1": "ABC", "field2": 100}

Langkah selanjutnya