Desain skema untuk data deret waktu

Halaman ini menjelaskan pola desain skema untuk menyimpan data deret waktu di Bigtable. Halaman ini dibuat berdasarkan Mendesain skema dan mengasumsikan bahwa Anda sudah memahami konsep dan rekomendasi yang dijelaskan di halaman tersebut.

Deret waktu adalah kumpulan data yang terdiri dari pengukuran dan waktu saat pengukuran dicatat. Contoh deret waktu mencakup hal berikut:

  • Plot penggunaan memori di komputer Anda
  • Suhu dari waktu ke waktu di laporan berita
  • Harga pasar saham selama jangka waktu tertentu

Skema yang baik menghasilkan performa dan skalabilitas yang sangat baik, dan skema yang buruk dapat menyebabkan sistem berperforma buruk. Namun, tidak ada satu desain skema yang paling sesuai untuk semua kasus penggunaan.

Pola yang dijelaskan di halaman ini memberikan titik awal. Set data unik dan kueri yang ingin Anda gunakan adalah hal terpenting yang harus dipertimbangkan saat Anda mendesain skema untuk data deret waktu.

Pola desain dasar untuk menyimpan data deret waktu di Bigtable adalah sebagai berikut:

Data untuk contoh

Untuk mengilustrasikan perbedaan antara pola, contoh di halaman ini mengasumsikan bahwa Anda menyimpan data untuk aplikasi yang mencatat pengukuran yang dilakukan balon cuaca sekali setiap menit. Kita menggunakan peristiwa untuk mengartikan satu permintaan yang menulis satu atau beberapa sel secara bersamaan. ID lokasi sesuai dengan region Google Cloud.

Pengukuran Contoh
  1. Stempel waktu di halaman ini diformat seperti `tYYYY-MM-DD-HHMM` agar dapat dibaca manusia. Dalam tabel produksi, stempel waktu biasanya dinyatakan sebagai jumlah mikrodetik sejak 1970-01-01 00:00:00 UTC, seperti `1616264288050807`.
Tekanan (pascal) 94587
Suhu (Celsius) 9,5
Kelembapan (persentase) 65
Ketinggian (meter) 601
Data terkait Contoh
ID Balon 3698
Lokasi asia-southeast1
Stempel waktu1 t2021-03-05-1204

Bucket waktu

Dalam pola bucket waktu, setiap baris dalam tabel Anda mewakili "bucket" waktu, seperti jam, hari, atau bulan. Kunci baris menyertakan ID non-stempel waktu, seperti week49, untuk jangka waktu yang dicatat dalam baris, beserta data identifikasi lainnya.

Ukuran bucket yang Anda gunakan — seperti menit, jam, atau hari — bergantung pada kueri yang Anda rencanakan untuk digunakan dan pada batas ukuran data Bigtable. Misalnya, jika baris yang berisi data selama satu jam lebih besar dari ukuran maksimum yang direkomendasikan per baris sebesar 100 MB, baris yang mewakili setengah jam atau satu menit mungkin merupakan pilihan yang lebih baik.

Keuntungan pola bucket waktu meliputi hal berikut:

  • Anda akan melihat performa yang lebih baik. Misalnya, jika Anda menyimpan 100 pengukuran, Bigtable akan menulis dan membaca pengukuran tersebut lebih cepat jika berada dalam satu baris daripada jika berada dalam 100 baris.

  • Data yang disimpan dengan cara ini dikompresi dengan lebih efisien daripada data dalam tabel tinggi dan sempit.

Kekurangan meliputi hal berikut:

  • Pola desain skema time-bucket lebih rumit daripada pola stempel waktu tunggal dan dapat memerlukan lebih banyak waktu dan upaya untuk dikembangkan.

Menambahkan kolom baru untuk peristiwa baru

Dalam pola bucket waktu ini, Anda menulis kolom baru ke baris untuk setiap peristiwa, menyimpan data dalam penentu kolom, bukan sebagai nilai sel. Artinya, untuk setiap sel, Anda mengirim grup kolom, penentu kolom, dan stempel waktu, tetapi tidak ada nilai.

Dengan menggunakan pola ini untuk contoh data balon cuaca, setiap baris berisi semua pengukuran untuk satu metrik, seperti pressure, untuk satu balon cuaca, selama seminggu. Setiap kunci baris berisi lokasi, ID balon, metrik yang Anda catat dalam baris, dan nomor minggu. Setiap kali balon melaporkan datanya untuk suatu metrik, Anda akan menambahkan kolom baru ke baris. Penentu kolom berisi pengukuran, tekanan dalam Pascal, selama menit yang diidentifikasi oleh stempel waktu sel.

Dalam contoh ini, setelah tiga menit, baris mungkin terlihat seperti ini:

Row key 94558 94122 95992
us-west2#3698#pressure#week1 "" (t2021-03-05-1200) "" (t2021-03-05-1201) "" (t2021-03-05-1202)

Kasus penggunaan untuk pola ini mencakup hal berikut:

Menambahkan sel baru untuk peristiwa baru

Dalam pola bucket waktu ini, Anda menambahkan sel baru ke kolom yang ada saat menulis peristiwa baru. Pola ini memungkinkan Anda memanfaatkan kemampuan Bigtable untuk menyimpan beberapa sel berstempel waktu di baris dan kolom tertentu. Penting untuk menentukan aturan pembersihan sampah saat Anda menggunakan pola ini.

Dengan menggunakan data balon cuaca sebagai contoh, setiap baris berisi semua pengukuran untuk satu balon cuaca selama seminggu. Awalan kunci baris adalah ID untuk minggu, sehingga Anda dapat membaca data selama satu minggu untuk beberapa balon dengan satu kueri. Segmen kunci baris lainnya adalah lokasi tempat balon beroperasi dan nomor ID untuk balon. Tabel ini memiliki satu grup kolom, measurements, dan grup kolom tersebut memiliki satu kolom untuk setiap jenis pengukuran: pressure, temperature, humidity, dan altitude.

Setiap kali balon mengirim pengukurannya, aplikasi akan menulis nilai baru ke baris yang menyimpan data minggu ini untuk balon, menulis sel tambahan dengan stempel waktu ke setiap kolom. Pada akhir minggu, setiap kolom di setiap baris memiliki satu pengukuran untuk setiap menit dalam seminggu, atau 10.080 sel (jika kebijakan pembersihan sampah Anda mengizinkannya).

Setiap kolom di setiap baris menyimpan pengukuran untuk setiap menit dalam seminggu. Dalam hal ini, setelah tiga menit, dua kolom pertama dalam baris mungkin terlihat seperti ini:

Row key tekanan temp
asia-south2#3698#week1 94558 (t2021-03-05-1200) 9.5 (t2021-03-05-1200)
94122 (t2021-03-05-1201) 9.4 (t2021-03-05-1201)
95992 (t2021-03-05-1202) 9.2 (t2021-03-05-1202)

Kasus penggunaan untuk pola ini mencakup hal berikut:

  • Anda ingin dapat mengukur perubahan pengukuran dari waktu ke waktu.

Baris stempel waktu tunggal

Dalam pola ini, Anda membuat baris untuk setiap peristiwa atau pengukuran baru, bukan menambahkan sel ke kolom dalam baris yang ada. Akhiran kunci baris adalah nilai stempel waktu. Tabel yang mengikuti pola ini cenderung tinggi dan sempit, dan setiap kolom dalam baris hanya berisi satu sel.

Diserialisasi dengan satu stempel waktu

Dalam pola ini, Anda menyimpan semua data untuk baris dalam satu kolom dalam format serial seperti buffering protokol (protobuf). Pendekatan ini dijelaskan lebih mendetail di Mendesain skema.

Misalnya, jika Anda menggunakan pola ini untuk menyimpan data balon cuaca, tabel Anda mungkin terlihat seperti ini setelah empat menit:

Row key measurements_blob
us-west2#3698#2021-03-05-1200 protobuf_1
us-west2#3698#2021-03-05-1201 protobuf_2
us-west2#3698#2021-03-05-1202 protobuf_3
us-west2#3698#2021-03-05-1203 protobuf_4

Keuntungan pola ini mencakup hal berikut:

  • Efisiensi penyimpanan

  • Kecepatan

Kekurangan meliputi hal berikut:

  • Ketidakmampuan untuk mengambil hanya kolom tertentu saat Anda membaca data

  • Kebutuhan untuk mendeserialisasi data setelah dibaca

Kasus penggunaan untuk pola ini mencakup hal berikut:

  • Anda tidak yakin bagaimana Anda akan membuat kueri data atau kueri Anda mungkin berfluktuasi.

  • Kebutuhan Anda untuk menekan biaya lebih besar daripada kebutuhan Anda untuk dapat memfilter data sebelum mengambilnya dari Bigtable.

  • Setiap peristiwa berisi begitu banyak pengukuran sehingga Anda mungkin melebihi batas 100 MB per baris jika menyimpan data dalam beberapa kolom.

Stempel waktu tunggal tidak diserialisasi

Dalam pola ini, Anda menyimpan setiap peristiwa di barisnya sendiri, meskipun hanya mencatat satu pengukuran. Data di kolom tidak diserialisasi.

Keuntungan pola ini mencakup hal berikut:

  • Pola ini umumnya lebih mudah diterapkan daripada pola bucket waktu.

  • Anda mungkin menghabiskan lebih sedikit waktu untuk meningkatkan skema sebelum menggunakannya.

Kekurangan pola ini sering kali lebih besar daripada kelebihannya:

  • Bigtable memiliki performa yang lebih rendah dengan pola ini.

  • Data yang disimpan dengan cara ini tidak dikompresi seefisien data dalam kolom yang lebih lebar.

  • Meskipun stempel waktu berada di akhir kunci baris, pola ini dapat menghasilkan hotspot.

Kasus penggunaan untuk pola ini mencakup hal berikut:

  • Anda ingin selalu mengambil semua kolom, tetapi hanya rentang stempel waktu yang ditentukan, tetapi Anda memiliki alasan untuk tidak menyimpan data dalam struktur serial.

  • Anda ingin menyimpan peristiwa dalam jumlah yang tidak terbatas.

Dengan menggunakan data contoh balon cuaca, keluarga kolom dan penentu kolom sama dengan contoh yang menggunakan bucket waktu dan sel baru. Namun, dalam pola ini, setiap kumpulan pengukuran yang dilaporkan untuk setiap balon cuaca ditulis ke baris baru. Tabel berikut menunjukkan lima baris yang ditulis menggunakan pola ini:

Row key tekanan suhu kelembapan ketinggian
us-west2#3698#2021-03-05-1200 94558 9,6 61 612
us-west2#3698#2021-03-05-1201 94122 9,7 62 611
us-west2#3698#2021-03-05-1202 95992 9,5 58 602
us-west2#3698#2021-03-05-1203 96025 9,5 66 598
us-west2#3698#2021-03-05-1204 96021 9,6 63 624

Strategi tambahan

Jika Anda perlu mengirim beberapa kueri yang berbeda untuk set data yang sama, pertimbangkan untuk menyimpan data dalam beberapa tabel, masing-masing dengan kunci baris yang dirancang untuk salah satu kueri.

Anda juga dapat menggabungkan pola dalam beberapa kasus. Misalnya, Anda dapat menyimpan data serialisasi dalam baris yang mewakili bucket waktu, selama Anda tidak membiarkan baris menjadi terlalu besar.

Langkah selanjutnya