Ringkasan Bigtable
Bigtable adalah tabel yang jarang diisi data, yang dapat diskalakan hingga miliaran baris dan ribuan kolom, sehingga Anda dapat menyimpan terabyte atau bahkan petabyte data. Satu nilai di setiap baris terindeks; nilai ini dikenal sebagai kunci baris. Bigtable ideal untuk menyimpan data dengan satu kunci dalam jumlah besar dengan latensi rendah. Bigtable mendukung throughput baca dan tulis yang tinggi dengan latensi rendah, serta merupakan sumber data yang ideal untuk operasi MapReduce.
Bigtable diekspos ke aplikasi melalui beberapa library klien, termasuk ekstensi yang didukung ke library Apache HBase untuk Java. Akibatnya, Cloud Bigtable terintegrasi dengan ekosistem Apache yang ada dari software big data open source.
Server backend Bigtable yang andal menawarkan beberapa keunggulan utama dibandingkan dengan penginstalan HBase yang dikelola sendiri:
- Skalabilitas yang luar biasa. Bigtable diskalakan secara proporsional langsung dengan jumlah mesin di cluster Anda. Penginstalan HBase mandiri memiliki bottleneck desain yang membatasi performa setelah nilai minimum tertentu tercapai. Bigtable tidak memiliki bottleneck ini, sehingga Anda dapat menskalakan cluster untuk menangani lebih banyak operasi baca dan tulis.
- Administrasi yang sederhana. Bigtable menangani upgrade dan memulai ulang secara transparan, dan secara otomatis mempertahankan ketahanan data yang tinggi. Untuk mereplikasi data, tambahkan cluster kedua ke instance, dan replikasi akan dimulai secara otomatis. Tidak perlu lagi mengelola replika atau region; cukup desain skema tabel Anda, dan Bigtable akan menangani sisanya untuk Anda.
- Pengubahan ukuran cluster tanpa periode nonaktif. Anda dapat meningkatkan ukuran cluster Bigtable selama beberapa jam untuk menangani beban yang besar, lalu mengurangi ukuran cluster lagi—semuanya tanpa periode nonaktif. Setelah Anda mengubah ukuran cluster, biasanya hanya perlu waktu beberapa menit saat beban tinggi agar Bigtable menyeimbangkan performa di semua node dalam cluster Anda.
Efektif untuk
Bigtable ideal untuk aplikasi yang memerlukan throughput dan skalabilitas tinggi untuk data nilai kunci, dengan setiap nilai biasanya tidak lebih besar dari 10 MB. Bigtable juga unggul sebagai mesin penyimpanan untuk operasi MapReduce batch, pemrosesan/analisis streaming, dan aplikasi machine learning.
Anda dapat menggunakan Bigtable untuk menyimpan dan membuat kueri semua jenis data berikut:
- Data deret waktu, seperti penggunaan CPU dan memori dari waktu ke waktu untuk beberapa server.
- Data pemasaran, seperti histori pembelian dan preferensi pelanggan.
- Data keuangan, seperti histori transaksi, harga saham, dan nilai tukar mata uang.
- Data Internet of Things, seperti laporan penggunaan dari pengukur energi dan peralatan rumah tangga.
- Data grafik, seperti informasi tentang cara pengguna terhubung satu sama lain.
Model penyimpanan Bigtable
Bigtable menyimpan data dalam tabel yang sangat skalabel, yang masing-masing merupakan peta nilai kunci yang diurutkan. Tabel terdiri dari baris, yang masing-masing biasanya menjelaskan satu entitas, dan kolom, yang berisi nilai individu untuk setiap baris. Setiap baris diindeks oleh satu row key, dan kolom yang terkait satu sama lain biasanya dikelompokkan ke dalam grup kolom. Setiap kolom diidentifikasi dengan kombinasi grup kolom dan penentu kolom, yang merupakan nama unik dalam grup kolom.
Setiap persimpangan baris dan kolom dapat berisi beberapa sel. Setiap sel berisi versi data dengan stempel waktu unik untuk baris dan kolom tersebut. Menyimpan beberapa sel dalam kolom memberikan catatan tentang bagaimana data yang disimpan untuk baris dan kolom tersebut telah berubah dari waktu ke waktu. Tabel Bigtable bersifat renggang; jika kolom tidak digunakan di baris tertentu, kolom tersebut tidak akan memakan ruang.
Beberapa hal yang perlu diperhatikan dalam ilustrasi ini:
- Kolom dapat tidak digunakan dalam baris.
- Setiap sel dalam baris dan kolom tertentu memiliki stempel waktu (t) yang unik.
Arsitektur Bigtable
Diagram berikut menunjukkan versi sederhana dari keseluruhan arsitektur Bigtable:
Seperti yang diilustrasikan dalam diagram, semua permintaan klien akan melalui server frontend sebelum dikirim ke node Bigtable. (Dalam makalah Bigtable asli, node ini disebut "server tablet".) Node diatur ke dalam cluster Bigtable, yang merupakan bagian dari instance Bigtable, yaitu penampung untuk cluster.
Setiap node dalam cluster menangani subkumpulan permintaan ke cluster. Dengan menambahkan node ke cluster, Anda dapat meningkatkan jumlah permintaan serentak yang dapat ditangani cluster. Menambahkan node juga akan meningkatkan throughput maksimum untuk cluster. Jika mengaktifkan replikasi dengan menambahkan cluster tambahan, Anda juga dapat mengirim berbagai jenis traffic ke cluster yang berbeda. Kemudian, jika satu cluster tidak tersedia, Anda dapat melakukan failover ke cluster lain.
Tabel Bigtable di-sharding menjadi blok baris yang berdekatan, yang disebut tablet, untuk membantu menyeimbangkan beban kerja kueri. (Tablet mirip dengan region HBase.) Tablet disimpan di Colossus, sistem file Google, dalam format SSTable. SSTable menyediakan peta persisten yang tersusun dan tidak dapat diubah dari kunci ke nilai, di mana kunci dan nilai adalah string byte arbitrer. Setiap tablet dikaitkan dengan node Bigtable tertentu. Selain file SSTable, semua operasi tulis disimpan dalam log bersama Colossus segera setelah dikonfirmasi oleh Bigtable, sehingga meningkatkan ketahanan.
Yang penting, data tidak pernah disimpan di node Bigtable itu sendiri; setiap node memiliki pointer ke kumpulan tablet yang disimpan di Colossus. Akibatnya:
- Penyeimbangan ulang tablet dari satu node ke node lain terjadi dengan cepat, karena data sebenarnya tidak disalin. Bigtable memperbarui pointer untuk setiap node.
- Pemulihan dari kegagalan node Bigtable berlangsung cepat, karena hanya metadata yang harus dimigrasikan ke node pengganti.
- Jika node Bigtable gagal, tidak ada data yang hilang.
Lihat Instance, Cluster, dan Node untuk mengetahui informasi selengkapnya tentang cara menggunakan elemen penyusun dasar ini.
Load balancing
Setiap zona Bigtable dikelola oleh proses utama, yang menyeimbangkan beban kerja dan volume data dalam cluster. Proses ini membagi tablet yang lebih sibuk atau lebih besar menjadi dua dan menggabungkan tablet yang lebih jarang diakses/lebih kecil, mendistribusikannya ulang di antara node sesuai kebutuhan. Jika tablet tertentu mengalami lonjakan traffic, Bigtable akan membagi tablet menjadi dua, lalu memindahkan salah satu tablet baru ke node lain. Bigtable mengelola pemisahan, penggabungan, dan penyeimbangan ulang secara otomatis, sehingga Anda tidak perlu lagi mengelola tablet secara manual. Memahami performa memberikan detail selengkapnya tentang proses ini.
Untuk mendapatkan performa operasi tulis terbaik dari Bigtable, penting untuk mendistribusikan operasi tulis secara merata di seluruh node. Salah satu cara untuk mencapai tujuan ini adalah dengan menggunakan kunci baris yang tidak mengikuti urutan yang dapat diprediksi. Misalnya, nama pengguna cenderung didistribusikan secara merata di seluruh alfabet, sehingga menyertakan nama pengguna di awal kunci baris akan cenderung mendistribusikan operasi tulis secara merata.
Pada saat yang sama, sebaiknya kelompokkan baris terkait sehingga baris tersebut berada di samping satu
sama lain, yang akan membuat pembacaan beberapa baris secara bersamaan jauh lebih
efisien. Misalnya, jika Anda menyimpan berbagai jenis data cuaca dari waktu ke waktu,
kunci baris Anda mungkin adalah lokasi tempat data dikumpulkan, diikuti dengan
stempel waktu (misalnya, WashingtonDC#201803061617
). Jenis kunci baris ini akan
mengelompokkan semua data dari satu lokasi ke dalam rentang baris yang berdekatan. Untuk
lokasi lain, baris akan dimulai dengan ID yang berbeda; dengan banyak
lokasi yang mengumpulkan data dengan kecepatan yang sama, operasi tulis akan tetap tersebar secara merata
di seluruh tablet.
Lihat Memilih kunci baris untuk mengetahui detail selengkapnya tentang cara memilih kunci baris yang sesuai untuk data Anda.
Jenis data yang didukung
Bigtable memperlakukan semua data sebagai string byte mentah untuk sebagian besar tujuan. Satu-satunya waktu Bigtable mencoba menentukan jenisnya adalah untuk operasi penambahan, dengan target harus berupa bilangan bulat 64-bit yang dienkode sebagai nilai big-endian 8 byte.
Penggunaan memori dan disk
Bagian berikut menjelaskan pengaruh beberapa komponen Bigtable terhadap penggunaan memori dan disk untuk instance Anda.
Kolom yang tidak digunakan
Kolom yang tidak digunakan di baris Bigtable tidak akan menggunakan ruang apa pun di baris tersebut. Setiap baris pada dasarnya adalah kumpulan entri nilai kunci, dengan kunci adalah kombinasi dari grup kolom, penentu kolom, dan stempel waktu. Jika baris tidak menyertakan nilai untuk kolom tertentu, entri nilai kunci tidak ada.
Penentu kolom
Penentu kolom menggunakan ruang dalam baris, karena setiap penentu kolom yang digunakan dalam baris disimpan dalam baris tersebut. Akibatnya, sering kali lebih efisien untuk menggunakan penentu kolom sebagai data.
Untuk informasi selengkapnya tentang penentu kolom, lihat Kolom.
Pemadatan
Bigtable secara berkala menulis ulang tabel untuk menghapus entri yang dihapus, dan mengatur ulang data Anda sehingga pembacaan dan penulisan menjadi lebih efisien. Proses ini dikenal sebagai pengompresian. Tidak ada setelan konfigurasi untuk pemadatan—Bigtable memadatkan data Anda secara otomatis.
Mutasi dan penghapusan
Mutasi, atau perubahan, pada baris akan menghabiskan ruang penyimpanan tambahan, karena Bigtable menyimpan mutasi secara berurutan dan hanya memadatkannya secara berkala. Saat Bigtable memadatkan tabel, Bigtable akan menghapus nilai yang tidak diperlukan lagi. Jika Anda memperbarui nilai dalam sel, nilai asli dan nilai baru akan disimpan di disk selama beberapa waktu hingga data dikompresi.
Penghapusan juga menghabiskan ruang penyimpanan tambahan, setidaknya dalam jangka pendek, karena penghapusan sebenarnya adalah jenis mutasi khusus. Hingga tabel dikompresi, penghapusan akan menggunakan penyimpanan ekstra, bukan mengosongkan ruang.
Kompresi data
Bigtable mengompresi data Anda secara otomatis menggunakan algoritma cerdas. Anda tidak dapat mengonfigurasi setelan kompresi untuk tabel. Namun, sebaiknya ketahui cara menyimpan data agar dapat dikompresi secara efisien:
- Data acak tidak dapat dikompresi seefisien data berpola. Data berpola mencakup teks, seperti halaman yang sedang Anda baca saat ini.
- Kompresi berfungsi paling baik jika nilai yang identik berada di dekat satu sama lain, baik di baris yang sama maupun di baris yang berdekatan. Jika Anda mengatur kunci baris sehingga baris dengan potongan data yang identik berada di samping satu sama lain, data dapat dikompresi secara efisien.
- Bigtable mengompresi nilai yang berukuran hingga 1 MiB. Jika Anda menyimpan nilai yang lebih besar dari 1 MiB, kompresi sebelum menulisnya ke Bigtable, sehingga Anda dapat menghemat siklus CPU, memori server, dan bandwidth jaringan.
Ketahanan data
Saat Anda menggunakan Bigtable, data Anda disimpan di Colossus, sistem file internal Google yang sangat tahan lama, menggunakan perangkat penyimpanan di pusat data Google. Anda tidak perlu menjalankan cluster HDFS atau sistem file lainnya untuk menggunakan Bigtable. Di balik layar, Google menggunakan metode penyimpanan eksklusif untuk mencapai ketahanan data di atas dan di luar yang disediakan oleh replika tiga arah HDFS standar.
Ketahanan lebih ditingkatkan saat menggunakan replikasi. Bigtable menyimpan salinan data Anda secara terpisah di lokasi yang Anda pilih untuk setiap cluster instance yang direplikasi.
Model konsistensi
Instance Bigtable cluster tunggal memberikan konsistensi yang kuat. Secara default, instance yang memiliki lebih dari satu cluster memberikan konsistensi tertunda, tetapi untuk beberapa kasus penggunaan, instance tersebut dapat dikonfigurasi untuk memberikan konsistensi baca-tulis atau konsistensi kuat, bergantung pada beban kerja dan setelan profil aplikasi.
Keamanan
Akses ke tabel Bigtable Anda dikontrol oleh project Google Cloud dan peran Identity and Access Management (IAM) yang Anda tetapkan untuk pengguna. Misalnya, Anda dapat menetapkan peran IAM yang mencegah setiap pengguna membaca dari tabel, menulis ke tabel, atau membuat instance baru. Jika seseorang tidak memiliki akses ke project Anda atau tidak memiliki peran IAM dengan izin yang sesuai untuk Bigtable, orang tersebut tidak dapat mengakses tabel Anda.
Anda juga dapat mengontrol akses ke data tabel dengan membuat tampilan yang diotorisasi dari tabel yang mewakili subset data tabel. Kemudian, Anda dapat memberikan izin tingkat tampilan yang diizinkan kepada beberapa pengguna tanpa memberikan izin tingkat tabel.
Anda dapat mengelola keamanan di level project, instance, tabel, atau tampilan yang diotorisasi. Bigtable tidak mendukung pembatasan keamanan tingkat baris, tingkat kolom, atau tingkat sel.
Enkripsi
Secara default, semua data yang disimpan dalam Google Cloud, termasuk data dalam tabel Bigtable, dienkripsi dalam penyimpanan menggunakan sistem pengelolaan kunci yang telah melalui proses hardening yang sama dengan yang kami gunakan untuk data terenkripsi kami sendiri.
Jika Anda menginginkan kontrol lebih besar atas kunci yang digunakan untuk mengenkripsi data Bigtable dalam penyimpanan, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK).
Cadangan
Cadangan Bigtable memungkinkan Anda menyimpan salinan skema dan data tabel, lalu memulihkannya ke tabel baru di lain waktu. Dengan menggunakan cadangan dan salinan cadangan, Anda dapat memulihkan ke tabel baru di region atau project mana pun tempat Anda memiliki instance Bigtable, terlepas dari lokasi tabel sumber.
Pengambilan data perubahan
Bigtable menyediakan pengambilan data perubahan (CDC) dalam bentuk aliran perubahan. Aliran perubahan memungkinkan Anda mengambil dan men-streaming perubahan data ke tabel saat perubahan terjadi. Anda dapat membaca aliran perubahan menggunakan layanan seperti Dataflow untuk mendukung kasus penggunaan, termasuk analisis data, audit, persyaratan pengarsipan, dan memicu logika aplikasi downstream. Untuk mengetahui informasi selengkapnya, lihat Ringkasan aliran perubahan.
Meminta pemilihan rute dengan profil aplikasi
Kebijakan perutean profil aplikasi memungkinkan Anda mengontrol cluster mana yang menangani permintaan masuk dari aplikasi Anda. Opsi untuk kebijakan pemilihan rute meliputi:
- Pemilihan rute cluster tunggal: mengirim semua permintaan ke satu cluster.
- Pemilihan rute multi-cluster ke cluster mana pun: mengirim permintaan ke cluster terdekat yang tersedia dalam instance, termasuk opsi berikut:
- Cluster mana pun: cluster mana pun di instance dapat menerima permintaan.
- Pemilihan rute grup cluster: grup cluster tertentu dalam instance dapat menerima permintaan.
Opsi penyimpanan dan database lainnya
Bigtable bukanlah database relasional tradisional. Meskipun mendukung kueri SQL, kasus penggunaan tertentu mungkin lebih cocok untuk opsi database lain.
- Jika Anda memerlukan kueri interaktif dalam sistem pemrosesan analisis online (OLAP), pertimbangkan BigQuery.
- Jika Anda harus menyimpan objek yang sangat terstruktur dalam database dokumen, dengan dukungan untuk transaksi ACID dan kueri mirip SQL, pertimbangkan Firestore.
- Untuk penyimpanan data dalam memori dengan latensi rendah, pertimbangkan Memorystore.
- Untuk menyinkronkan data antarpengguna secara real-time, pertimbangkan Firebase Realtime Database.
Untuk informasi selengkapnya tentang opsi database lainnya, lihat ringkasan layanan database. Google Cloud juga memiliki berbagai opsi penyimpanan.
Langkah selanjutnya
- Coba panduan memulai Bigtable menggunakan
cbt
CLI, alat command line untuk Bigtable. - Selesaikan codelab Bigtable.
- Pelajari lebih lanjut instance, cluster, dan node Bigtable.
- Pelajari cara membuat instance Bigtable.
- Pelajari library klien untuk Cloud Bigtable.
- Baca makalah OSDI asli tentang Bigtable.