Sistem petak untuk analisis spasial
Dokumen ini menjelaskan tujuan dan metode penggunaan sistem petak geospasial (seperti S2 dan H3) di BigQuery untuk mengatur data spasial di area geografis standar. Bagian ini juga menjelaskan cara memilih sistem petak yang tepat untuk aplikasi Anda. Dokumen ini berguna bagi siapa saja yang menggunakan data spasial dan melakukan analisis spasial di BigQuery.
Ringkasan dan tantangan penggunaan analisis spasial
Analisis spasial membantu menunjukkan hubungan antara entitas (toko atau rumah) dan peristiwa di ruang fisik. Analisis spasial yang menggunakan permukaan bumi sebagai ruang fisik disebut analisis geospasial. BigQuery menyertakan fitur dan fungsi geospasial yang memungkinkan Anda melakukan analisis geospasial dalam skala besar.
Banyak kasus penggunaan geospasial yang melibatkan agregasi data dalam area yang dilokalkan, dan membandingkan agregasi statistik area tersebut satu sama lain. Area lokalitas ini direpresentasikan sebagai poligon dalam tabel database spasial. Dalam beberapa konteks, metode ini disebut geografi statistik. Metode untuk menentukan cakupan area geografis perlu distandardisasi untuk pelaporan, analisis, dan pengindeksan spasial yang lebih baik. Misalnya, retailer mungkin ingin menganalisis perubahan demografi dari waktu ke waktu di area tempat toko mereka berada, atau di area tempat mereka mempertimbangkan untuk membangun toko baru. Atau, perusahaan asuransi mungkin ingin meningkatkan pemahaman mereka tentang risiko properti dengan menganalisis risiko bahaya alam yang berlaku di area tertentu.
Karena peraturan privasi data yang ketat di banyak wilayah, set data yang berisi informasi lokasi harus dihilangkan identitasnya atau disamarkan sebagian untuk membantu melindungi privasi individu yang diwakili dalam data. Misalnya, Anda mungkin perlu melakukan analisis risiko konsentrasi kredit geografis pada set data yang berisi data tentang pinjaman hipotek yang belum dibayar. Untuk menghapus identifikasi set data agar sesuai untuk analisis yang mematuhi kebijakan, Anda harus mempertahankan informasi yang relevan tentang lokasi properti, tetapi hindari penggunaan alamat atau koordinat bujur dan lintang tertentu.
Pada contoh sebelumnya, desainer analisis ini dihadapkan pada tantangan berikut:
- Bagaimana cara menggambar batas area tempat Anda menganalisis perubahan dari waktu ke waktu?
- Bagaimana cara menggunakan batas administratif yang ada seperti sensus atau sistem petak multi-resolusi?
Dokumen ini bertujuan untuk menjawab pertanyaan-pertanyaan tersebut dengan menjelaskan setiap opsi, menjelaskan praktik terbaik, dan membantu Anda menghindari kesalahan umum.
Permasalahan umum saat memilih area statistik
Set data bisnis seperti penjualan properti, kampanye pemasaran, pengiriman e-commerce, dan kebijakan asuransi cocok untuk analisis spasial. Sering kali set data ini berisi kunci join spasial yang tampaknya praktis, seperti kelurahan sensus, kode pos, atau nama kota. Set data publik yang berisi representasi sensus, kode pos, dan kota sudah tersedia, sehingga menarik untuk digunakan sebagai batas administratif untuk agregasi statistik.
Meskipun secara nominal nyaman, batas administratif ini dan lainnya memiliki kelemahan. Selain itu, batasan ini mungkin berfungsi dengan baik pada tahap awal project analisis, tetapi kekurangannya dapat terlihat pada tahap selanjutnya.
Kode pos
Kode pos digunakan untuk merutekan surat di berbagai negara di seluruh dunia, dan karena kelazimannya, sering digunakan untuk mereferensikan lokasi dan area dalam set data spasial dan non-spasial. Mengacu pada contoh sebelumnya tentang pinjaman hipotek, set data sering kali perlu dide-identifikasi sebelum analisis downstream dapat dilakukan. Karena setiap alamat properti berisi kode pos, tabel referensi kode pos dapat diakses, sehingga menjadi opsi yang mudah untuk kunci join untuk analisis spasial.
Kekurangan dalam menggunakan kode pos adalah kode pos tidak direpresentasikan sebagai poligon, dan tidak ada satu sumber tepercaya yang benar untuk area kode pos. Selain itu, kode pos bukan representasi yang baik dari perilaku manusia yang sebenarnya. Data kode pos yang paling umum digunakan di AS berasal dari US Census Bureau TIGER/Line Shapefiles, yang berisi set data bernama ZCTA5 (Zip Code Tabulation Area). Set data ini mewakili perkiraan batas kode pos yang berasal dari rute pengiriman surat. Namun, beberapa kode pos yang mewakili setiap bangunan tidak memiliki batas sama sekali. Masalah ini juga terjadi di negara lain, sehingga sulit untuk membentuk satu tabel fakta global yang berisi kumpulan batas kode pos resmi yang dapat digunakan di seluruh sistem dan set data.
Selain itu, tidak ada format kode pos standar yang digunakan di seluruh dunia. Beberapa bersifat numerik, mulai dari tiga hingga sepuluh digit, sementara yang lain bersifat alfanumerik. Ada juga tumpang-tindih antarnegara, sehingga perlu menyimpan negara asal di kolom terpisah beserta kode pos. Beberapa negara tidak menggunakan kode pos, sehingga semakin mempersulit analisis.
Jalur sensus, kota, dan wilayah
Ada beberapa unit administratif, seperti blok sensus, kota, dan county yang tidak mengalami kurangnya batas yang sah. Batas kota, misalnya, dalam sebagian besar kasus ditetapkan dengan baik oleh otoritas pemerintah. Wilayah sensus ditentukan dengan baik oleh Badan Sensus AS, dan oleh lembaga analognya di sebagian besar negara lain.
Kelemahan penggunaan batas administratif ini dan batas administratif lainnya adalah batas tersebut berubah dari waktu ke waktu, dan tidak konsisten secara geografis satu sama lain. Kabupaten dan kota bergabung atau terpisah satu sama lain dan terkadang diganti namanya. Wilayah sensus diperbarui sekali setiap dekade di Amerika Serikat, dan pada waktu yang berbeda di negara lain. Yang membingungkan, dalam beberapa kasus, batas geografis dapat berubah, tetapi ID uniknya tetap sama, sehingga sulit untuk menganalisis dan memahami perubahan dari waktu ke waktu.
Kelemahan lain yang umum untuk beberapa batas administratif adalah batas tersebut adalah area terpisah tanpa hierarki geografis. Selain membandingkan setiap area satu sama lain, persyaratan umum adalah membandingkan agregasi area itu sendiri dengan agregasi lainnya. Misalnya, retailer yang menerapkan model Huff mungkin ingin menjalankan analisis ini menggunakan beberapa jarak, yang mungkin tidak sesuai dengan area administratif yang digunakan di tempat lain dalam bisnis.
Petak resolusi tunggal dan multi-resolusi
Petak resolusi tunggal terdiri dari unit terpisah yang tidak memiliki hubungan geografis dengan area yang lebih besar yang berisi unit tersebut. Misalnya, kode pos memiliki hubungan geografis yang tidak konsisten dengan batas unit administratif yang lebih besar, seperti kota atau county yang mungkin berisi kode pos. Untuk analisis spasial, penting untuk memahami bagaimana berbagai area saling terkait tanpa pengetahuan mendalam tentang sejarah dan legislasi yang menentukan poligon area.
Petak multi-resolusi terkadang disebut petak hierarkis karena sel pada setiap tingkat zoom dibagi lagi menjadi sel yang lebih kecil pada tingkat zoom yang lebih tinggi. Petak multi-resolusi terdiri dari hierarki unit yang ditentukan dengan baik yang berisi dalam unit yang lebih besar. Misalnya, blok sensus berisi grup blok, yang pada gilirannya berisi blok. Hubungan hierarkis yang konsisten ini dapat berguna untuk agregasi statistik. Misalnya, dengan mengambil rata-rata pendapatan dari semua grup blok yang terdapat dalam blok sensus, Anda dapat menampilkan rata-rata pendapatan untuk blok sensus tersebut yang berisi grup blok. Hal ini tidak akan mungkin dengan kode pos karena semua area pos berada di satu resolusi. Akan sulit untuk membandingkan pendapatan suatu wilayah dengan wilayah di sekitarnya karena tidak ada cara standar untuk menentukan kedekatan, atau membandingkan pendapatan di berbagai negara.
Sistem petak S2 dan H3
Bagian ini memberikan ringkasan tentang sistem petak S2 dan H3.
S2
Geometri S2 adalah sistem petak hierarkis open source yang dikembangkan oleh Google dan dirilis untuk publik pada tahun 2011. Anda dapat menggunakan sistem petak S2 untuk mengatur dan mengindeks data spasial dengan menetapkan bilangan bulat 64-bit unik ke setiap sel. Ada 31 tingkat resolusi. Setiap sel direpresentasikan sebagai persegi dan dirancang untuk operasi pada geometri sfera (terkadang disebut geografi). Setiap kotak dibagi lagi menjadi empat kotak yang lebih kecil. Pelacakan tetangga, yang merupakan kemampuan untuk mengidentifikasi sel S2 tetangga, kurang ditentukan dengan baik karena kotak dapat memiliki empat atau delapan tetangga yang relevan, bergantung pada jenis analisis. Berikut adalah contoh sel petak S2 multi-resolusi:
BigQuery menggunakan sel S2 untuk mengindeks data spasial dan mengekspos beberapa fungsi. Misalnya, S2_CELLIDFROMPOINT
menampilkan ID sel S2 yang berisi titik di permukaan bumi pada tingkat tertentu.
H3
H3 adalah sistem petak hierarkis open source yang dikembangkan oleh Uber dan digunakan oleh Overture Maps. Ada 16 tingkat resolusi. Setiap sel direpresentasikan sebagai segi enam, dan seperti S2, setiap sel diberi bilangan bulat 64-bit yang unik. Dalam contoh tentang visualisasi sel H3 yang mencakup Teluk Meksiko, sel H3 yang lebih kecil tidak sepenuhnya tercakup oleh sel yang lebih besar.
Setiap sel dibagi lagi menjadi tujuh segi enam yang lebih kecil. Subdivisi ini tidak tepat, tetapi memadai untuk banyak kasus penggunaan. Setiap sel memiliki tepi yang sama dengan enam sel tetangga, sehingga menyederhanakan penelusuran tetangga. Misalnya, di setiap level, ada 12 pentagon, yang berbagi tepi dengan lima tetangga, bukan enam. Meskipun H3 tidak didukung di BigQuery, Anda dapat menambahkan dukungan H3 ke BigQuery menggunakan Carto Analytics Toolbox untuk BigQuery.
Meskipun library S2 dan H3 bersifat open source dan tersedia berdasarkan lisensi Apache 2, library H3 memiliki dokumentasi yang lebih mendetail.
HEALPix
Skema tambahan untuk membuat petak bola, yang biasa digunakan di bidang astronomi, dikenal sebagai Hierarchical Equal Area isoLatitude Pixelation (HEALPix). HEALPix tidak bergantung pada kedalaman piksel hierarkis, tetapi waktu komputasi tetap konstan.
HEALPix adalah skema pikselisasi area yang sama hierarkis untuk bola. Fungsi ini digunakan untuk merepresentasikan dan menganalisis data pada bola langit (atau lainnya). Selain waktu komputasi yang konstan, petak HEALPix memiliki karakteristik berikut:
- Sel petak bersifat hierarkis, dengan hubungan induk-turunan dipertahankan.
- Pada hierarki tertentu, sel memiliki area yang sama.
- Sel mengikuti distribusi iso-lintang, sehingga memungkinkan performa yang lebih tinggi untuk metode spektral.
BigQuery tidak mendukung HEALPix, tetapi ada banyak implementasi di berbagai bahasa, termasuk JavaScript, yang membuatnya mudah digunakan dalam fungsi yang ditentukan pengguna (UDF) BigQuery.
Contoh kasus penggunaan untuk setiap strategi pengindeksan
Bagian ini memberikan beberapa contoh yang membantu Anda mengevaluasi sistem grid terbaik untuk kasus penggunaan Anda.
Banyak kasus penggunaan analisis dan pelaporan melibatkan visualisasi, baik sebagai bagian dari analisis itu sendiri maupun untuk pelaporan kepada pemangku kepentingan bisnis. Visualisasi ini biasanya ditampilkan dalam Web Mercator, yaitu proyeksi planar yang digunakan oleh Google Maps dan banyak aplikasi pemetaan web lainnya. Jika visualisasi memainkan peran penting, sel H3 akan memberikan pengalaman visualisasi yang secara subjektif lebih baik. Sel S2, terutama pada lintang yang lebih tinggi, cenderung tampak lebih terdistorsi daripada H3, dan tidak tampak konsisten dengan sel lintang yang lebih rendah saat ditampilkan dalam proyeksi planar.
Sel H3 menyederhanakan penerapan dengan perbandingan tetangga memainkan peran penting dalam analisis. Misalnya, analisis komparatif antara bagian kota dapat membantu menentukan lokasi mana yang cocok untuk membuka toko retail atau pusat distribusi baru. Analisis ini memerlukan penghitungan statistik untuk atribut sel tertentu yang dibandingkan dengan sel di sekitarnya.
Sel S2 dapat berfungsi lebih baik dalam analisis yang bersifat global, seperti analisis yang melibatkan pengukuran jarak dan sudut. Pokemon Go oleh Niantic menggunakan sel S2 untuk menentukan tempat aset game ditempatkan dan cara aset tersebut didistribusikan. Properti subdivisi yang tepat dari sel S2 memastikan bahwa aset game dapat didistribusikan secara merata di seluruh dunia.
Langkah selanjutnya
- Untuk praktik terbaik terkait pengelompokan spasial, lihat Pengelompokan Spasial di BigQuery - Praktik Terbaik.
- Pelajari cara membuat hierarki spasial dari data yang tidak sempurna.
- Pelajari geometri S2 di GitHub.
- Pelajari geometri H3 di GitHub.
- Lihat contoh yang menggunakan H3, BigQuery, dan Earth Engine.