Sistem kisi untuk analisis spasial

Dokumen ini menjelaskan tujuan dan metode penggunaan sistem petak geospasial (seperti S2 dan H3) di BigQuery untuk mengatur data spasial di area geografis standar. Panduan ini juga menjelaskan cara memilih sistem {i>grid<i} yang tepat untuk aplikasi Anda. Dokumen ini berguna bagi siapa saja yang bekerja dengan data spasial dan melakukan analisis spasial di BigQuery.

Ringkasan dan tantangan menggunakan analisis spasial

Analisis spasial membantu menunjukkan hubungan antara entitas (toko atau rumah) dan peristiwa di ruang fisik. Analisis spasial yang menggunakan permukaan bumi sebagai ruang fisik disebut analisis geospasial. BigQuery mencakup fitur dan fungsi geospasial yang memungkinkan Anda melakukan analisis geospasial dalam skala besar.

Banyak kasus penggunaan geospasial melibatkan penggabungan data dalam area yang dilokalkan, dan membandingkan agregasi statistik area tersebut satu sama lain. Area yang dilokalkan ini direpresentasikan sebagai poligon dalam tabel database spasial. Dalam beberapa konteks, metode ini disebut geografis statistik. Metode penentuan luas area geografis perlu distandarkan untuk pelaporan, analisis, dan pengindeksan spasial yang lebih baik. Misalnya, retailer mungkin ingin menganalisis perubahan demografi dari waktu ke waktu di area tempat tokonya berada, atau di area tempat mereka mempertimbangkan untuk membangun toko baru. Atau, perusahaan asuransi mungkin ingin meningkatkan pemahaman mereka tentang risiko properti dengan menganalisis risiko bahaya alam yang terjadi di area tertentu.

Karena peraturan privasi data yang ketat di banyak area, set data yang berisi informasi lokasi perlu dide-identifikasi atau dianonimkan sebagian untuk membantu melindungi privasi individu yang diwakili dalam data. Misalnya, Anda mungkin perlu melakukan analisis risiko konsentrasi kredit geografis pada set data yang berisi data tentang pinjaman hipotek terutang. Untuk melakukan de-identifikasi set data agar sesuai untuk analisis yang sesuai, Anda perlu menyimpan informasi yang relevan tentang lokasi properti, tetapi hindari menggunakan alamat tertentu atau koordinat bujur dan lintang.

Dalam contoh sebelumnya, desainer analisis ini diberi tantangan berikut:

  • Bagaimana cara menggambar batas wilayah tempat Anda menganalisis perubahan dari waktu ke waktu?
  • Bagaimana cara menggunakan batas administratif yang ada seperti jalur sensus atau sistem petak multi-resolusi?

Dokumen ini bertujuan untuk menjawab pertanyaan-pertanyaan tersebut dengan menjelaskan setiap opsi, menjelaskan praktik terbaik, dan membantu Anda menghindari kesalahan umum.

Kesalahan umum saat memilih bidang statistik

Set data bisnis seperti penjualan properti, kampanye pemasaran, pengiriman e-commerce, dan polis asuransi cocok untuk analisis spasial. Sering kali set data ini berisi apa yang tampaknya merupakan kunci gabungan spasial yang praktis, seperti jalur sensus, kode pos, atau nama kota. Set data publik yang berisi representasi jalur sensus, kode pos, dan kota sudah tersedia, sehingga tergoda untuk digunakan sebagai batas administratif untuk agregasi statistik.

Meskipun mudah secara nominal, batas tersebut dan batas administratif lainnya memiliki kekurangan. Selain itu, batasan ini mungkin berfungsi dengan baik pada tahap awal project analisis, tetapi kekurangannya dapat dilihat pada tahap selanjutnya.

Kode pos

Kode pos digunakan untuk merutekan email di berbagai negara di seluruh dunia, dan karena adanya di mana-mana, kode pos sering digunakan untuk merujuk lokasi dan area dalam set data spasial dan non-spasial. Mengacu pada contoh sebelumnya tentang pinjaman hipotek, set data sering kali perlu dide-identifikasi sebelum analisis downstream dapat dilakukan. Karena setiap alamat properti berisi kode pos, tabel referensi kode pos dapat diakses, sehingga menjadi opsi yang praktis bagi kunci gabungan untuk analisis spasial.

Kesalahan dalam penggunaan kode pos adalah bahwa kode pos tidak direpresentasikan sebagai poligon, dan tidak ada satu sumber kebenaran yang benar untuk area kode pos. Selain itu, kode pos bukanlah representasi yang baik dari perilaku manusia yang sebenarnya. Data kode pos yang paling umum digunakan di Amerika Serikat adalah dari US Census Bureau TIGER/Line Shapefiles, yang berisi set data yang disebut ZCTA5 (Area Tabulasi Kode Pos). Set data ini mewakili perkiraan batas kode pos yang berasal dari rute pengiriman email. Namun, beberapa kode pos yang mewakili setiap bangunan tidak memiliki batas sama sekali. Masalah ini juga terjadi di negara lain, sehingga sulit untuk membuat satu tabel fakta global yang berisi kumpulan batas kode pos resmi yang dapat digunakan di seluruh sistem dan di seluruh set data.

Selain itu, tidak ada format kode pos standar yang digunakan di seluruh dunia. Sebagian berupa angka, berkisar dari tiga hingga sepuluh digit, sementara sebagian lagi adalah alfanumerik. Terjadi tumpang tindih juga antar-negara, sehingga negara asal harus disimpan di kolom terpisah beserta kode posnya. Beberapa negara tidak menggunakan kode pos, yang semakin mempersulit analisis.

Jalur sensus, kota, dan wilayah

Ada beberapa unit administratif, seperti jalur sensus, kota, dan kabupaten yang tidak memiliki batas resmi. Misalnya, batas-batas kota biasanya ditetapkan dengan baik oleh otoritas pemerintah. Jalur sensus didefinisikan dengan baik oleh US Census Bureau, dan oleh institusi analognya di sebagian besar negara lain.

Kelemahan menggunakan batas administratif ini dan batas administratif lainnya adalah batas tersebut berubah dari waktu ke waktu, dan tidak konsisten secara geografis satu sama lain. Wilayah dan kota digabungkan atau dipisahkan satu sama lain dan terkadang diganti namanya. Jalur sensus diperbarui sekali setiap dekade di Amerika Serikat, dan pada waktu yang berbeda di negara lain. Yang membingungkan, dalam beberapa kasus, batas geografis dapat berubah, tetapi ID uniknya tetap sama, sehingga sulit untuk menganalisis dan memahami perubahan dari waktu ke waktu.

Kelemahan lain yang umum pada beberapa batas administratif adalah bahwa batas tersebut merupakan wilayah terpisah tanpa hierarki geografis. Selain membandingkan setiap area dengan satu sama lain, persyaratan umumnya adalah membandingkan agregasi area itu sendiri dengan agregasi lainnya. Misalnya, retailer yang menerapkan model Huff mungkin ingin menjalankan analisis ini menggunakan beberapa jarak, yang mungkin tidak sesuai dengan wilayah administratif yang digunakan di tempat lain dalam bisnis tersebut.

Petak resolusi tunggal dan multi-resolusi

Petak resolusi tunggal terdiri dari unit terpisah yang tidak memiliki hubungan geografis dengan area lebih besar yang berisi unit-unit tersebut. Misalnya, kode pos memiliki hubungan geografis yang tidak konsisten dengan batas unit administratif yang lebih besar, seperti kota atau wilayah yang mungkin berisi kode pos. Untuk analisis spasial, penting untuk memahami bagaimana berbagai area saling terkait satu sama lain tanpa pengetahuan mendalam tentang sejarah dan legislasi yang mendefinisikan poligon area.

Grid multi-resolusi terkadang disebut petak hierarki karena sel pada setiap tingkat zoom dibagi lagi menjadi sel yang lebih kecil pada tingkat zoom yang lebih tinggi. Petak multi-resolusi terdiri dari hierarki unit yang didefinisikan dengan baik yang dimuat dalam unit yang lebih besar. Jalur sensus, misalnya, berisi grup blok, yang selanjutnya berisi blok. Hubungan hierarki yang konsisten ini dapat berguna untuk agregasi statistik. Misalnya, dengan mengambil rata-rata pendapatan dari semua grup blok yang terdapat dalam suatu jalur, Anda dapat menampilkan pendapatan rata-rata untuk jalur sensus tersebut yang berisi grup blok. Hal ini tidak mungkin dilakukan dengan kode pos karena semua area pos berada di satu resolusi. Akan sulit untuk membandingkan pendapatan suatu saluran dengan saluran di sekitarnya karena tidak ada cara standar untuk menentukan adjacency, atau membandingkan pendapatan di negara berbeda.

Sistem kisi S2 dan H3

Bagian ini memberikan gambaran umum tentang sistem kisi-kisi S2 dan H3.

S2

Geometri S2 adalah sistem petak hierarki open source yang dikembangkan oleh Google dan dirilis ke publik pada tahun 2011. Anda dapat menggunakan sistem petak S2 untuk mengatur dan mengindeks data spasial dengan menetapkan bilangan bulat 64-bit yang unik ke setiap sel. Ada 31 tingkat resolusi. Setiap sel digambarkan sebagai persegi dan dirancang untuk operasi pada geometri sferis (terkadang disebut geografi). Setiap persegi dibagi lagi menjadi empat kotak yang lebih kecil. Neighbor traversal, yang merupakan kemampuan untuk mengidentifikasi sel S2 di dekatnya, kurang didefinisikan dengan baik karena kotak dapat memiliki empat atau delapan tetangga yang relevan, tergantung pada jenis analisis. Berikut adalah contoh sel petak S2 dengan beberapa resolusi:

Contoh sel petak S2.

BigQuery menggunakan sel S2 untuk mengindeks data spasial dan menampilkan beberapa fungsi. Misalnya, S2_CELLIDFROMPOINT menampilkan ID sel S2 yang berisi titik di permukaan bumi pada tingkat yang ditentukan.

H3

H3 adalah sistem petak hierarki open source yang dikembangkan oleh Uber dan digunakan oleh Overture Maps. Ada 16 tingkat resolusi. Setiap sel direpresentasikan sebagai segi enam, dan seperti S2, setiap sel disertai bilangan bulat 64-bit yang unik. Dalam contoh tentang visualisasi sel H3 yang mencakup Teluk Meksiko, sel H3 yang lebih kecil tidak sepenuhnya termuat secara sempurna oleh sel yang lebih besar.

Setiap sel dibagi menjadi tujuh segi enam yang lebih kecil. Subdivisi tidak tepat, tetapi sudah memadai untuk banyak kasus penggunaan. Setiap sel berbagi tepi dengan enam sel yang bersebelahan, sehingga menyederhanakan traversal tetangga. Misalnya, pada setiap level, ada 12 pentagon, yang berbagi tepi dengan lima tetangga, bukan enam. Meskipun H3 tidak didukung di BigQuery, Anda dapat menambahkan dukungan H3 ke BigQuery menggunakan Toolbox Analisis Carto untuk BigQuery.

Meskipun library S2 dan H3 adalah open source dan tersedia berdasarkan lisensi Apache 2, library H3 memiliki dokumentasi yang lebih mendetail.

HEALPix

Skema tambahan untuk membuat petak pada bola dunia, yang biasa digunakan di bidang astronomi, dikenal sebagai Hierarchical Equal Area isolatitude Pixelation (HEALPix). HEALPix tidak bergantung pada kedalaman piksel hierarkis, tetapi waktu komputasinya tetap konstan.

HEALPix adalah skema pikselisasi dengan area setara hierarkis untuk bola dunia. Elemen ini digunakan untuk merepresentasikan dan menganalisis data di benda langit (atau lainnya). Selain waktu komputasi yang konstan, petak HEALPix memiliki karakteristik berikut:

  • Sel grid bersifat hierarkis, di mana hubungan induk-turunan dipertahankan.
  • Pada hierarki tertentu, sel memiliki area yang sama.
  • Sel mengikuti distribusi iso-latitude, sehingga memungkinkan performa yang lebih tinggi untuk metode spektrum.

BigQuery tidak mendukung HEALPix, tetapi ada banyak implementasi dalam berbagai bahasa, termasuk JavaScript, yang membuatnya nyaman digunakan dalam fungsi yang ditentukan pengguna (UDF) BigQuery.

Contoh kasus penggunaan untuk setiap strategi pengindeksan

Bagian ini memberikan beberapa contoh yang membantu Anda mengevaluasi sistem petak terbaik untuk kasus penggunaan Anda.

Banyak kasus penggunaan analisis dan pelaporan melibatkan visualisasi, baik sebagai bagian dari analisis itu sendiri maupun untuk pelaporan kepada pemangku kepentingan bisnis. Visualisasi ini biasanya disajikan dalam Web Mercator, yang merupakan proyeksi planar yang digunakan oleh Google Maps dan banyak aplikasi pemetaan web lainnya. Jika visualisasi memainkan peran penting, sel H3 memberikan pengalaman visualisasi yang lebih baik secara subyektif. Sel S2, terutama pada garis lintang yang lebih tinggi, cenderung tampak lebih terdistorsi daripada S3, dan tidak tampak konsisten dengan sel pada garis lintang yang lebih rendah ketika ditampilkan dalam proyeksi planar.

Sel H3 menyederhanakan implementasi di mana perbandingan tetangga memainkan peran penting dalam analisis. Misalnya, analisis komparatif antara bagian-bagian kota dapat membantu menentukan lokasi yang cocok untuk membuka toko retail atau pusat distribusi baru. Analisis ini memerlukan kalkulasi statistik untuk atribut dari sel tertentu yang dibandingkan dengan sel di sekitarnya.

Sel S2 dapat berfungsi lebih baik dalam analisis yang bersifat global, seperti analisis yang melibatkan pengukuran jarak dan sudut. Pokemon Go dari Niantic menggunakan sel S2 untuk menentukan lokasi penempatan aset game dan cara distribusinya. Properti subdivisi yang tepat dari sel S2 memastikan aset game dapat didistribusikan secara merata di seluruh dunia.

Langkah selanjutnya