Fitur set data Insight Penyimpanan membantu Anda memahami, mengatur, dan mengelola data dalam skala besar. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang ingin Anda perbarui metadatanya. Indeks metadata yang dapat dikueri untuk bucket dan objek yang disertakan dalam project tersebut, tersedia sebagai set data tertaut BigQuery.
Jika Anda ingin mendapatkan insight untuk resource Cloud Storage yang diekspor ke BigQuery, gunakan set data Storage Insights. Insight ini dapat membantu Anda dalam eksplorasi data, pengoptimalan biaya, penerapan keamanan, dan implementasi tata kelola. Set data Storage Insights adalah fitur eksklusif yang hanya tersedia melalui langganan Storage Intelligence.
Ringkasan
Set data Storage Insights adalah snapshot bergulir metadata untuk semua bucket dan objek dalam satu atau beberapa project sumber yang ditentukan dalam organisasi. Informasi yang diberikan oleh set data memungkinkan Anda memahami dan mengaudit data Cloud Storage secara rutin dengan lebih baik.
Untuk membuat set data, Anda harus membuat konfigurasi set data terlebih dahulu dalam project. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang ingin Anda lihat metadatanya. Konfigurasi set data membuat set data setiap hari. Konfigurasi set data dan set data adalah resource yang disimpan dalam Cloud Storage.
Untuk melihat set data, Anda harus menautkan set data ke BigQuery terlebih dahulu.
Properti konfigurasi set data
Saat membuat konfigurasi set data, Anda menetapkan properti set data ini. Anda mungkin memerlukan waktu hingga 48 jam untuk melihat data pertama yang diisi sebagai set data tertaut di BigQuery setelah mengonfigurasi set data. Setiap objek atau bucket yang baru ditambahkan akan disertakan dalam snapshot harian berikutnya.
Nama: nama yang digunakan untuk merujuk set data. Nama digunakan sebagai ID konfigurasi set data dan tidak dapat diubah setelah konfigurasi dibuat. Nama berisi hingga 128 karakter menggunakan huruf, angka, dan garis bawah. Nama harus diawali dengan huruf.
Deskripsi (opsional): deskripsi set data. Anda dapat mengedit deskripsi kapan saja.
Cakupan set data: kolom wajib diisi yang menentukan organisasi, project, atau folder yang berisi bucket dan objek yang metadatanya Anda inginkan. Anda dapat menentukan project atau folder satu per satu atau sebagai file CSV, dengan setiap nomor project atau folder pada baris terpisah. Anda dapat menentukan hingga 10.000 project atau folder dalam satu konfigurasi set data. Set data dikonfigurasi untuk cakupan set data yang ditentukan. Hanya satu cakupan set data yang dapat ditentukan untuk setiap konfigurasi set data. Anda dapat memperbarui cakupan set data saat mengedit konfigurasi set data.
Filter bucket (opsional): filter yang digunakan untuk menyertakan dan mengecualikan bucket tertentu dari set data menurut nama bucket atau menurut wilayah.
Periode retensi data: jumlah hari saat set data mengambil dan menyimpan data, termasuk tanggal pembuatan set data. Kumpulan data diperbarui dengan metadata setiap 24 jam dan dapat menyimpan data hingga 90 hari. Data yang diambil di luar periode retensi akan otomatis dihapus. Misalnya, Anda memiliki set data yang dibuat pada 1 Oktober 2023 dengan periode retensi yang ditetapkan ke 30. Pada 30 Oktober, set data akan mencerminkan data 30 hari terakhir, dari 1 Oktober hingga 30 Oktober. Pada 31 Oktober, set data akan mencerminkan data dari 2 Oktober hingga 31 Oktober. Anda dapat mengubah jangka waktu retensi kapan saja.
Lokasi: lokasi untuk menyimpan set data dan datanya. Contoh,
us-central1
. Lokasi harus didukung oleh BigQuery. Sebaiknya pilih lokasi tabel BigQuery Anda, jika Anda memilikinya.Jenis agen layanan: agen layanan cakupan konfigurasi atau agen layanan cakupan project.
Membuat konfigurasi set data akan menyediakan agen layanan untuk Anda. Untuk membaca dan menulis set data, agen layanan harus diberi izin yang diperlukan.
Agen layanan cakupan project dapat mengakses dan menulis set data yang dihasilkan dari semua konfigurasi set data dalam project. Misalnya, jika Anda memiliki beberapa konfigurasi set data dalam project, Anda hanya perlu memberikan izin yang diperlukan kepada agen layanan yang tercakup dalam project satu kali agar ia dapat membaca dan menulis set data untuk semua konfigurasi set data dalam project. Jika konfigurasi set data dihapus, agen layanan cakupan project tidak akan dihapus.
Agen layanan cakupan konfigurasi hanya dapat mengakses dan menulis set data yang dihasilkan oleh konfigurasi set data tertentu. Artinya, jika Anda memiliki beberapa konfigurasi set data, Anda harus memberikan izin yang diperlukan kepada setiap agen layanan yang tercakup dalam konfigurasi. Jika konfigurasi set data dihapus, agen layanan yang tercakup dalam konfigurasi akan dihapus.
Tautkan set data ke BigQuery setelah membuat konfigurasi set data. Menautkan set data ke BigQuery akan membuat set data tertaut di BigQuery untuk kueri. Anda dapat menautkan atau membatalkan tautan set data kapan saja.
Untuk mengetahui informasi selengkapnya tentang properti yang Anda tetapkan saat membuat atau memperbarui konfigurasi set data, lihat resource DatasetConfigs di dokumentasi JSON API.
Lokasi yang didukung
Lokasi BigQuery berikut didukung untuk membuat set data tertaut:
EU
US
asia-southeast1
europe-west1
us-central1
us-east1
us-east4
Skema metadata set data
Bagian berikut menjelaskan kolom metadata yang disertakan dalam set data. Untuk mengetahui informasi selengkapnya tentang mode kolom BigQuery, lihat Mode. Mode kolom menentukan cara BigQuery menyimpan dan mengkueri data.
Metadata bucket
Tabel berikut menjelaskan kolom metadata bucket:
Kolom metadata | Mode | Jenis | Deskripsi |
---|---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
Kolom snapshotTime menyimpan waktu refresh snapshot metadata bucket dalam format RFC 3339. |
name |
NULLABLE |
STRING |
Nama bucket. |
location |
NULLABLE |
STRING |
Lokasi bucket. Data objek untuk objek dalam bucket berada di penyimpanan fisik dalam lokasi ini. |
project |
NULLABLE |
INTEGER |
Nomor project dari project yang memiliki bucket. |
storageClass |
NULLABLE |
STRING |
Kelas penyimpanan default bucket. |
public |
NULLABLE |
RECORD |
Tidak digunakan lagi. Kolom ini menunjukkan apakah bucket dapat diakses secara publik. Gunakan iamConfiguration sebagai gantinya. |
public.bucketPolicyOnly |
NULLABLE |
BOOLEAN |
Tidak digunakan lagi. Kolom ini, yang merupakan bagian dari rekaman public , menunjukkan apakah akses level bucket yang seragam diaktifkan, yang mencegah pemberian akses melalui ACL level objek. |
public.publicAccessPrevention |
NULLABLE |
STRING |
Tidak digunakan lagi. Kolom ini, yang merupakan bagian dari rekaman public , menunjukkan apakah akses publik ke bucket dicegah. |
autoclass |
NULLABLE |
RECORD |
Konfigurasi Autoclass bucket, yang, jika diaktifkan, mengontrol kelas penyimpanan objek berdasarkan cara dan waktu objek diakses. |
autoclass.enabled |
NULLABLE |
BOOLEAN |
Apakah Autoclass diaktifkan atau tidak. |
autoclass.toggleTime |
NULLABLE |
TIMESTAMP |
Waktu saat Autoclass terakhir kali diaktifkan atau dinonaktifkan untuk bucket ini, dalam format RFC 3339. |
versioning |
NULLABLE |
BOOLEAN |
Apakah bucket mengaktifkan pembuatan versi atau tidak. Untuk mengetahui informasi selengkapnya, lihat Pembuatan Versi Objek. |
lifecycle |
NULLABLE |
BOOLEAN |
Apakah bucket memiliki konfigurasi siklus proses atau tidak. Lihat pengelolaan siklus proses untuk mengetahui informasi selengkapnya. |
metageneration |
NULLABLE |
INTEGER |
Pembuatan metadata bucket ini. |
timeCreated |
NULLABLE |
TIMESTAMP |
Waktu pembuatan bucket dalam format RFC 3339. |
tags |
NULLABLE |
RECORD |
Tidak digunakan lagi. Kolom ini berisi key-value pair yang ditentukan pengguna dan terkait dengan bucket. Sebagai gantinya, gunakan tag resource. |
tags.lastUpdatedTime |
NULLABLE |
TIMESTAMP |
Tidak digunakan lagi. Kolom ini, yang merupakan bagian dari rekaman tags , menunjukkan waktu terakhir kali tag diperbarui. |
tags.tagMap |
REPEATED |
RECORD |
Tidak digunakan lagi. Kolom ini, yang merupakan bagian dari rekaman tags , berisi peta kunci dan nilai tag. |
tags.tagMap.key |
NULLABLE |
STRING |
Tidak digunakan lagi. Kolom ini, yang merupakan bagian dari rekaman tags.tagMap , merepresentasikan kunci tag. |
tags.tagMap.value |
NULLABLE |
STRING |
Tidak digunakan lagi. Kolom ini, yang merupakan bagian dari rekaman tags.tagMap , menampilkan nilai tag. |
labels |
REPEATED |
RECORD |
Label keranjang yang disediakan pengguna, dalam pasangan nilai kunci. |
labels.key |
NULLABLE |
STRING |
Entri label individual. |
labels.value |
NULLABLE |
STRING |
Nilai label. |
softDeletePolicy |
NULLABLE |
OBJECT |
Kebijakan penghapusan sementara bucket, yang menentukan jangka waktu selama objek dalam bucket dipertahankan dalam status dihapus sementara setelah dihapus. Objek dalam status dihapus sementara tidak dapat dihapus secara permanen, dan dapat dipulihkan hingga hardDeleteTime . |
softDeletePolicy.effectiveTime |
NULLABLE |
DATETIME |
Tanggal dan waktu saat kebijakan penghapusan sementara mulai berlaku, dalam format RFC 3339.
|
softDeletePolicy.retentionDurationSeconds |
NULLABLE |
LONG |
Periode waktu selama objek yang dihapus sementara dipertahankan dan tidak dapat dihapus secara permanen, dalam detik. Nilai harus lebih besar dari atau sama dengan 604800 (7 hari) dan kurang dari 7776000 (90 hari). Nilai juga dapat ditetapkan ke 0 , yang menonaktifkan kebijakan penghapusan sementara. |
iamConfiguration |
NULLABLE |
RECORD |
Konfigurasi IAM untuk bucket. |
iamConfiguration.uniformBucketLevelAccess |
NULLABLE |
RECORD |
Konfigurasi akses level bucket yang seragam bucket. |
iamConfiguration.uniformBucketLevelAccess.enabled |
NULLABLE |
BOOLEAN |
Apakah bucket menggunakan akses level bucket yang seragam atau tidak. |
iamConfiguration.publicAccessPrevention |
NULLABLE |
STRING |
Status pencegahan akses publik bucket, yaitu "inherited" atau "enforced" . |
resourceTags |
REPEATED |
RECORD |
Tag bucket. Untuk mengetahui informasi selengkapnya, lihat Cloud Resource Manager API. |
resourceTags.key |
NULLABLE |
STRING |
Kunci tag resource. |
resourceTags.value |
NULLABLE |
STRING |
Nilai tag resource. |
Metadata objek
Tabel berikut menjelaskan kolom metadata objek:
Kolom metadata | Mode | Jenis | Deskripsi |
---|---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
Kolom snapshotTime menyimpan waktu refresh snapshot metadata objek dalam format RFC 3339. |
bucket |
NULLABLE |
STRING |
Nama bucket yang berisi objek ini. |
location |
NULLABLE |
STRING |
Lokasi bucket. Data objek untuk objek dalam bucket berada di penyimpanan fisik dalam lokasi ini. |
componentCount |
NULLABLE |
INTEGER |
Hanya ditampilkan untuk objek gabungan. Jumlah objek non-gabungan dalam objek gabungan. componentCount mencakup objek non-gabungan yang merupakan bagian dari objek gabungan yang digunakan untuk menyusun objek saat ini. |
contentDisposition |
NULLABLE |
STRING |
Content-Disposition data objek. |
contentEncoding |
NULLABLE |
STRING |
Content-Encoding data objek. |
contentLanguage |
NULLABLE |
STRING |
Content-Language data objek. |
contentType |
NULLABLE |
STRING |
Content-Type data objek. |
crc32c |
NULLABLE |
INTEGER |
Checksum CRC32c, seperti yang dijelaskan dalam RFC 4960, Lampiran B; dienkode menggunakan base64 dalam urutan byte big-endian. |
customTime |
NULLABLE |
TIMESTAMP |
Stempel waktu yang ditentukan pengguna untuk objek dalam format RFC 3339. |
etag |
NULLABLE |
STRING |
HTTP 1.1 Tag entitas untuk objek. |
eventBasedHold |
NULLABLE |
BOOLEAN |
Apakah objek tunduk pada penangguhan berbasis peristiwa atau tidak. |
generation |
NULLABLE |
INTEGER |
Pembuatan konten objek ini. |
md5Hash |
NULLABLE |
STRING |
Hash MD5 data, yang dienkode menggunakan base64. Kolom ini tidak ada untuk objek gabungan. |
mediaLink |
NULLABLE |
STRING |
URL untuk mendownload data objek. |
metadata |
REPEATED |
RECORD |
Metadata yang disediakan pengguna, dalam key-value pair. |
metadata.key |
NULLABLE |
STRING |
Entri metadata individual. |
metadata.value |
NULLABLE |
STRING |
Nilai metadata. |
metageneration |
NULLABLE |
INTEGER |
Versi metadata untuk objek ini pada generasi ini. |
name |
NULLABLE |
STRING |
Nama objek. |
selfLink |
NULLABLE |
STRING |
URL untuk objek ini. |
size |
NULLABLE |
INTEGER |
Content-Length data dalam byte. |
storageClass |
NULLABLE |
STRING |
Kelas penyimpanan objek. |
temporaryHold |
NULLABLE |
BOOLEAN |
Apakah objek tunduk pada penangguhan sementara atau tidak. |
timeCreated |
NULLABLE |
TIMESTAMP |
Waktu pembuatan objek dalam format RFC 3339. |
timeDeleted |
NULLABLE |
TIMESTAMP |
Waktu penghapusan objek dalam format RFC 3339. |
updated |
NULLABLE |
TIMESTAMP |
Waktu modifikasi metadata objek dalam format RFC 3339. |
timeStorageClassUpdated |
NULLABLE |
TIMESTAMP |
Waktu saat kelas penyimpanan objek terakhir diubah. |
retentionExpirationTime |
NULLABLE |
TIMESTAMP |
Waktu paling awal objek dapat dihapus, yang bergantung pada konfigurasi retensi yang ditetapkan untuk objek dan kebijakan retensi yang ditetapkan untuk bucket yang berisi objek. Nilai untuk retentionExpirationTime diberikan dalam format RFC 3339. |
softDeleteTime |
NULLABLE |
DATETIME |
Waktu saat objek dihapus sementara. Hanya tersedia untuk objek dalam bucket dengan kebijakan penghapusan sementara. |
hardDeleteTime |
NULLABLE |
DATETIME |
Waktu saat objek yang dihapus sementara dihapus secara permanen dan tidak dapat dipulihkan lagi. Nilai ini adalah jumlah nilai softDeleteTime dan nilai softDeletePolicy.retentionDurationSeconds bucket. Hanya tersedia untuk objek dalam bucket dengan kebijakan penghapusan sementara. |
project |
NULLABLE |
INTEGER |
Nomor project dari project yang memiliki bucket. |
Snapshot metadata bucket dan objek terbaru
Set data tertaut menampilkan snapshot terbaru metadata bucket dan objek melalui tampilan khusus berikut:
bucket_attributes_latest_snapshot_view
menyediakan metadata terbaru untuk bucket Cloud Storage Anda. Strukturnya cocok dengan skema metadata Bucket.object_attributes_latest_snapshot_view
menyediakan metadata terbaru untuk objek Cloud Storage Anda. Strukturnya cocok dengan skema metadata Objek.
Metadata project
Metadata project ditampilkan sebagai tampilan bernama project_attributes_view
di
set data tertaut:
Kolom metadata | Mode | Jenis | Deskripsi |
---|---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
Kolom snapshotTime menyimpan waktu refresh snapshot metadata project dalam format RFC 3339. |
name |
NULLABLE |
STRING |
Nama project. |
id |
NULLABLE |
STRING |
ID unik untuk project. |
number |
NULLABLE |
NUMBER |
Nilai numerik yang terkait dengan project. |
Skema set data untuk peristiwa dan error
Di set data tertaut, Anda juga dapat melihat peristiwa dan
error pemrosesan snapshot dalam tampilan events_view
dan error_attributes_view
. Untuk mempelajari cara
memecahkan masalah error pemrosesan snapshot, lihat Memecahkan masalah error set data.
Log peristiwa
Anda dapat melihat log peristiwa di tampilan events_view
dalam set data tertaut:
Nama kolom | Mode | Jenis | Deskripsi |
---|---|---|---|
manifest.snapshotTime |
NULLABLE |
TIMESTAMP |
Waktu dalam format RFC 3339 saat snapshot peristiwa diperbarui. |
manifest.viewName |
NULLABLE |
STRING |
Nama tampilan yang di-refresh. |
manifest.location |
NULLABLE |
STRING |
Lokasi sumber data yang diperbarui. |
globalManifest.snapshotTime |
NULLABLE |
TIMESTAMP |
Waktu dalam format RFC 3339 saat snapshot peristiwa diperbarui. |
eventTime |
NULLABLE |
STRING |
Waktu terjadinya peristiwa. |
eventCode |
NULLABLE |
STRING |
Kode peristiwa yang terkait dengan entri yang sesuai. Kode peristiwa
1 merujuk pada tampilan manifest.viewName yang dimuat ulang dengan semua
entri untuk lokasi sumber manifest.location dalam snapshot
manifest.snapshotTime . Kode peristiwa 2 menunjukkan bahwa set data diperbarui dengan entri bucket dan objek untuk semua lokasi sumber. Refresh ini terjadi dalam snapshot globalManifest.snapshotTime . |
Kode error
Anda dapat melihat kode error di tampilan error_attributes_view
dalam set data tertaut:
Nama kolom | Mode | Jenis | Deskripsi |
---|---|---|---|
errorCode |
NULLABLE |
INTEGER |
Kode error yang terkait dengan entri ini. Untuk mengetahui daftar nilai yang valid dan cara menyelesaikannya, lihat Memecahkan masalah error set data. |
errorSource |
NULLABLE |
STRING |
Sumber error. Nilai yang valid: CONFIGURATION_PREPROCESSING . |
errorTime |
NULLABLE |
TIMESTAMP |
Waktu terjadinya error. |
sourceGcsLocation |
NULLABLE |
STRING |
Lokasi Cloud Storage sumber error. Untuk project, kolom ini bernilai null karena project tidak memiliki lokasi. |
bucketErrorRecord.bucketName |
NULLABLE |
STRING |
Nama bucket yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error bucket. |
bucketErrorRecord.serviceAccount |
NULLABLE |
STRING |
Akun layanan yang memerlukan izin untuk menyerap objek dari bucket. Anda dapat menggunakan informasi ini untuk men-debug error bucket. |
projectErrorRecord.projectNumber |
NULLABLE |
INTEGER |
Jumlah project yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error project. |
projectErrorRecord.organizationName |
NULLABLE |
STRING |
Jumlah organisasi yang harus dimiliki project agar dapat diproses. Nilai 0 menunjukkan bahwa set data tidak ada di organisasi. Anda dapat menggunakan informasi ini untuk men-debug error project. |
Memecahkan masalah error set data
Untuk mempelajari cara memecahkan masalah error pemrosesan snapshot yang dicatat ke dalam
tampilan error_attributes_view
di set data tertaut, lihat tabel berikut:
Kode Error | Kasus Error | Pesan Error | Pemecahan masalah |
---|---|---|---|
1 | Project sumber tidak termasuk dalam organisasi | Project sumber projectErrorRecord.projectNumber bukan milik organisasi projectErrorRecord.organizationName . |
Tambahkan project sumber projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName . Untuk mengetahui petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi. |
2 | Error otorisasi bucket | Izin ditolak untuk menyerap objek untuk bucket bucketErrorRecord.bucketName . |
Berikan izin Identity and Access Management (IAM) bucketErrorRecord.serviceAccount akun layanan untuk mengizinkan penyerapan objek untuk bucket bucketErrorRecord.bucketName . Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan ke agen layanan. |
3 | Project tujuan bukan milik organisasi | Project tujuan projectErrorRecord.projectNumber tidak ada di organisasi projectErrorRecord.organizationName . |
Tambahkan project tujuan projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName . Untuk mengetahui petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi. |
4 | Project sumber tidak mengonfigurasi Storage Intelligence. | Project sumber projectErrorRecord.projectNumber tidak memiliki Storage Intelligence yang dikonfigurasi. |
Konfigurasi Storage Intelligence untuk project sumber projectErrorRecord.projectNumber . Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence. |
5 | Bucket tidak mengonfigurasi Storage Intelligence. | Bucket bucketErrorRecord.bucketName tidak memiliki Storage Intelligence yang dikonfigurasi. |
Konfigurasi Storage Intelligence untuk bucket bucketErrorRecord.bucketName . Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence. |
Pertimbangan
Pertimbangkan hal berikut untuk konfigurasi set data:
Saat Anda mengganti nama folder di bucket dengan namespace hierarkis diaktifkan, nama objek di bucket tersebut akan diperbarui. Saat diserap oleh set data tertaut, snapshot objek ini dianggap sebagai entri baru dalam set data tertaut.
Set data hanya didukung di lokasi BigQuery berikut.
Langkah berikutnya
- Menggunakan set data Insight Penyimpanan.
- Pelajari Kecerdasan Penyimpanan.
- Jalankan kueri SQL pada set data di BigQuery.
- Pelajari analisis BigQuery.