Glosarium Vertex AI | Google Cloud

kumpulan anotasi

Kumpulan anotasi berisi label yang berkaitan dengan file sumber yang diupload dalam sebuah set data. Kumpulan anotasi dikaitkan dengan jenis data dan tujuan (misalnya, video/klasifikasi).

Endpoint API

Endpoint API adalah aspek konfigurasi keamanan yang menentukan alamat jaringan, yang juga dikenal sebagai endpoint layanan. (misalnya, aiplatform.googleapis.com).

Approximate Nearest Neighbor (ANN)

Layanan Approximate Nearest Neighbor (ANN) adalah solusi berskala tinggi dan latensi rendah untuk menemukan vektor serupa (atau lebih khusus, "embedding") untuk korpus berukuran besar. Untuk informasi selengkapnya, lihat Cara menggunakan Vector Search untuk pencocokan semantik.

artefak

Artefak adalah entity atau bagian data terpisah yang dihasilkan dan digunakan oleh alur kerja machine learning. Contoh artefak meliputi set data, model, file input, dan log pelatihan.

Artifact Registry

Artifact Registry adalah layanan pengelolaan artefak universal. Layanan ini direkomendasikan untuk mengelola container dan artefak lain di Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Artifact Registry.

autentikasi

Proses memverifikasi identitas klien (yang mungkin berupa pengguna atau proses lain) untuk mendapatkan akses ke sistem yang aman. Klien yang telah membuktikan identitasnya dikatakan diautentikasi. Untuk informasi selengkapnya, lihat Metode autentikasi di Google.

dasar pengukuran

Model yang digunakan sebagai titik referensi untuk membandingkan seberapa baik performa model lain (biasanya, model yang lebih kompleks). Misalnya, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model mendalam. Untuk masalah tertentu, dasar pengukuran membantu developer model mengukur kuantitas performa minimal yang diharapkan yang harus dicapai model baru agar model baru tersebut berguna. Untuk mengetahui informasi selengkapnya, lihat Set data dasar pengukuran dan target.

prediksi batch

Prediksi batch mengambil sekumpulan permintaan prediksi dan mengeluarkan hasilnya dalam satu file. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan prediksi batch.

kotak pembatas

Kotak pembatas untuk objek dalam frame video dapat ditentukan menggunakan salah satu dari dua cara, yaitu (i) Menggunakan 2 verteks yang terdiri dari satu set koordinat x,y jika berlawanan secara diagonal dengan persegi panjang. Misalnya: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Menggunakan keempat verteks. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data video.

bucket

Folder tingkat teratas untuk Cloud Storage. Nama bucket harus unik di semua pengguna Cloud Storage. Bucket berisi file. Untuk informasi selengkapnya, lihat Ringkasan produk Cloud Storage.

metrik klasifikasi

Metrik klasifikasi yang didukung di Vertex AI SDK untuk Python adalah matriks konfusi dan kurva ROC.

image container

Image container adalah paket yang menyertakan kode yang dapat dieksekusi komponen dan definisi lingkungan tempat kode dijalankan. Untuk informasi selengkapnya, lihat Ringkasan pelatihan kustom.

konteks

Konteks digunakan untuk mengelompokkan artefak dan eksekusi dalam satu kategori dengan jenis tertentu yang dapat dikueri. Konteks dapat digunakan untuk merepresentasikan kumpulan metadata. Contoh Konteks adalah proses pipeline machine learning.

Kunci enkripsi yang dikelola pelanggan (CMEK)

Kunci enkripsi yang dikelola pelanggan (CMEK) adalah integrasi yang memungkinkan pelanggan mengenkripsi data di layanan Google yang ada menggunakan kunci yang mereka kelola di Cloud KMS (juga dikenal sebagai Storky). Kunci dalam Cloud KMS adalah kunci enkripsi kunci yang melindungi data mereka. Untuk informasi selengkapnya, lihat Kunci enkripsi yang dikelola pelanggan (CMEK).

CustomJob

CustomJob adalah salah satu dari tiga resource Vertex AI yang dapat dibuat pengguna untuk melatih model kustom di Vertex AI. Tugas pelatihan kustom adalah cara dasar untuk menjalankan kode pelatihan machine learning (ML) kustom di Vertex AI. Untuk mengetahui informasi selengkapnya, lihat Membuat tugas pelatihan kustom.

Dask

Dask adalah platform komputasi terdistribusi yang sering digunakan dengan TensorFlow, Pytorch, dan framework ML lainnya untuk mengelola tugas pelatihan terdistribusi. Untuk informasi selengkapnya, lihat Wikipedia.

set data

Set data secara luas didefinisikan sebagai kumpulan data terstruktur atau tidak terstruktur. Untuk informasi lebih lanjut, lihat Membuat set data.

penyematan

Embedding adalah jenis vektor yang digunakan untuk merepresentasikan data dengan cara menangkap makna semantiknya. Embedding biasanya dibuat menggunakan teknik machine learning, dan sering digunakan dalam natural language processing (NLP) dan aplikasi machine learning lainnya.

peristiwa

Peristiwa menjelaskan hubungan antara artefak dan eksekusi. Setiap artefak dapat dihasilkan oleh suatu eksekusi dan digunakan oleh eksekusi lainnya. Peristiwa membantu Anda menentukan asal artefak dalam alur kerja ML dengan merangkai artefak dan eksekusi.

eksekusi

Eksekusi adalah kumpulan data dari setiap langkah alur kerja machine learning, biasanya dianotasi dengan parameter runtime-nya. Contoh eksekusi meliputi penyerapan data, validasi data, pelatihan model, evaluasi model, dan deployment model.

eksperimen

Eksperimen adalah konteks yang dapat berisi kumpulan n operasi eksperimen selain proses pipeline tempat pengguna dapat menyelidiki—sebagai suatu grup—berbagai konfigurasi, seperti hyperparameter atau artefak input.

operasi eksperimen

Operasi eksperimen dapat berisi metrik, parameter, eksekusi, dan artefak yang ditentukan pengguna, serta resource Vertex (misalnya, PipelineJob).

analisis data eksploratif

Dalam statistik, analisis data eksploratif (EDA) merupakan pendekatan untuk menganalisis set data guna merangkum karakteristik utamanya, sering kali dengan metode visual. Model statistik dapat digunakan ataupun tidak, tetapi utamanya EDA digunakan untuk melihat apa yang dapat ditunjukkan data kepada kita di luar tugas pengujian hipotesis atau pemodelan formal.

fitur

Dalam machine learning (ML), fitur adalah karakteristik atau atribut instance atau entity yang digunakan sebagai input untuk melatih model ML atau membuat prediksi.

rekayasa fitur

Rekayasa fitur adalah proses mengubah data mentah machine learning (ML) menjadi fitur yang dapat digunakan untuk melatih model ML atau membuat prediksi.

nilai fitur

Nilai fitur sesuai dengan nilai aktual dan terukur fitur (atribut) dari sebuah instance atau entity. Kumpulan nilai fitur untuk entity unik yang mewakili kumpulan data fitur yang sesuai dengan entity.

penyajian fitur

Penyajian fitur adalah proses mengekspor atau mengambil nilai fitur untuk pelatihan atau inferensi. Di Vertex AI, ada dua jenis penyajian fitur, yaitu layanan online dan offline. Penyajian online mengambil nilai fitur terbaru dari subset sumber data fitur untuk prediksi online. Penyajian offline atau penyaluran batch mengekspor data fitur dalam jumlah besar untuk pemrosesan offline, seperti pelatihan model ML.

stempel waktu fitur

Stempel waktu fitur menunjukkan kapan serangkaian nilai fitur dalam kumpulan data fitur tertentu untuk entity dihasilkan.

kumpulan data fitur

Kumpulan data fitur adalah penggabungan semua nilai fitur yang mendeskripsikan atribut entitas unik pada titik waktu tertentu.

registry fitur

Registry fitur adalah antarmuka pusat untuk merekam sumber data fitur yang ingin Anda sajikan untuk prediksi online. Untuk informasi selengkapnya, lihat Penyiapan Feature Registry.

grup fitur

Grup fitur adalah resource registry fitur yang sesuai dengan tabel sumber BigQuery atau tampilan yang berisi data fitur. Tampilan fitur dapat berisi fitur dan dapat dianggap sebagai pengelompokan logis kolom fitur dalam sumber data.

tampilan fitur

Tampilan fitur adalah kumpulan logis fitur yang terwujud dari sumber data BigQuery ke instance penyimpanan online. Tampilan fitur menyimpan dan memperbarui data fitur pelanggan secara berkala, yang diperbarui secara berkala dari sumber BigQuery. Tampilan fitur berkaitan dengan penyimpanan data fitur baik secara langsung maupun melalui pengaitan ke resource registry fitur.

Google Cloud pipeline components SDK

Google Cloud pipeline components (GCPC) SDK menyediakan sekumpulan komponen Kubeflow Pipeline bawaan yang berkualitas produksi, berperforma tinggi, dan mudah digunakan. Anda dapat menggunakan Google Cloud Pipeline Components untuk menentukan dan menjalankan pipeline ML di Vertex AI Pipelines serta backend eksekusi pipeline ML lainnya yang sesuai dengan Kubeflow Pipelines. Untuk informasi selengkapnya, lihat Pengantar Komponen Pipeline Google Cloud.

histogram

Tampilan grafis variasi dalam satu set data menggunakan batang. Histogram memvisualisasikan pola yang sulit dideteksi dalam tabel angka sederhana.

indeks

Sekumpulan vektor yang di-deploy bersama untuk penelusuran kemiripan. Vektor dapat ditambahkan ke indeks atau dihapus dari indeks. Kueri penelusuran kemiripan dikeluarkan pada indeks tertentu dan akan menelusuri vektor dalam indeks tersebut.

kebenaran dasar

Istilah yang mengacu pada verifikasi machine learning untuk memastikan akurasinya terhadap dunia nyata, seperti set data kebenaran nyata.

Machine Learning Metadata

ML Metadata (MLMD) adalah library untuk merekam dan mengambil metadata yang terkait dengan alur kerja developer ML dan data scientist. MLMD merupakan bagian integral dari TensorFlow Extended (TFX), tetapi didesain agar dapat digunakan secara independen. Sebagai bagian dari platform TFX yang lebih luas, sebagian besar pengguna hanya berinteraksi dengan MLMD saat memeriksa hasil komponen pipeline, misalnya di notebook atau di TensorBoard.

set data terkelola

Objek set data yang dibuat dan dihosting oleh Vertex AI.

resource metadata

Vertex ML Metadata mengekspos model data seperti grafik untuk merepresentasikan metadata yang dihasilkan dan digunakan dari alur kerja ML. Konsep utamanya adalah artefak, eksekusi, peristiwa, dan konteks.

MetadataSchema

MetadataSchema menjelaskan skema untuk jenis artefak, eksekusi, atau konteks tertentu. MetadataSchemas digunakan untuk memvalidasi pasangan nilai kunci selama pembuatan resource Metadata yang sesuai. Validasi skema hanya dilakukan pada kolom yang cocok antara resource dan MetadataSchema. Skema jenis direpresentasikan menggunakan Objek Skema OpenAPI, yang harus dideskripsikan menggunakan YAML.

MetadataStore

MetadataStore adalah container tingkat atas untuk resource metadata. MetadataStore bersifat regional dan berkaitan dengan project Google Cloud tertentu. Biasanya, organisasi menggunakan satu MetadataStore bersama untuk resource metadata dalam setiap project.

pipeline ML

Pipeline ML adalah alur kerja ML portabel dan skalabel yang didasarkan pada container.

model

Semua model yang telah dilatih maupun tidak.

nama resource model

Nama resource untuk model sebagai berikut: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Anda dapat menemukan ID model di konsol Cloud pada halaman 'Model Registry'.

Network File System (NFS)

Sistem klien/server yang memungkinkan pengguna mengakses file di seluruh jaringan dan memperlakukannya seolah-olah berada di direktori file lokal.

penyimpanan offline

Penyimpanan offline adalah fasilitas penyimpanan yang menyimpan data fitur terbaru dan historis, yang biasanya digunakan untuk melatih model ML. Penyimpanan offline juga berisi nilai fitur terbaru, yang dapat Anda sajikan untuk prediksi online.

penyimpanan online

Dalam pengelolaan fitur, penyimpanan online adalah fasilitas penyimpanan untuk nilai fitur terbaru yang akan disajikan untuk prediksi online.

parameter

Parameter adalah nilai input dengan kunci yang mengonfigurasi operasi, mengatur perilaku operasi, dan memengaruhi hasil operasi. Contohnya termasuk kecepatan pembelajaran, tingkat putus sekolah, dan jumlah langkah pelatihan.

pipeline

Pipeline ML adalah alur kerja ML portabel dan skalabel yang didasarkan pada container.

komponen pipeline

Sekumpulan kode mandiri yang melakukan satu langkah dalam alur kerja pipeline, seperti prapemrosesan data, transformasi data, dan pelatihan model.

tugas pipeline

Resource di Vertex AI API yang sesuai dengan Tugas Pipeline Vertex. Pengguna membuat PipelineJob saat ingin menjalankan Pipeline ML di Vertex AI.

operasi pipeline

Satu atau beberapa PipelineJob Vertex dapat dikaitkan dengan eksperimen, dengan setiap PipelineJob direpresentasikan sebagai satu operasi. Dalam konteks ini, parameter operasi disimpulkan oleh parameter PipelineJob. Metrik disimpulkan dari artefak system.Metric yang dihasilkan oleh PipelineJob. Artefak proses disimpulkan dari artefak yang dihasilkan oleh PipelineJob tersebut.

template pipeline

Definisi alur kerja ML yang dapat digunakan kembali oleh satu atau beberapa pengguna untuk membuat beberapa operasi pipeline.

Private Service Connect (PSC)

Private Service Connect adalah teknologi yang memungkinkan pelanggan Compute Engine memetakan IP pribadi di jaringan mereka ke jaringan VPC lain atau ke Google API.

Antarmuka Private Service Connect (PSC-I)

Antarmuka Private Service Connect menyediakan cara bagi produsen untuk memulai koneksi ke resource jaringan apa pun di VPC konsumen secara pribadi.

Cluster Ray di Vertex AI

Cluster Ray di Vertex AI dibuat untuk memastikan ketersediaan kapasitas untuk workload ML penting atau selama musim puncak. Tidak seperti tugas kustom, yang mengharuskan layanan pelatihan untuk merilis resource setelah tugas selesai, cluster Ray akan tetap tersedia hingga dihapus. Untuk mengetahui informasi selengkapnya, lihat ringkasan Ray di Vertex AI.

Ray di Vertex AI (RoV)

Ray di Vertex AI dirancang agar Anda dapat menggunakan kode Ray open source yang sama untuk menulis program dan mengembangkan aplikasi di Vertex AI dengan sedikit perubahan. Untuk mengetahui informasi selengkapnya, lihat ringkasan Ray di Vertex AI.

Ray on Vertex AI SDK for Python

Ray on Vertex AI SDK untuk Python adalah versi Vertex AI SDK untuk Python yang menyertakan fungsi Ray Client, konektor Ray BigQuery, pengelolaan cluster Ray di Vertex AI, dan prediksi di Vertex AI. Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI SDK untuk Python.

perolehan

Persentase tetangga terdekat sebenarnya yang ditampilkan oleh indeks. Misalnya, jika kueri tetangga terdekat untuk 20 tetangga terdekat menampilkan 19 tetangga terdekat “kebenaran nyata”, perolehannya adalah 19/20x100 = 95%.

batasan

Fungsionalitas untuk "membatasi" penelusuran ke subset indeks dengan menggunakan aturan Boolean. Membatasi disebut juga sebagai "pemfilteran". Dengan Vector Search, Anda dapat menggunakan pemfilteran numerik dan pemfilteran atribut teks.

akun layanan

Di Google Cloud, akun layanan adalah jenis akun khusus yang digunakan oleh aplikasi atau instance virtual machine (VM), bukan orang. Aplikasi menggunakan akun layanan untuk melakukan panggilan API yang diotorisasi.

metrik ringkasan

Metrik ringkasan adalah satu nilai untuk setiap kunci metrik dalam suatu operasi eksperimen. Misalnya, akurasi pengujian eksperimen adalah akurasi yang dihitung terhadap set data pengujian di akhir pelatihan yang dapat dicatat sebagai metrik ringkasan nilai tunggal.

TensorBoard

TensorBoard adalah rangkaian aplikasi web untuk memvisualisasikan dan memahami operasi dan model TensorFlow. Untuk mengetahui informasi selengkapnya, lihat TensorBoard.

Nama Resource TensorBoard

Nama Resource TensorBoard digunakan untuk mengidentifikasi instance Vertex AI TensorBoard sepenuhnya. Formatnya adalah sebagai berikut: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.

instance TensorBoard

Instance TensorBoard adalah resource regional yang menyimpan Eksperimen Vertex AI TensorBoard yang terkait dengan Project. Anda dapat membuat beberapa instance TensorBoard dalam suatu project jika, misalnya, Anda menginginkan beberapa instance dengan CMEK yang aktif. Hal ini sama dengan resource TensorBoard pada API.

TensorFlow Extended (TFX)

Tensorflow extended (tfx), platform menyeluruh untuk men-deploy pipeline machine learning produksi berdasarkan platform tensorflow.

selisih waktu

Selisih waktu bersifat relatif terhadap awal video.

segmen waktu

Segmen waktu diidentifikasi dengan selisih waktu awal dan akhir.

metrik deret waktu

Metrik deret waktu adalah nilai metrik longitudinal dengan setiap nilai mewakili langkah dalam bagian rutinitas pelatihan dari suatu operasi. Metrik deret waktu disimpan di Vertex AI TensorBoard. Eksperimen Vertex AI menyimpan referensi ke resource Vertex TensorBoard.

token

Token dalam model bahasa adalah unit atom yang dilatih dan diprediksi oleh model, yaitu kata, morfem, dan karakter. Di domain di luar model bahasa, token dapat mewakili jenis unit atom lainnya. Misalnya, dalam computer vision, token mungkin merupakan subset dari gambar.

artefak yang tidak dikelola

Artefak yang ada di luar konteks Vertex AI.

vector

Vektor adalah daftar nilai float yang memiliki magnitudo dan arah. Atribut ini dapat digunakan untuk merepresentasikan jenis data apa pun, seperti angka, titik dalam ruang, atau arah.

Eksperimen Vertex AI

Eksperimen Vertex AI memungkinkan pengguna melacak (i) langkah-langkah operasi eksperimen, misalnya, prapemrosesan, pelatihan, (ii) input, misalnya, algoritma, parameter, set data, (iii) output dari langkah-langkah tersebut, misalnya, model, checkpoint, metrik.

Eksperimen Vertex AI TensorBoard

Data yang terkait dengan Eksperimen dapat dilihat di aplikasi web TensorBoard (skalar, histogram, distribusi, dll.). Skalar deret waktu dapat dilihat di Konsol Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Membandingkan dan menganalisis operasi.

Vertex AI SDK untuk Python

Vertex AI SDK untuk Python menyediakan fungsi yang serupa dengan library klien Python Vertex AI, hanya saja SDK ini lebih umum dan kurang terperinci.

Jenis data vertex

Jenis data Vertex AI adalah "gambar", "teks", "tabel", dan "video".

segmen video

Segmen video diidentifikasi dengan selisih waktu awal dan akhir video.

virtual private cloud (VPC)

Virtual private cloud adalah kumpulan resource komputasi bersama yang dapat dikonfigurasi dan sesuai permintaan, yang dialokasikan di lingkungan cloud publik serta menyediakan tingkat isolasi antara organisasi yang berbeda menggunakan resource tersebut.