Membuat penyimpanan data media

Halaman ini menjelaskan cara membuat penyimpanan data untuk media dan mengimpor data ke dalamnya.

Sebelum memulai

Pastikan Anda melakukan hal berikut:

Pilih prosedur sesuai dengan sumber data Anda

Untuk membuat penyimpanan data media dan mengimpor dokumen, buka bagian untuk sumber yang akan Anda gunakan:

Impor dari BigQuery

Konsol

Untuk menggunakan konsol Google Cloud guna membuat penyimpanan data media dan mengimpor dokumen serta peristiwa pengguna dari BigQuery, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman AI Applications.

    Aplikasi AI

  2. Buka halaman Data Stores.

  3. Klik Create data store.

  4. Di halaman Sumber, pilih BigQuery.

  5. Pilih Media - BigQuery table with structured media data sebagai jenis data yang Anda impor.

  6. Di kolom BigQuery path, klik Browse, pilih data BigQuery yang telah Anda siapkan untuk penyerapan, lalu klik Select. Atau, masukkan lokasi langsung di kolom Jalur BigQuery.

  7. Jika data Anda berada dalam skema Google standar, pilih Skema standar Google, klik Lanjutkan, lalu lanjutkan ke langkah 11.

  8. Jika data Anda ada di skema Anda sendiri, pilih Skema kustom, lalu klik Lanjutkan.

  9. Tinjau skema yang terdeteksi dan gunakan menu Properti utama untuk menetapkan properti ke kolom skema Anda.

  10. Klik Lanjutkan.

    Anda tidak dapat melanjutkan hingga properti kunci yang diperlukan dipetakan, yang ditunjukkan oleh tanda centang hijau , bukan tanda peringatan oranye .

  11. Masukkan nama untuk penyimpanan data Anda, lalu klik Buat.

Mengimpor dari Cloud Storage

Konsol

Untuk menggunakan konsol Google Cloud guna membuat penyimpanan data media dan mengimpor dokumen dari Cloud Storage, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman AI Applications.

    Aplikasi AI

  2. Buka halaman Data Stores.

  3. Klik Create data store.

  4. Di halaman Source, pilih Cloud Storage.

  5. Pilih Data media terstruktur (JSONL yang berisi file media) sebagai jenis data yang Anda impor.

  6. Di bagian Pilih folder atau file yang ingin Anda impor, pilih Folder atau File.

  7. Klik Browse, lalu pilih data yang telah Anda siapkan untuk penyerapan, lalu klik Select. Atau, masukkan lokasi langsung di kolom gs://.

  8. Jika data Anda berada dalam skema Google standar, pilih Skema standar Google, klik Lanjutkan, lalu lanjutkan ke langkah 11.

  9. Jika data Anda ada di skema Anda sendiri, pilih Skema kustom, lalu klik Lanjutkan.

  10. Tinjau skema yang terdeteksi dan gunakan menu Properti utama untuk menetapkan properti ke kolom skema Anda.

  11. Klik Lanjutkan.

    Anda tidak dapat melanjutkan hingga properti kunci yang diperlukan dipetakan, yang ditunjukkan oleh tanda centang hijau , bukan tanda peringatan oranye .

  12. Masukkan nama untuk penyimpanan data Anda, lalu klik Buat.

Mengimpor dokumen menggunakan API

Jika menggunakan skema standar Google, Anda dapat mengimpor dokumen dengan membuat permintaan POST ke metode REST Documents:import, menggunakan objek InlineSource untuk menentukan data Anda.

Untuk contoh format dokumen JSON, lihat Format dokumen JSON.

Persyaratan impor

Berikut adalah persyaratan untuk mengimpor dokumen media menggunakan API:

  • Setiap dokumen harus berada di barisnya sendiri.

  • Jumlah maksimum dokumen dalam satu impor adalah 100.

Prosedur

Untuk mengimpor dokumen media menggunakan API, lakukan hal berikut:

  1. Buat penyimpanan data.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID Google Cloud project Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.
    • DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.
  2. Buat file JSON untuk dokumen Anda dan beri nama ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Panggil metode POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda.
    • DATA_STORE_ID: ID penyimpanan data Anda.

Format dokumen JSON

Contoh berikut menunjukkan entri Document dalam format JSON.

Berikan seluruh dokumen dalam satu baris. Setiap dokumen harus berada di barisnya masing-masing.

Kolom wajib diisi minimum:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objek lengkap:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Memantau impor dan melihat data

  1. Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data.

  2. Klik tab Aktivitas.

    Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.

    Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.

  3. Klik Dokumen untuk melihat data yang Anda impor.

Mengimpor peristiwa pengguna

Untuk mengimpor peristiwa pengguna ke penyimpanan data media Anda:

Langkah berikutnya

  • Buat aplikasi rekomendasi media atau aplikasi penelusuran media.

  • Selalu perbarui data dokumen Anda.

    Idealnya, Anda harus memperbarui penyimpanan data setiap hari dengan mengimpor data baru. Penjadwalan impor berkala mencegah kualitas model menurun seiring waktu. Anda dapat menggunakan Google Cloud Scheduler untuk mengotomatiskan impor.

    Anda dapat memperbarui hanya dokumen baru atau yang diubah, atau Anda dapat mengimpor seluruh penyimpanan data. Jika Anda mengimpor dokumen yang sudah ada di penyimpanan data, dokumen tersebut tidak akan ditambahkan lagi. Setiap dokumen yang telah diubah akan diperbarui.

  • Selalu perbarui data peristiwa pengguna Anda.

    Anda harus memastikan agar peristiwa pengguna selalu aktual. Aplikasi rekomendasi berhenti berfungsi jika tidak ada peristiwa pengguna baru yang cukup untuk memenuhi persyaratan data.

    Untuk mengetahui informasi tentang mengimpor data peristiwa pengguna secara real-time, lihat Merekam peristiwa pengguna real-time.

    Untuk informasi tentang persyaratan pemantauan peristiwa pengguna, lihat Memeriksa kualitas data untuk rekomendasi media.