Memeriksa kualitas data untuk rekomendasi media

Halaman ini menjelaskan cara mengetahui apakah berbagai metrik untuk data media Anda memenuhi nilai minimum persyaratannya.

Tentang memeriksa kualitas data media

Karena peristiwa pengguna terbaru sangat penting untuk rekomendasi media, Anda harus secara rutin memeriksa kualitas data yang diserap dan peristiwa pengguna. Anda dapat melakukannya dengan meninjau tab Pengoptimalan untuk aplikasi rekomendasi media guna menentukan peningkatan yang dapat Anda lakukan pada data untuk mengoptimalkan rekomendasi yang lebih berkualitas.

Jika nilai minimum metrik tidak terpenuhi, metrik tersebut akan memiliki status peringatan. Kemudian, Anda perlu meninjau metrik dan deskripsinya untuk menentukan tindakan yang harus diambil untuk meningkatkan kualitas media.

Semua model dan tujuan harus lulus nilai minimum metrik Kualitas umum. Beberapa model dan tujuan memiliki metrik dan nilai minimum Kualitas khusus aplikasi tambahan. Metrik kualitas umum sama untuk semua aplikasi yang menggunakan penyimpanan data yang sama, tetapi metrik kualitas khusus aplikasi bervariasi sesuai dengan model dan tujuan aplikasi.

Untuk informasi tentang model dan tujuan rekomendasi, lihat Tentang jenis rekomendasi aplikasi media.

Memeriksa kualitas data


Untuk memeriksa kualitas data rekomendasi media, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Agent Builder.

    Agent Builder

  2. Klik nama aplikasi rekomendasi media yang ingin Anda periksa kualitas datanya.

  3. Di menu navigasi, klik Kualitas data, lalu klik tab Pengoptimalan. Halaman ini menampilkan status berbagai metrik untuk data yang terkait dengan aplikasi Anda.

  4. Tinjau status Kualitas umum dan Kualitas khusus aplikasi di bagian atas halaman. Status ringkasan di bagian atas halaman ditampilkan sebagai peringatan jika satu atau beberapa metrik telah melampaui nilai minimumnya.

    Dua tabel metrik (Kualitas umum dan Kualitas khusus aplikasi) mencantumkan setiap metrik.

    Tab pengoptimalan menampilkan satu metrik peringatan untuk kualitas umum

  5. Di tabel metrik, klik Lihat detail untuk mengetahui informasi selengkapnya tentang metrik apa pun dalam status peringatan.

  6. Opsional: Jika Anda ingin melihat nilai minimum untuk metrik yang mematuhi kebijakan, klik Lihat Detail. Batas untuk metrik yang mematuhi kebijakan tidak ditampilkan di tabel metrik.

Gunakan metode requirements:checkRequirement untuk memeriksa kualitas data rekomendasi media Anda, seperti yang ditunjukkan.

Untuk memeriksa kualitas dari command line, ikuti langkah-langkah berikut:

  1. Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.

    1. Di konsol Google Cloud, buka halaman Agent Builder dan di menu navigasi, klik Data Stores.

      Buka halaman Data Store

    2. Klik nama penyimpanan data Anda.

    3. Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.

  2. Jalankan perintah curl berikut untuk mengetahui apakah rekomendasi media Anda memenuhi nilai minimum untuk metrik umum:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-GFE-SSL: yes" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "" \
    -d '{
          "location": "projects/PROJECT_ID/locations/global",
          "requirementType": "",
          "resources": [
              "labels": {
                "branch_id": "0",
                "collection_id": "default_collection",
                "datastore_id": "DATA_STORE_ID",
                "location_id": "global",
                "project_number": "PROJECT_ID"
              "type": ""
              "labels": {
                "collection_id": "default_collection",
                "datastore_id": "DATA_STORE_ID",
                "location_id": "global",
                "project_number": "PROJECT_ID"
              "type": ""

    Ganti kode berikut:

    • PROJECT_ID: ID Google Cloud project Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
    curl -X POST
    -H "Authorization: Bearer $(gcloud auth print-access-token)"
    -H "Content-Type: application/json"
    -H "X-GFE-SSL: yes"
    -H "X-Goog-User-Project: my-project-123"
    -d '{
      "location": "projects/123456/locations/global",
      "requirementType": "",
      "resources": [
          "labels": {
            "branch_id": "0",
            "collection_id": "default_collection",
            "datastore_id": "my-data-store",
            "location_id": "global",
            "project_number": "123456"
          "type": ""
          "labels": {
            "collection_id": "default_collection",
            "datastore_id": "my-data-store",
            "location_id": "global",
            "project_number": "123456"
          "type": ""
    { "requirement": { "type": "", "displayName": "Warning level requirements for all models and all business objectives.", "description": "Requirements for the media recommendations model that will result in performance issue if not met for all media recommendations models and all business objectives.", "condition": { "expression": "doc_with_same_title_percentage \u003c doc_with_same_title_percentage_threshold && most_common_visitor_id_percentage \u003c most_common_visitor_id_percentage_threshold && short_term_unjoined_events_percentage \u003c short_term_unjoined_events_percentage_threshold && long_term_unjoined_events_percentage \u003c long_term_unjoined_events_percentage_threshold" }, "metricBindings": [ { "variableId": "doc_with_same_title_percentage", "resourceType": "", "metricFilter": "metric.type = '' AND metric.labels.is_percentage = 'True' AND resource.labels.project_number = '123456' AND resource.labels.branch_id = '0' AND resource.labels.datastore_id = 'my-data-store' AND resource.labels.location_id = 'global' AND resource.labels.collection_id = 'default_collection'", "description": "The percentage of the documents with the same title in a branch.", "category": "Document" }, { "variableId": "most_common_visitor_id_percentage", "resourceType": "", "metricFilter": "metric.type = '' AND metric.labels.is_percentage = 'True' AND resource.labels.datastore_id = 'my-data-store' AND resource.labels.project_number = '123456' AND resource.labels.location_id = 'global' AND resource.labels.collection_id = 'default_collection'", "description": "The percentage of the events with the same visitor id.", "category": "DataStore" }, { "variableId": "short_term_unjoined_events_percentage", "resourceType": "", "metricFilter": "metric.type = '' AND metric.labels.is_percentage = 'True' AND metric.conditions.time_range = 'WEEK' AND resource.labels.datastore_id = 'my-data-store' AND resource.labels.project_number = '123456' AND resource.labels.location_id = 'global' AND resource.labels.collection_id = 'default_collection'", "description": "The percentage of events refers to a document id that is not in the catalog in the last 7 days.", "category": "DataStore" }, { "variableId": "long_term_unjoined_events_percentage", "resourceType": "", "metricFilter": "metric.type = '' AND metric.labels.is_percentage = 'True' AND metric.conditions.time_range = 'NINETY_DAYS' AND resource.labels.datastore_id = 'my-data-store' AND resource.labels.project_number = '123456' AND resource.labels.location_id = 'global' AND resource.labels.collection_id = 'default_collection'", "description": "The percentage of events refers to a document id that is not in the catalog in the last 90 days.", "category": "DataStore" } ], "thresholdBindings": [ { "variableId": "doc_with_same_title_percentage_threshold", "threshold_values": { "severity": "WARNING", "value": 1.0 } "description": "The threshold for the percentage of the documents with the same title in a branch." }, { "variableId": "most_common_visitor_id_percentage_threshold", "threshold_values": { "severity": "WARNING", "value": 5.0 } "description": "The threshold for the percentage of the events with the same visitor id." }, { "variableId": "short_term_unjoined_events_percentage_threshold", "threshold_values": { "severity": "WARNING", "value": 5.0 } "description": "The threshold for the percentage of the events refers to a document id that is not in the catalog in the last 7 days." }, { "variableId": "long_term_unjoined_events_percentage_threshold", "threshold_values": { "severity": "WARNING", "value": 2.0 } "description": "The threshold for the percentage of the events refers to a document id that is not in the catalog in the last 90 days" } ] }, "result": "WARNING", "requirementCondition": { "expression": "doc_with_same_title_percentage \u003c doc_with_same_title_percentage_threshold && most_common_visitor_id_percentage \u003c most_common_visitor_id_percentage_threshold && short_term_unjoined_events_percentage \u003c short_term_unjoined_events_percentage_threshold && long_term_unjoined_events_percentage \u003c long_term_unjoined_events_percentage_threshold" }, "metricResults": [ { "name": "short_term_unjoined_events_percentage", "value": { "doubleValue": 0 }, "timestamp": "2024-06-06T03:03:13.416900898Z", "unit": "%", "metricType": "" }, { "name": "long_term_unjoined_events_percentage", "value": { "doubleValue": 0 }, "timestamp": "2024-06-06T03:03:13.417962744Z", "unit": "%", "metricType": "" }, { "name": "most_common_visitor_id_percentage", "value": { "doubleValue": 0.8 }, "timestamp": "2024-06-06T03:03:16.090037135Z", "unit": "%", "metricType": "" }, { "name": "doc_with_same_title_percentage", "value": { "doubleValue": 30.47 }, "timestamp": "2024-06-06T03:03:17.599458357Z", "unit": "%", "metricType": "" } ], "oldestMetricTimestamp": "2024-06-06T03:03:13.416900898Z" }
  3. Tinjau output:

    1. Cari nilai result:

      • Jika nilainya SUCCESS, berarti data Anda lulus persyaratan umum; lanjutkan ke langkah 4.

      • Jika nilainya WARNING, lanjutkan ke langkah b.

      • Jika Anda tidak melihat result dalam output, ada beberapa kemungkinan alasannya:

        • PROJECT_ID atau DATA_STORE_ID dalam permintaan salah.

        • Beberapa nilai metrik tidak tersedia. Coba lagi dalam 6 jam atau hubungi engineer pelanggan untuk mendapatkan bantuan.

    2. Cari ekspresi (requirement.Condition.Expression): Jika ekspresi ini bernilai salah, berarti ada masalah dengan data Anda.

      Nilai metrik ada di kolom requirementCondition.metricResults.value. Nilai ambang batas peringatan ada di kolom thresholdBindings.thresholdValues. Kolom description dapat membantu Anda memahami tujuan metrik.

      Misalnya, nilai doc_with_same_title_percentage adalah 30.47 dan nilai minimum peringatan untuk doc_with_same_title_percentage_threshold adalah 1. Ada masalah data karena banyak judul di penyimpanan data yang sama, dan hal ini perlu diselidiki.

  4. Jika kombinasi model dan tujuan yang digunakan untuk aplikasi rekomendasi Anda muncul dalam tabel ini, Anda juga perlu memanggil metode persyaratan pemeriksaan, yang diperbarui dengan nilai untuk model dan tujuan Anda:

    Model Tujuan MODEL_OBJ
    Lainnya yang Mungkin Anda Sukai Rasio konversi oyml/cvr
    Direkomendasikan untuk Anda Rasio konversi rfy/cvr
    Lainnya Seperti Ini Rasio konversi mlt/cvr
    Terpopuler Rasio konversi mp/cvr
    Lainnya yang Mungkin Anda Sukai Durasi tontonan per sesi oyml/wdps
    Direkomendasikan untuk Anda Durasi tontonan per sesi rfy/wdps
    Lainnya Seperti Ini Durasi tontonan per sesi mlt/wdps

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-GFE-SSL: yes" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "" \
    -d '{
          "location": "projects/PROJECT_ID/locations/global",
          "requirementType": "",
          "resources": [
              "labels": {
                "branch_id": "0",
                "collection_id": "default_collection",
                "datastore_id": "DATA_STORE_ID",
                "location_id": "global",
                "project_number": "PROJECT_ID"
              "type": ""
              "labels": {
                "collection_id": "default_collection",
                "datastore_id": "DATA_STORE_ID",
                "location_id": "global",
                "project_number": "PROJECT_ID"
              "type": ""

    Ganti kode berikut:

    • PROJECT_ID: ID project Google Cloud Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
    • MODEL_OBJ: lihat tabel sebelumnya untuk memilih nilai yang benar untuk aplikasi rekomendasi Anda.

    Contoh ini adalah untuk model Lebih Seperti Ini dan tujuan durasi tonton:

    curl -X POST
    -H "Authorization: Bearer $(gcloud auth print-access-token)"
    -H "Content-Type: application/json"
    -H "X-GFE-SSL: yes"
    -H "X-Goog-User-Project: my-project-123"
    -d '{
      "location": "projects/my-project-123/locations/global",
      "requirementType": "",
      "resources": [
          "labels": {
            "branch_id": "0",
            "collection_id": "default_collection",
            "datastore_id": "my-data-store",
            "location_id": "global",
            "project_number": "my-project-123"
          "type": ""
          "labels": {
            "collection_id": "default_collection",
            "datastore_id": "my-data-store",
            "location_id": "global",
            "project_number": "my-project-123"
          "type": ""
    { "requirement": { "type": "", "displayName": "Warning level requirements for 'More Like This' models and 'Watch duration per session' business objectives.", "description": "Requirements for the media recommendations model that will result in performance issue if not met for the 'More Like This' model and the 'Watch duration per session' business objective.", "condition": { "expression": "invalid_sequence_percentage \u003c= invalid_sequence_percentage_threshold" }, "metricBindings": [ { "variableId": "invalid_sequence_percentage", "resourceType": "", "metricFilter": "metric.type = '' AND metric.labels.is_percentage = 'True' AND resource.labels.location_id = 'global' AND resource.labels.collection_id = 'default_collection' AND resource.labels.project_number = '123456' AND resource.labels.datastore_id = 'my-data-store'", "description": "The percentage of invalid sequences for media play and media complete events sampled by randomly selected visitor ids.", "category": "DataStore" } ], "thresholdBindings": [ { "variableId": "invalid_sequence_percentage_threshold", "thresholdValues": [ { "severity": "WARNING", "value": 50 } ], "description": "The threshold for the percentage of invalid sequences sampled among all media play and media complete events." } ] }, "result": "SUCCESS", "requirementCondition": { "expression": "invalid_sequence_percentage \u003c= invalid_sequence_percentage_threshold" }, "metricResults": [ { "name": "invalid_sequence_percentage", "value": { "doubleValue": 0 }, "timestamp": "2024-06-06T02:32:00.460056386Z", "unit": "%", "metricType": "" } ], "oldestMetricTimestamp": "2024-06-06T02:32:00.460056386Z" }
  5. Tinjau output:

    1. Cari nilai result:

      • Jika nilainya SUCCESS, berarti data Anda cukup baik.

      • Jika nilainya WARNING, lanjutkan ke langkah b.

      • Jika Anda tidak melihat result dalam output, ada beberapa kemungkinan alasannya:

        • PROJECT_ID atau DATA_STORE_ID dalam permintaan salah.

        • Beberapa nilai metrik tidak tersedia. Coba lagi dalam 6 jam atau hubungi engineer pelanggan untuk mendapatkan bantuan.

    2. Lihat ekspresi (requirement.Condition.Expression). Jika ekspresi ini bernilai salah, berarti ada masalah dengan data Anda.

      Nilai metrik dapat ditemukan di kolom requirementCondition.metricResults.value, dan nilai nilai minimum peringatan, di kolom thresholdBindings.thresholdValues. Kolom description dapat membantu Anda memahami tujuan metrik.