Questa pagina è stata tradotta dall'API Cloud Translation.

Preparare i dati di addestramento video per il monitoraggio degli oggetti

Questa pagina descrive come preparare i dati di addestramento video da utilizzare in un set di dati Vertex AI per addestrare un modello di monitoraggio degli oggetti video.

Le sezioni seguenti forniscono informazioni sui requisiti dei dati, sui file dello schema e sul formato dei file di importazione dei dati (JSONL e CSV) che sono definiti dallo schema.

In alternativa, puoi importare i video non annotati e annotarli in un secondo momento utilizzando la console Google Cloud (consulta Etichettatura utilizzando la console Google Cloud).

Requisiti dei dati

I seguenti requisiti si applicano ai set di dati utilizzati per addestrare i modelli AutoML o con addestramento personalizzato.

Vertex AI supporta i seguenti formati video per l'addestramento del modello o la richiesta di una previsione (annotazione di un video).
- .MOV
- .MPEG4
- .MP4
- .AVI
Per visualizzare i contenuti video nella console web o aggiungere annotazioni a un video, il video deve essere in un formato supportato nativamente dal browser. Poiché non tutti i browser gestiscono i contenuti .MOV o .AVI in modo nativo, consigliamo di utilizzare il formato video .MPEG4 o .MP4.
La dimensione massima del file è 50 GB (fino a 3 ore di durata). I singoli file video con timestamp non validi o vuoti nel contenitore non sono supportati.
Il numero massimo di etichette in ogni set di dati è limitato a 1000.
Puoi assegnare le etichette "ML_USE" ai video nei file di importazione. Al momento dell'addestramento, puoi scegliere di utilizzare queste etichette per suddividere i video e le relative annotazioni in set di "addestramento" o "test". Per il monitoraggio degli oggetti video, tieni presente quanto segue:
- Il numero massimo di frame video etichettati in ogni set di dati è limitato a 150.000.
- Il numero massimo di caselle delimitanti annotate totali in ogni set di dati è limitado a 1.000.000.
- Il numero massimo di etichette in ogni insieme di annotazioni è limitato a 1000.

Best practice per i dati video utilizzati per addestrare i modelli AutoML

Le seguenti pratiche si applicano ai set di dati utilizzati per addestrare i modelli AutoML.

I dati di addestramento devono essere il più simili possibile ai dati su cui devono essere eseguite le previsioni. Ad esempio, se il tuo caso d'uso prevede video sfocati e a bassa risoluzione (ad esempio quelli di una videocamera di sicurezza), i dati di addestramento devono essere costituiti da video sfocati e a bassa risoluzione. In generale, ti consigliamo anche di fornire più angolazioni, risoluzioni e sfondi per i tuoi video di formazione.
In genere, i modelli Vertex AI non possono prevedere etichette che gli esseri umani non possono assegnare. Se non è possibile addestrare una persona ad assegnare etichette guardando il video per 1-2 secondi, probabilmente non è possibile addestrare neanche il modello a farlo.
Il modello funziona al meglio quando ci sono al massimo 100 volte più video per l'etichetta più comune rispetto a quella meno comune. Ti consigliamo di rimuovere le etichette con frequenza bassa. Per il monitoraggio degli oggetti:
- Le dimensioni minime del riquadro di selezione sono 10 x 10 px.
- Per una risoluzione dei fotogrammi video molto più grande di 1024 x 1024 pixel, è possibile che venga persa parte della qualità dell'immagine durante il processo di normalizzazione dei fotogrammi utilizzato dal monitoraggio degli oggetti AutoML.
- Ogni etichetta univoca deve essere presente in almeno tre frame video distinti. Inoltre, ogni etichetta deve avere almeno dieci annotazioni.

File di schema

Utilizza il seguente file dello schema accessibile pubblicamente quando crei il file JSONL per l'importazione delle annotazioni. Questo file dello schema determina il formato dei file di input dei dati. La struttura del file segue il test dello schema OpenAPI.

File dello schema di monitoraggio degli oggetti:

gs://google-cloud-aiplatform/schema/dataset/ioformat/object_tracking_io_format_1.0.0.yaml

File schema completo



title: VideoObjectTracking
version: 1.0.0
description: >
  Import and export format for importing/exporting videos together with
  temporal bounding box annotations.
type: object
required:
- videoGcsUri
properties:
  videoGcsUri:
    type: string
    description: >
      A Cloud Storage URI pointing to a video. Up to 50 GB in size and
      up to 3 hours in duration. Supported file mime types: `video/mp4`,
      `video/avi`, `video/quicktime`.
  TemporalBoundingBoxAnnotations:
    type: array
    description: Multiple temporal bounding box annotations. Each on a frame of the video.
    items:
      type: object
      description: >
        Temporal bounding box anntoation on video. `xMin`, `xMax`, `yMin`, and
        `yMax` are relative to the video frame size, and the point 0,0 is in the
        top left of the frame.
      properties:
        displayName:
          type: string
          description: >
            It will be imported as/exported from AnnotationSpec's display name,
            i.e., the name of the label/class.
        xMin:
          description: The leftmost coordinate of the bounding box.
          type: number
          format: double
        xMax:
          description: The rightmost coordinate of the bounding box.
          type: number
          format: double
        yMin:
          description: The topmost coordinate of the bounding box.
          type: number
          format: double
        yMax:
          description: The bottommost coordinate of the bounding box.
          type: number
          format: double
        timeOffset:
          type: string
          description: >
            A time offset of a video in which the object has been detected.
            Expressed as a number of seconds as measured from the
            start of the video, with fractions up to a microsecond precision, and
            with "s" appended at the end.
        instanceId:
          type: number
          format: integer
          description: >
            The instance of the object, expressed as a positive integer. Used to
            tell apart objects of the same type when multiple are present on a
            single video.
        annotationResourceLabels:
          description: Resource labels on the Annotation.
          type: object
          additionalProperties:
            type: string
  dataItemResourceLabels:
    description: Resource labels on the DataItem.
    type: object
    additionalProperties:
      type: string

File di input

Il formato dei dati di addestramento per il monitoraggio di oggetti video è il seguente.

Per importare i dati, crea un file JSONL o CSV.

JSONL

JSON su ogni riga:
Per maggiori dettagli, consulta il file YAML di monitoraggio degli oggetti.



{
	"videoGcsUri": "gs://bucket/filename.ext",
	"TemporalBoundingBoxAnnotations": [{
		"displayName": "LABEL",
		"xMin": "leftmost_coordinate_of_the_bounding box",
		"xMax": "rightmost_coordinate_of_the_bounding box",
		"yMin": "topmost_coordinate_of_the_bounding box",
		"yMax": "bottommost_coordinate_of_the_bounding box",
		"timeOffset": "timeframe_object-detected"
                "instanceId": "instance_of_object
                "annotationResourceLabels": "resource_labels"
	}],
	"dataItemResourceLabels": {
		"aiplatform.googleapis.com/ml_use": "train|test"
	}
}

Esempio di JSONL: rilevamento oggetti video:



{'videoGcsUri': 'gs://demo-data/video1.mp4', 'temporal_bounding_box_annotations': [{'displayName': 'horse', 'instance_id': '-1', 'time_offset': '4.000000s', 'xMin': '0.668912', 'yMin': '0.560642', 'xMax': '1.000000', 'yMax': '1.000000'}], "dataItemResourceLabels": {"aiplatform.googleapis.com/ml_use": "training"}}
{'videoGcsUri': 'gs://demo-data/video2.mp4', 'temporal_bounding_box_annotations': [{'displayName': 'horse', 'instance_id': '-1', 'time_offset': '71.000000s', 'xMin': '0.679056', 'yMin': '0.070957', 'xMax': '0.801716', 'yMax': '0.290358'}], "dataItemResourceLabels": {"aiplatform.googleapis.com/ml_use": "test"}}
...

CSV

Formato di una riga nel file CSV:

[ML_USE,]VIDEO_URI,LABEL,[INSTANCE_ID],TIME_OFFSET,BOUNDING_BOX

Elenco di colonne

ML_USE (facoltativo). Per la suddivisione dei dati durante l'addestramento di un modello. Utilizza TRAINING o TEST.
VIDEO_URI. Questo campo contiene l'URI Cloud Storage del video. Gli URI Cloud Storage sono sensibili alle maiuscole.
LABEL. Le etichette devono iniziare con una lettera e contenere solo lettere, numeri e trattini bassi. Puoi specificare più etichette per un video aggiungendo più righe nel file CSV che identificano ciascuna lo stesso segmento video, con un'etichetta diversa per ogni riga.
INSTANCE_ID (facoltativo). Un ID istanza che identifica l'istanza dell'oggetto nei fotogrammi di un video. Se forniti, il monitoraggio degli oggetti AutoML li utilizza per il monitoraggio degli oggetti ottimizzazione, addestramento e valutazione. I bounding box della stessa istanza dell'oggetto presenti in fotogrammi video diversi sono etichettati come stesso ID istanza. L'ID istanza è univoco solo in ogni video, ma non nel set di dati. Ad esempio, se due oggetti di due video diversi hanno lo stesso ID istanza, non significa che si tratti della stessa istanza di oggetto.
TIME_OFFSET. Il frame video che indica il compensare della durata dall'inizio del video. Il offset di tempo è un numero in virgola mobile e le unità sono in secondi.
BOUNDING_BOX. Un riquadro di delimitazione per un oggetto nell'inquadratura del video. La specifica di un riquadro di delimitazione coinvolge più di una colonna.

A. x_relative_min,y_relative_min
B. x_relative_max,y_relative_min
C. x_relative_max,y_relative_max
D. x_relative_min,y_relative_max

Ogni vertice è specificato dai valori delle coordinate x e y. I valori delle coordinate devono essere un numero in virgola mobile nell'intervallo da 0 a 1, dove 0 rappresenta il valore minimo di x o y e 1 rappresenta il valore massimo di x o y.
Ad esempio, (0,0) rappresenta l'angolo in alto a sinistra e (1,1) rappresenta l'angolo in basso a destra. Un riquadro delimitante per l'intera immagine è espresso come (0,0,,,1,1,,) o (0,0,1,0,1,1,0,1).
Il monitoraggio degli oggetti AutoML non richiede un ordine specifico dei vertici. Inoltre, se quattro vertici specificati non formano un rettangolo parallelo ai bordi dell'immagine, Vertex AI specifica i vertici che formano un rettangolo di questo tipo.
Il riquadro di delimitazione di un oggetto può essere specificato in due modi:
1. Due vertici specificati costituiti da un insieme di coordinate x,y se sono punti diagonalmente opposti del rettangolo:
  A. x_relative_min,y_relative_min
  C. x_relative_max,y_relative_max
  come mostrato in questo esempio:
  x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,,
2. Tutti e quattro i vertici specificati come mostrato in:
  x_relative_min,y_relative_min, x_relative_max,y_relative_min, x_relative_max,y_relative_max, x_relative_min,y_relative_max,
  Se i quattro vertici specificati non formano un rettangolo parallelo ai bordi dell'immagine, Vertex AI specifica i vertici che formano un rettangolo di questo tipo.

Esempi di righe nei file del set di dati

Le righe seguenti mostrano come specificare i dati in un set di dati. L'esempio include un percorso a un video su Cloud Storage, un'etichetta per l'oggetto, un offset di tempo per iniziare il monitoraggio e due vertici diagonali. VIDEO_URI.,LABEL,INSTANCE_ID,TIME_OFFSET,x_relative_min,y_relative_min,x_relative_max,y_relative_min,x_relative_max,y_relative_max,x_relative_min,y_relative_max

gs://folder/video1.avi,car,,12.90,0.8,0.2,,,0.9,0.3,,
gs://folder/video1.avi,bike,,12.50,0.45,0.45,,,0.55,0.55,,
dove,

VIDEO_URI è gs://folder/video1.avi,
LABEL è car,
INSTANCE_ID , (non specificato)
TIME_OFFSET è 12.90,
x_relative_min,y_relative_min sono 0.8,0.2,
x_relative_max,y_relative_min non specificato,
x_relative_max,y_relative_max sono 0.9,0.3,
x_relative_min,y_relative_max non sono specificati

Come indicato in precedenza, puoi anche specificare i riquadri di delimitazione fornendo tutti e quattro i vertici, come mostrato negli esempi seguenti.

gs://folder/video1.avi,car,,12.10,0.8,0.8,0.9,0.8,0.9,0.9,0.8,0.9 gs://folder/video1.avi,car,,12.90,0.4,0.8,0.5,0.8,0.5,0.9,0.4,0.9 gs://folder/video1.avi,car,,12.10,0.4,0.2,0.5,0.2,0.5,0.3,0.4,0.3

CSV di esempio - senza etichette:

Puoi anche fornire i video nel file di dati senza specificare alcuna etichetta. Prima di addestrare il modello, devi utilizzare la console Google Cloud per applicare le etichette ai dati. A questo scopo, devi solo fornire l'URI Cloud Storage del video seguito da undici virgole, come mostrato nell'esempio seguente.

Esempio senza ml_use assegnato:

  gs://folder/video1.avi
  ...

Esempio con ml_use assegnato:

  TRAINING,gs://folder/video1.avi
  TEST,gs://folder/video2.avi
  ...

Avanti

Crea set di dati