Creazione e gestione dei set di dati

Un set di dati contiene campioni rappresentativi del tipo di contenuti che vuoi da tradurre, come coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Il set di dati funge da input per l'addestramento di un modello.

Un progetto può avere più set di dati, ognuno dei quali può essere utilizzato per addestrare un modello distinto.

Crea un set di dati

Crea un set di dati contenente i dati di addestramento per il modello. Quando crei un set di dati, specifichi le lingue di origine e di destinazione dei dati di addestramento. Per Per saperne di più sulle lingue e sulle varianti supportate, consulta la sezione Lingua il supporto per i modelli personalizzati.

UI web

La console di AutoML Translation ti consente di creare un nuovo set di dati e di importarvi gli elementi.
  1. Vai alla console di AutoML Translation.

    Vai alla sezione Pagina di traduzione

  2. Nel riquadro di navigazione, fai clic su Set di dati.

  3. Nella pagina Set di dati, fai clic su Crea set di dati.

  4. Nella finestra di dialogo Crea set di dati, specifica i dettagli del set di dati:

    • Inserisci un nome per il set di dati.
    • Seleziona la lingua di origine e di destinazione dagli elenchi a discesa.
    • Fai clic su Crea.

REST

L'esempio seguente mostra come inviare una richiesta POST all'indirizzo project.locations.datasets/create.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • LOCATION: la regione in cui si troverà il set di dati, ad esempio us-central1.
  • DATASET_NAME: nome del set di dati.
  • SOURCE_LANG_CODE: il codice lingua che specifica la lingua di origine del set di dati.
  • TARGET_LANG_CODE: la lingua codice che specifica la lingua di destinazione del set di dati.

Metodo HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Corpo JSON della richiesta:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per PHP.

Ruby: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per Ruby.

Importare segmenti in un set di dati

Dopo aver creato un set di dati, puoi importare le coppie di segmenti al suo interno. Per informazioni dettagliate sulla preparazione dei dati di origine, consulta Preparare i dati di addestramento.

Per ogni file, la console Google Cloud ti consente di taggare le coppie di segmenti importati con una o più coppie chiave-valore. Il tagging semplifica la ricerca e il filtro dei segmenti per sorgente. Ad esempio, una coppia chiave-valore potrebbe essere Domain:costmetics o Year:2020.

Puoi aggiungere tag quando importi i segmenti tramite la console Google Cloud. Il tagging non è supportato dall'API. Inoltre, non puoi modificare i tag o aggiungerne ai segmenti già importati.

UI web

I passaggi seguenti consentono di importare elementi in un set di dati esistente.

  1. Vai alla console di AutoML Translation.

    Vai alla sezione Pagina di traduzione

  2. Nel riquadro di navigazione, fai clic su Set di dati.

  3. Nell'elenco dei set di dati, fai clic sul nome del set di dati da aggiungere per l'addestramento dei dati.

  4. Vai alla scheda Importa.

  5. Aggiungi file per importare coppie di segmenti per l'addestramento del modello.

    Carica file dal computer locale in un bucket Cloud Storage o seleziona file esistenti da Cloud Storage.

    Per impostazione predefinita, Cloud Translation suddivide automaticamente i dati in set di addestramento, convalida e test. Se vuoi caricare file separati per ogni suddivisione, seleziona Usa file separati per addestramento, convalida e test (livello avanzato). Utilizza questa opzione se il set di dati ha più di 100.000 segmenti per evitare di superare il limite massimo di 10.000 coppie di segmenti per il di convalida e test.

  6. Per aggiungere tag a coppie di segmenti, espandi Tag (facoltativo).

    1. Nell'elenco dei file, fai clic su Modifica per aggiungere uno o più tag a tutte le coppie di segmenti di un determinato file.

    2. Nel riquadro Tag, fai clic su Aggiungi tag.

    3. Inserisci una chiave e un valore. Potrai filtrare i segmenti in base a questa coppia chiave-valore.

    4. Per aggiungere altri tag, fai clic su Aggiungi tag.

    5. Fai clic su Continua dopo aver aggiunto i tag.

  7. Fai clic su Continua per importare le coppie di segmenti.

    Al termine dell'importazione, puoi visualizzare le coppie di frasi importate nella scheda Frasi del set di dati. Filtra i segmenti in base alla suddivisione (addestramento, convalida o test) e a uno o più tag.

REST

Utilizza il metodo projects.locations.datasets.importData per importare elementi in un set di dati.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • LOCATION: la regione in cui si troverà il set di dati, ad esempio us-central1.
  • DATASET_ID: l'ID del set di dati a cui aggiungere i dati.
  • FILE_DISPLAY_NAME: il nome del file che contiene i dati da per l'importazione.
  • USAGE: specifica la suddivisione dei dati per queste coppie di segmenti (TRAIN, VALIDATION o TEST).
  • FILE_PATH: il percorso del file di dati di origine in Cloud Storage.

Metodo HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Corpo JSON della richiesta:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per Ruby.

Dopo aver creato e compilato il set di dati, puoi addestrare un modello. Per maggiori informazioni, consulta la sezione Creare e gestire i modelli.

Problemi di importazione

Quando crei un set di dati, AutoML Translation potrebbe eliminare coppie di segmenti se sono troppo lunghi, se i segmenti nelle lingue di origine e di destinazione sono identici (non tradotti) o se sono presenti duplicati (più segmenti con lo stesso testo nella lingua di origine).

Per le coppie di segmenti troppo lunghe, ti consigliamo di suddividere i segmenti in circa 200 parole o meno e di ricreare il set di dati. Il limite di 200 parole è una stima della lunghezza massima. Durante l'elaborazione dei dati, AutoML Translation utilizza un processo interno per tokenizzare i dati di input, che possono aumentare la dimensione dei segmenti. Questi dati tokenizzati sono AutoML Translation utilizza per misurare le dimensioni dei dati.

Rimuovi dal set di dati le coppie di segmenti identiche. Se vuoi per impedire la traduzione di alcuni segmenti, utilizza un glossario risorsa per creare un dizionario personalizzato .

Esporta i dati

Puoi esportare coppie di segmenti da set di dati esistenti a un ambiente Cloud Storage di sincronizzare la directory di una VM con un bucket.

UI web

  1. Vai alla console di AutoML Translation.

    Vai alla pagina traduzione

  2. Nel riquadro di navigazione, fai clic su Set di dati per visualizzare un elenco dei tuoi set di dati.

  3. Fai clic sul nome del set di dati per cui vuoi esportare i dati.

  4. Nella pagina dei dettagli del set di dati, fai clic su Esporta dati.

  5. Seleziona una destinazione Cloud Storage in cui vengono salvati i file TSV esportati.

  6. Fai clic su Esporta.

    AutoML Translation genera file TSV che vengono denominati in base al set di dati (addestramento, convalida e test).

REST

Utilizza il metodo projects.locations.datasets.exportData per esportare i dati in Cloud Storage come file TSV.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • LOCATION: la regione in cui si trova il set di dati da esportare, ad esempio us-central1.
  • DATASET_ID: l'ID del set di dati da esportare.
  • DESTINATION_DIRECTORY: il percorso di Cloud Storage in cui viene inviato l'output.

Metodo HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Corpo JSON della richiesta:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.

Elenca set di dati

Elenca i set di dati disponibili nel tuo progetto.

UI web

Per visualizzare un elenco dei set di dati disponibili utilizzando il comando AutoML Translation Console, fai clic su Set di dati dal riquadro di navigazione.

Per visualizzare i set di dati di un altro progetto, selezionalo dall'elenco a discesa in alto a destra nella barra del titolo.

REST

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • LOCATION: la regione in cui si trovano i set di dati da elencare, ad esempio us-central1.

Metodo HTTP e URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Linguaggi aggiuntivi

C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.

Eliminazione di un set di dati

UI web

  1. Nella console di AutoML Translation, fai clic su Set di dati nel riquadro di navigazione per visualizzare l'elenco dei set di dati disponibili.

  2. Per il set di dati da eliminare, seleziona Altro > Elimina.

  3. Fai clic su Conferma nella finestra di dialogo di conferma.

REST

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud.
  • LOCATION: la regione in cui si trovano i set di dati da elencare, ad esempio us-central1.
  • DATASET_ID: l'ID del set di dati da eliminare.

Metodo HTTP e URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione per C# riportate nella pagina delle librerie client e consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per PHP.

Ruby: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di Cloud Translation per Ruby.