Creazione e gestione dei set di dati

Un set di dati contiene esempi rappresentativi del tipo di contenuti che vuoi tradurre, come coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Il set di dati funge da input per l'addestramento di un modello.

Un progetto può avere più set di dati, ognuno dei quali può essere utilizzato per addestrare un modello separato.

crea un set di dati

Creare un set di dati contenente i dati di addestramento per il modello. Quando crei un set di dati, specifichi le lingue di origine e di destinazione dei dati di addestramento. Per scoprire di più sulle lingue e sulle varianti supportate, consulta la pagina Supporto delle lingue per i modelli personalizzati.

UI web

La console AutoML Translation consente di creare un nuovo set di dati e di importarvi elementi.
  1. Vai alla console di AutoML Translation.

    Vai alla pagina Traduzione

  2. Nel riquadro di navigazione, fai clic su Set di dati.

  3. Nella pagina Set di dati, fai clic su Crea set di dati.

  4. Nella finestra di dialogo Crea set di dati, specifica i dettagli del set di dati:

    • Inserisci un nome per il set di dati.
    • Seleziona le lingue di origine e di destinazione dagli elenchi a discesa.
    • Fai clic su Crea.

REST

L'esempio seguente mostra come inviare una richiesta POST al metodo project.locations.datasets/create.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione in cui si troverà il set di dati, ad esempio us-central1.
  • DATASET_NAME: un nome per il set di dati.
  • SOURCE_LANG_CODE: il codice lingua che specifica la lingua di origine del set di dati.
  • TARGET_LANG_CODE: il codice lingua che specifica la lingua di destinazione del set di dati.

Metodo e URL HTTP:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Corpo JSON richiesta:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.

Importa i segmenti in un set di dati

Dopo aver creato un set di dati, puoi importare le coppie di segmenti nel set di dati. Per maggiori dettagli sulla preparazione dei dati di origine, consulta Preparazione dei dati di addestramento.

UI web

I seguenti passaggi importano gli elementi in un set di dati esistente.

  1. Vai alla console di AutoML Translation.

    Vai alla pagina Traduzione

  2. Nel riquadro di navigazione, fai clic su Set di dati.

  3. Nell'elenco dei set di dati, fai clic sul nome del set di dati a cui vuoi aggiungere i dati di addestramento.

  4. Vai alla scheda Importa.

  5. Carica le coppie di segmenti da utilizzare per creare un modello.

    Carica i file dal tuo computer locale in un bucket Cloud Storage o seleziona i file esistenti da Cloud Storage.

    Per impostazione predefinita, Cloud Translation suddivide automaticamente i dati in set di addestramento, convalida e test. Se vuoi caricare file distinti per ogni suddivisione, seleziona Utilizza file separati per addestramento, convalida e test (avanzato). Utilizza questa opzione se il tuo set di dati ha più di 100.000 coppie di segmenti per evitare di superare il limite massimo di 10.000 coppie di segmenti per i set di convalida e di test.

  6. Fai clic su Continua.

    Una volta completata l'importazione, puoi visualizzare le coppie di frasi importate nella scheda Frasi del tuo set di dati. Puoi anche filtrare i segmenti per suddivisione (addestramento, convalida o test).

REST

Utilizza il metodo projects.locations.datasets.importData per importare elementi in un set di dati.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione in cui si troverà il set di dati, ad esempio us-central1.
  • DATASET_ID: l'ID del set di dati a cui aggiungere i dati.
  • FILE_DISPLAY_NAME: il nome del file contenente i dati da importare.
  • USAGE: specifica la suddivisione dei dati per queste coppie di segmenti (TRAIN, VALIDATION o TEST).
  • FILE_PATH: il percorso del file di dati di origine in Cloud Storage.

Metodo e URL HTTP:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Corpo JSON richiesta:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.

Dopo aver creato e completato il set di dati, puoi addestrare un modello. Per ulteriori informazioni, consulta la sezione Creazione e gestione dei modelli.

Problemi di importazione

Quando crei un set di dati, AutoML Translation potrebbe eliminare le coppie di segmenti se sono troppo lunghe, se i segmenti nelle lingue di origine e di destinazione sono identici (non tradotti) o se sono presenti duplicati (più segmenti con lo stesso testo della lingua di origine).

Per coppie di segmenti troppo lunghe, ti consigliamo di suddividere i segmenti con un massimo di circa 200 parole e poi ricreare il set di dati. Il limite di 200 parole è una stima per la lunghezza massima. Durante l'elaborazione dei dati, AutoML Translation utilizza un processo interno per tokenizzare i dati di input, che possono aumentare le dimensioni dei segmenti. Questi dati tokenizzati sono ciò che viene utilizzato da AutoML Translation per misurare le dimensioni dei dati.

Rimuovi le coppie di segmenti identiche dal set di dati. Se vuoi impedire la traduzione di alcuni segmenti, utilizza una risorsa glossario per creare un dizionario personalizzato.

Esporta i dati

Puoi esportare le coppie di segmenti dai set di dati esistenti in un bucket Cloud Storage.

UI web

  1. Vai alla console di AutoML Translation.

    Vai alla pagina Traduzione

  2. Nel riquadro di navigazione, fai clic su Set di dati per visualizzare un elenco dei tuoi set di dati.

  3. Fai clic sul nome del set di dati per cui vuoi esportare i dati.

  4. Nella pagina dei dettagli del set di dati, fai clic su Esporta dati.

  5. Seleziona una destinazione Cloud Storage in cui vengono salvati i file TSV esportati.

  6. Fai clic su Esporta.

    AutoML Translation genera file TSV denominati in base al loro set di set di dati (addestramento, convalida e test).

REST

Utilizza il metodo projects.locations.datasets.exportData per esportare i dati in Cloud Storage come file TSV.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione in cui si trova il set di dati da esportare, ad esempio us-central1.
  • DATASET_ID: l'ID del set di dati da esportare.
  • DESTINATION_DIRECTORY: il percorso Cloud Storage a cui viene inviato l'output.

Metodo e URL HTTP:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Corpo JSON richiesta:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.

Creazione di un elenco di set di dati

Elenca i set di dati disponibili nel tuo progetto.

UI web

Per visualizzare un elenco dei set di dati disponibili utilizzando la console di traduzione AutoML, fai clic su Set di dati dal riquadro di navigazione.

Per visualizzare i set di dati di un altro progetto, seleziona il progetto dall'elenco a discesa in alto a destra nella barra del titolo.

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione in cui si trovano i set di dati da elencare, ad esempio us-central1.

Metodo e URL HTTP:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.

Eliminazione di un set di dati

UI web

  1. Nella console di traduzione AutoML, fai clic su Set di dati nel riquadro di navigazione per visualizzare l'elenco dei set di dati disponibili.

  2. Per eliminare il set di dati, seleziona Altro > Elimina.

  3. Fai clic su Conferma nella finestra di dialogo di conferma.

REST

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione in cui si trovano i set di dati da elencare, ad esempio us-central1.
  • DATASET_ID: l'ID del set di dati da eliminare.

Metodo e URL HTTP:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Linguaggi aggiuntivi

C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per .NET.

PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per PHP.

Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e poi consulta la documentazione di riferimento di Cloud Translation per Ruby.