Un set di dati contiene campioni rappresentativi del tipo di contenuti che vuoi tradurre, sotto forma di coppie di frasi corrispondenti nelle lingue di origine e di destinazione. Il set di dati funge da input per l'addestramento di un modello.
I passaggi principali per la creazione di un set di dati sono:
- Crea un set di dati e identifica le lingue di origine e di destinazione.
- Importa coppie di frasi nel set di dati.
Un progetto può avere più set di dati, ciascuno utilizzato per addestrare un modello separato. Puoi ottenere un elenco dei set di dati disponibili ed eliminare quelli non più necessari.
Creazione di un set di dati
Il primo passaggio nella creazione di un modello personalizzato consiste nel creare un set di dati vuoto che alla fine conserverà i dati di addestramento del modello. Quando crei un set di dati, devi identificare le lingue di origine e di destinazione del modello. Per ulteriori informazioni sulle lingue e sulle varianti supportate, consulta la pagina relativa al supporto delle lingue per i modelli personalizzati.
UI web
L'interfaccia utente di AutoML Translation consente di creare un nuovo set di dati e importare elementi al suo interno dalla stessa pagina.
Visita l'interfaccia utente di AutoML Translation.
Seleziona il progetto per il quale hai abilitato AutoML Translation dall'elenco a discesa in alto a destra nella barra del titolo.
Nella scheda Set di dati, fai clic su Crea set di dati.
Nella finestra di dialogo Crea set di dati, segui questi passaggi:
- Inserisci un nome per il set di dati.
Seleziona le lingue di origine e di destinazione dagli elenchi a discesa. Quando selezioni una lingua di tipo Traduci da, vengono visualizzate le lingue disponibili in Traduci in.
Fai clic su Crea. Si apre la scheda Importa.
REST
Invia la richiesta di creazione del set di dati
Di seguito viene illustrato come inviare una richiesta POST
al metodo project.locations.datasets/create
.
L'esempio utilizza il token di accesso per un account di servizio configurato per il progetto utilizzando Google Cloud CLI.
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto Google Cloud Platform
- dataset-name: il nome del nuovo set di dati
- source-language-code: la lingua da cui vuoi tradurre, ad esempio un codice ISO 639-1 come "en"
- target-language-code: la lingua in cui vuoi tradurre, ad esempio un codice ISO 639-1 come "es"
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Corpo JSON della richiesta:
{ "displayName": "dataset-name", "translationDatasetMetadata": { "sourceLanguageCode": "source-language-code", "targetLanguageCode": "target-language-code" } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:48.155710Z", "createDatasetDetails": {} } }
Visualizza i risultati
Per ottenere i risultati della richiesta, devi inviare una richiesta GET
alla risorsa operations
. Di seguito viene mostrato come inviare una richiesta di questo tipo.
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- operation-name: il nome dell'operazione restituito nella risposta alla chiamata originale all'API
- project-id: il tuo ID progetto Google Cloud Platform
Metodo HTTP e URL:
GET https://automl.googleapis.com/v1/operation-name
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:52.321072Z", ... }, "done": true, "response": { "@type": "resource-type", "name": "resource-name" } }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Go.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Java.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Node.js.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Python.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per .NET.
PHP: segui le istruzioni di configurazione PHP nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per Ruby.
Importazione di elementi in un set di dati
Dopo aver creato un set di dati, puoi importare coppie di frasi di addestramento al suo interno. Per maggiori dettagli sulla preparazione dei dati di addestramento, consulta Preparazione dei dati di addestramento.
UI web
L'interfaccia utente di AutoML Translation consente di creare un nuovo set di dati e importare elementi al suo interno dalla stessa pagina (vedi Creazione di un set di dati). I passaggi riportati di seguito per importare gli elementi in un set di dati esistente.
Dopo aver creato la cartella del set di dati, devi caricare i dati.Carica le coppie di frasi da utilizzare per l'addestramento del modello.
Nella scheda Importa, puoi caricare file TSV o TMX dal computer locale o da Cloud Storage. Per i file importati localmente, dopo aver selezionato il file fai clic su Sfoglia. Viene visualizzato un elenco di cartelle. Seleziona la cartella in cui vuoi caricare il file. Questa directory ospitata su Cloud Storage è necessaria per garantire la residenza dei dati.
Seleziona la casella di controllo Utilizza file separati per addestramento, convalida e test (avanzato), se vuoi caricare file separati contenenti le coppie di frasi. Questa opzione è consigliata se il set di dati ha più di 100.000 coppie di frasi. Devi allocare 10.000 coppie di frasi al massimo per i set di convalida e di test; in caso contrario, AutoML Translation restituisce un errore.
Fai clic su Continua.
Tornerai alla pagina Set di dati. Il set di dati mostra un'animazione in corso durante l'importazione dei documenti. Una volta caricato il set di dati, riceverai un messaggio all'indirizzo email che hai utilizzato per registrarti al programma.
Esamina il set di dati.
Dopo aver importato i dati, seleziona il set di dati dalla scheda Set di dati per visualizzarne i dettagli. La scheda Frase è abilitata e mostra il nome del set di dati. Vengono elencate le coppie di frasi. A ogni coppia viene assegnato un addestramento, una convalida o un test, che indica in quale fase dell'elaborazione verrà utilizzata la coppia.
REST
Utilizza il metodo projects.locations.datasets.importData
per importare elementi in un set di dati.
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- dataset-name: il nome del set di dati, come restituito dall'API al momento della creazione del set di dati
- bucket-name: il bucket Cloud Storage che contiene il file CSV di input che descrive il set di dati
- csv-file-name: il nome del file CSV di input che descrive il set di dati
- project-id: il tuo ID progetto Google Cloud Platform
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/dataset-name:importData
Corpo JSON della richiesta:
{ "inputConfig": { "gcsSource": { "inputUris": "gs://bucket-name/csv-file-name" } } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Go.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Java.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Node.js.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Python.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per .NET.
PHP: segui le istruzioni di configurazione PHP nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per Ruby.
Dopo aver creato e completato il set di dati, puoi iniziare ad addestrare il modello (vedi Creazione e gestione di modelli).
Gestione dei set di dati
Elenco dei set di dati
Un progetto può includere numerosi set di dati. Questa sezione descrive come recuperare un elenco dei set di dati disponibili per un progetto.
UI web
Per visualizzare un elenco dei set di dati disponibili utilizzando l'UI di AutoML Translation, fai clic sul link Set di dati nella parte superiore del menu di navigazione a sinistra.
Per visualizzare i set di dati per un altro progetto, seleziona il progetto dall'elenco a discesa in alto a destra nella barra del titolo.
REST
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto Google Cloud Platform
Metodo HTTP e URL:
GET https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "datasets": [ { "name": "projects/project-number/locations/us-central1/datasets/dataset-id", "displayName": "dataset-display-name", "createTime": "2019-10-01T22:47:38.347689Z", "etag": "AB3BwFpPWn6klFqJ867nz98aXr_JHcfYFQBMYTf7rcO-JMi8Ez4iDSNrRW4Vv501i488", "translationDatasetMetadata": { "sourceLanguageCode": "source-language", "targetLanguageCode": "target-language" } }, ... ] }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Go.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Java.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Node.js.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Python.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per .NET.
PHP: segui le istruzioni di configurazione PHP nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per Ruby.
Eliminazione di un set di dati
UI web
Nell'interfaccia utente di AutoML Translation, fai clic sul link Set di dati nella parte superiore del menu di navigazione a sinistra per visualizzare l'elenco dei set di dati disponibili.
Fai clic sul menu con tre puntini all'estrema destra della riga da eliminare e seleziona Elimina.
Fai clic su Conferma nella finestra di dialogo di conferma.
REST
- Sostituisci dataset-name con il nome completo del set di dati, recuperato dalla risposta al momento della creazione del set di dati. Il nome completo ha il formato:
projects/{project-id}/locations/us-central1/datasets/{dataset-id}
Prima di utilizzare qualsiasi dato della richiesta, effettua le seguenti sostituzioni:
- dataset-name: il nome del set di dati da eliminare, nel formato
project/project-id/locations/us-central1/datasets/dataset-id
Metodo HTTP e URL:
DELETE https://automl.googleapis.com/v1/dataset-name
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-02T16:43:03.923442Z", "updateTime": "2019-10-02T16:43:03.923442Z", "deleteDetails": {} }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Go.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Java.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Node.js.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta la pagina relativa alle librerie client di AutoML Translation. Per saperne di più, consulta la documentazione di riferimento dell'API AutoML Translation Python.
Per eseguire l'autenticazione in AutoML Translation, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta la pagina Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per .NET.
PHP: segui le istruzioni di configurazione PHP nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Translation per Ruby.
Problemi di importazione
Quando crei un set di dati, AutoML Translation potrebbe eliminare coppie di frasi se sono troppo lunghe o se sono esattamente le stesse nelle lingue di origine e di destinazione.
Per coppie di frasi troppo lunghe, ti consigliamo di suddividere le frasi fino a un massimo di 200 parole e poi ricreare il set di dati in modo da includere le coppie eliminate. Durante l'elaborazione dei dati, AutoML Translation utilizza un processo interno per tokenizzare i dati di input, con un conseguente aumento delle dimensioni delle frasi. AutoML Translation utilizza questi dati tokenizzati per misurare le dimensioni dei dati. Pertanto, il limite di 200 parole è una stima della lunghezza massima.
Per le coppie di frasi uguali nelle lingue di origine e di destinazione, puoi rimuoverle dal tuo set di dati. Se vuoi mantenere queste frasi non tradotte, utilizza una risorsa di glossario per creare un dizionario personalizzato che definisca il modo in cui AutoML Translation gestisce termini specifici.