Un set di dati contiene campioni rappresentativi del tipo di contenuti che si desidera tradurre, come coppie di frasi corrispondenti nelle lingue di origine e di destinazione. Il set di dati funge da input per l'addestramento di un modello.
I passaggi principali per creare un set di dati sono:
- Crea un set di dati e identifica le lingue di origine e di destinazione.
- Importa coppie di frasi nel set di dati.
Un progetto può avere più set di dati, ognuno dei quali viene utilizzato per addestrare un modello separato. Puoi ottenere un elenco dei set di dati disponibili e non è più necessario eliminare i set di dati.
Creazione di un set di dati
Il primo passaggio nella creazione di un modello personalizzato è quello di creare un set di dati vuoto alla fine contengono i dati di addestramento del modello. Quando crei un set di dati, identificare le lingue di origine e di destinazione per il modello. Per ulteriori informazioni sulle lingue e sulle varianti supportate, consulta la sezione Supporto delle lingue per modelli di machine learning.
UI web
L'interfaccia utente di AutoML Translation consente di creare un nuovo set di dati e di importare dalla stessa pagina.
Visita la UI di AutoML Translation.
Seleziona il progetto per il quale hai abilitato AutoML Translation dal menu a discesa in alto a destra nella barra del titolo.
Nella scheda Set di dati, fai clic su Crea set di dati.
Nella finestra di dialogo Crea set di dati, segui questi passaggi:
- Inserisci un nome per il set di dati.
Seleziona la lingua di origine e di destinazione dagli elenchi a discesa. Quando selezioni una lingua Traduci da, l'opzione Traduci in lingue.
Fai clic su Crea. Viene visualizzata la scheda Importa.
REST
Invia la richiesta di creazione del set di dati
Di seguito viene illustrato come inviare una richiesta POST
all'indirizzo
project.locations.datasets/create
.
L'esempio utilizza il token di accesso per un account di servizio configurato per
utilizzando Google Cloud CLI.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto Google Cloud Platform
- dataset-name: il nome del nuovo set di dati
- source-language-code: la lingua che vuoi tradurre da, come un codice ISO 639-1 come "en"
- target-language-code: la lingua che vuoi tradurre in un codice ISO 639-1, ad esempio "es"
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Corpo JSON della richiesta:
{ "displayName": "dataset-name", "translationDatasetMetadata": { "sourceLanguageCode": "source-language-code", "targetLanguageCode": "target-language-code" } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:48.155710Z", "createDatasetDetails": {} } }
Ottieni i risultati
Per ottenere i risultati della tua richiesta, devi inviare una richiesta GET
a
la risorsa operations
. Di seguito viene illustrato come inviare un
richiesta.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- operation-name: il nome dell'operazione come restituito nella risposta alla chiamata originale all'API
- project-id: il tuo ID progetto Google Cloud Platform
Metodo HTTP e URL:
GET https://automl.googleapis.com/v1/operation-name
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:52.321072Z", ... }, "done": true, "response": { "@type": "resource-type", "name": "resource-name" } }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Go documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Java documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Node.js documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Python documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per PHP.
Rubino: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per Ruby.
Importazione di elementi in un set di dati
Dopo aver creato un set di dati, puoi importare coppie di frasi di addestramento al suo interno. Per maggiori dettagli sulla preparazione dei dati di addestramento, vedi Preparazione dei dati di addestramento.
UI web
L'interfaccia utente di AutoML Translation consente di creare un nuovo set di dati e di importare dalla stessa pagina (consulta l'articolo Creazione di un set di dati). I passaggi che seguono importare elementi in un set di dati esistente.
Dopo aver creato la cartella del set di dati, devi caricare i dati.Carica le coppie di frasi da utilizzare per addestrare il modello.
Nella scheda Importa, puoi caricare file TSV o TMX dal tuo dal computer locale o da Cloud Storage. Per i file importati localmente, Dopo aver selezionato il file, fai clic su Sfoglia. Viene visualizzato un elenco di cartelle. Seleziona la cartella in cui vuoi caricare il file. Questa directory ospitati su Cloud Storage è obbligatorio per garantire la residenza dei dati.
Seleziona la casella di controllo Usa file separati per addestramento, convalida test (avanzato), se vuoi caricare file separati contenenti coppie di frasi. Questa opzione è consigliata se le tue ha più di 100.000 coppie di frasi. Devi allocare 10.000 coppie di frasi al massimo per set di convalida e test; altrimenti AutoML Translation restituisce un errore.
Fai clic su Continua.
Tornerai alla pagina Set di dati. Il set di dati mostra una durante l'importazione dei documenti. Quando il set di dati è caricato correttamente, riceverai un messaggio all'indirizzo email che hai usato per iscriverti al programma.
Esamina il set di dati.
Dopo aver importato i dati, seleziona il set di dati dal Scheda Set di dati per vedere i dettagli del set di dati. La scheda Sentence è attivata e mostra il nome il set di dati. Vengono elencate le coppie di frasi. A ogni coppia viene assegnato un "convalida" o "test" che indica in quale fase di elaborazione .
REST
Utilizza la
projects.locations.datasets.importData
per importare elementi in un set di dati.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- dataset-name: il nome del set di dati, come restituito dall'API al momento della creazione del set di dati
- bucket-name: il bucket Cloud Storage che contiene il file CSV di input che descrive il set di dati
- csv-file-name: il nome del file CSV di input che descrive il set di dati
- project-id: il tuo ID progetto Google Cloud Platform
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/dataset-name:importData
Corpo JSON della richiesta:
{ "inputConfig": { "gcsSource": { "inputUris": "gs://bucket-name/csv-file-name" } } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Go documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Java documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Node.js documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Python documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per PHP.
Rubino: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per Ruby.
Dopo aver creato e compilato il set di dati, puoi iniziare ad addestrare il modello (consulta l'articolo Creare e gestire modelli).
Gestione dei set di dati
Elenco dei set di dati
Un progetto può includere numerosi set di dati. Questa sezione descrive come recuperare un elenco dei set di dati disponibili per un progetto.
UI web
Per visualizzare un elenco dei set di dati disponibili utilizzando la UI di AutoML Translation, Fai clic sul link Set di dati in alto nel menu di navigazione a sinistra.
Per visualizzare i set di dati di un altro progetto, seleziona il progetto dal menu a discesa in alto a destra nella barra del titolo.
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto Google Cloud Platform
Metodo HTTP e URL:
GET https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "datasets": [ { "name": "projects/project-number/locations/us-central1/datasets/dataset-id", "displayName": "dataset-display-name", "createTime": "2019-10-01T22:47:38.347689Z", "etag": "AB3BwFpPWn6klFqJ867nz98aXr_JHcfYFQBMYTf7rcO-JMi8Ez4iDSNrRW4Vv501i488", "translationDatasetMetadata": { "sourceLanguageCode": "source-language", "targetLanguageCode": "target-language" } }, ... ] }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Go documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Java documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Node.js documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Python documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per PHP.
Rubino: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per Ruby.
Eliminazione di un set di dati
UI web
Nella UI di AutoML Translation, fai clic sul link Set di dati in alto nel menu di navigazione a sinistra per visualizzare l'elenco dei set di dati disponibili.
Fai clic sul menu con tre puntini all'estrema destra della riga che vuoi eliminare e Seleziona Elimina.
Fai clic su Conferma nella finestra di dialogo di conferma.
REST
- Sostituisci dataset-name con il nome completo del tuo set di dati,
quando hai creato il set di dati. Il nome completo ha il formato:
projects/{project-id}/locations/us-central1/datasets/{dataset-id}
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- dataset-name: il nome del set di dati che
da eliminare, nel formato
project/project-id/locations/us-central1/datasets/dataset-id
Metodo HTTP e URL:
DELETE https://automl.googleapis.com/v1/dataset-name
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-02T16:43:03.923442Z", "updateTime": "2019-10-02T16:43:03.923442Z", "deleteDetails": {} }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Go documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Java documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Node.js documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Translation, consulta Librerie client di AutoML Translation. Per ulteriori informazioni, consulta API AutoML Translation Python documentazione di riferimento.
Per eseguire l'autenticazione su AutoML Translation, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per PHP.
Rubino: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di AutoML Translation per Ruby.
Problemi relativi all'importazione
Quando crei un set di dati, AutoML Translation potrebbe eliminare coppie di frasi se sono troppo lunghi o se le coppie sono identiche nell'origine e nella destinazione lingue diverse.
Per le coppie di frasi troppo lunghe, consigliamo di suddividere le frasi a circa 200 parole o meno, quindi ricrea il set di dati per includere di coppie perse. Durante l'elaborazione dei dati, AutoML Translation utilizza processo interno per tokenizzare i dati di input, il che può aumentare la dimensione le tue frasi. AutoML Translation usa questi dati tokenizzati per misurare le dimensioni dei dati. Pertanto, il limite di 200 parole è una stima del numero lunghezza.
Per le coppie di frasi che sono le stesse nelle lingue di origine e di destinazione, puoi rimuoverli dal tuo set di dati. Se vuoi mantenere queste frasi, non tradotti, utilizza una risorsa di glossario per crea un dizionario personalizzato che definisce il modo in cui AutoML Translation gestisce termini specifici.