Un set di dati contiene campioni rappresentativi del tipo di contenuti da classificare, etichettati con le etichette delle categorie che vuoi che vengano utilizzate dal modello personalizzato. Il set di dati serve da input per l'addestramento di un modello.
Di seguito sono riportati i passaggi principali per la creazione di un set di dati:
- Crea una risorsa del set di dati.
- Importare i dati di addestramento nel set di dati.
- Etichetta i documenti o identifica le entità.
Per la classificazione e l'analisi del sentiment, i passaggi 2 e 3 sono spesso combinati. Puoi importare documenti con le relative etichette già assegnate.
Creazione di un set di dati
Il primo passaggio nella creazione di un modello personalizzato è creare un set di dati vuoto che conserverà alla fine i dati di addestramento del modello. Il set di dati appena creato non contiene dati fino a quando non importi documenti al suo interno.
UI web
Per creare un set di dati:
Apri l'interfaccia utente di AutoML Natural Language e seleziona Inizia nella casella corrispondente al tipo di modello che intendi addestrare.
Viene visualizzata la pagina Set di dati, che mostra lo stato dei set di dati creati in precedenza per il progetto attuale.
Per aggiungere un set di dati per un altro progetto, seleziona il progetto dall'elenco a discesa in alto a destra nella barra del titolo.
Fai clic sul pulsante Nuovo set di dati nella barra del titolo.
Inserisci un nome per il set di dati e specifica la Località geografica in cui archiviare il set di dati.
Per ulteriori informazioni, consulta la sezione Località.
Seleziona l'obiettivo del modello, che specifica il tipo di analisi che eseguirai con il modello addestrato utilizzando questo set di dati.
- La classificazione con etichetta singola assegna una singola etichetta a ciascun documento classificato
- La classificazione con più etichette consente di assegnare più etichette a un documento
- L'estrazione delle entità identifica le entità nei documenti
- L'analisi del sentiment analizza gli atteggiamenti all'interno dei documenti
Fai clic su Crea set di dati.
Viene visualizzata la pagina Importa per il nuovo set di dati. Consulta Importazione di dati in un set di dati.
Esempi di codice
Classificazione
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località per la risorsa,
us-central1
per la località globale oeu
per l'Unione Europea
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Corpo JSON della richiesta:
{ "displayName": "test_dataset", "textClassificationDatasetMetadata": { "classificationType": "MULTICLASS" } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/434039606874/locations/us-central1/datasets/356587829854924648", "displayName": "test_dataset", "createTime": "2018-04-26T18:02:59.825060Z", "textClassificationDatasetMetadata": { "classificationType": "MULTICLASS" } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione dei file PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Natural Language per Ruby.
Estrazione di entità
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località per la risorsa,
us-central1
per la località globale oeu
per l'Unione Europea
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Corpo JSON della richiesta:
{ "displayName": "test_dataset", "textExtractionDatasetMetadata": { } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ name: "projects/000000000000/locations/us-central1/datasets/TEN5582774688079151104" display_name: "test_dataset" create_time { seconds: 1539886451 nanos: 757650000 } text_extraction_dataset_metadata { } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione dei file PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Natural Language per Ruby.
Analisi del sentiment
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località per la risorsa,
us-central1
per la località globale oeu
per l'Unione Europea
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Corpo JSON della richiesta:
{ "displayName": "test_dataset", "textSentimentDatasetMetadata": { "sentimentMax": 4 } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ name: "projects/000000000000/locations/us-central1/datasets/TST8962998974766436002" display_name: "test_dataset_name" create_time { seconds: 1538855662 nanos: 51542000 } text_sentiment_dataset_metadata { sentiment_max: 7 } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione dei file PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Natural Language per Ruby.
Importazione dei dati di addestramento in un set di dati
Dopo aver creato un set di dati, puoi importare gli URI e le etichette dei documenti da un file CSV archiviato in un bucket Cloud Storage. Per maggiori dettagli sulla preparazione dei dati e sulla creazione di un file CSV per l'importazione, consulta Preparazione dei dati di addestramento.
Puoi importare documenti in un set di dati vuoto o importare documenti aggiuntivi in un set di dati esistente.
UI web
Per importare documenti in un set di dati:
Seleziona il set di dati in cui vuoi importare i documenti dalla pagina Set di dati.
Nella scheda Importa, specifica dove trovare i documenti di addestramento.
Puoi:
Carica un file .csv contenente i documenti di addestramento e le etichette delle categorie associate dal computer locale o da Cloud Storage.
Carica una raccolta di file .txt, .pdf, .tif o .zip contenenti i documenti di addestramento dal tuo computer locale.
Seleziona i file da importare e il percorso Cloud Storage per i documenti importati.
Fai clic su Importa.
Esempi di codice
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località per la risorsa,
us-central1
per la località globale oeu
per l'Unione Europea - dataset-id: l'ID del tuo set di dati
- bucket-name: il tuo bucket Cloud Storage
- csv-file-name: il tuo file di dati di addestramento CSV
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets/dataset-id:importData
Corpo JSON della richiesta:
{ "inputConfig": { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti vedere un output simile al seguente. Puoi utilizzare l'ID operazione per conoscere lo stato dell'attività. Per un esempio, consulta Recupero dello stato di un'operazione.
{ "name": "projects/434039606874/locations/us-central1/operations/1979469554520650937", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per maggiori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione in AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione dei file PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client e consulta la documentazione di riferimento di AutoML Natural Language per Ruby.
Etichettatura dei documenti di addestramento
Per essere utile per l'addestramento di un modello, ogni documento in un set di dati deve essere etichettato nel modo in cui AutoML Natural Language deve etichettare documenti simili. La qualità dei dati di addestramento influisce notevolmente sull'efficacia del modello creato e, di conseguenza, sulla qualità delle previsioni restituite da quel modello. AutoML Natural Language ignora i documenti non etichettati durante l'addestramento.
Puoi fornire etichette per i documenti di addestramento in tre modi:
- Includi etichette nel file .csv (solo per classificazione e analisi del sentiment)
- Etichetta i documenti nell'interfaccia utente di AutoML Natural Language
- Richiedi l'etichettatura agli etichettatori umani utilizzando AI Platform Data Labeling Service
L'API AutoML non include metodi per l'etichettatura.
Per maggiori dettagli su come etichettare i documenti nel file .csv, consulta Preparazione dei dati di addestramento.
Etichettatura per classificazione e analisi del sentiment
Per etichettare i documenti nell'interfaccia utente di AutoML Natural Language, seleziona il set di dati dalla pagina di elenco del set di dati per visualizzarne i dettagli. Il nome visualizzato del set di dati selezionato viene visualizzato nella barra del titolo e la pagina elenca i singoli documenti del set di dati insieme alle relative etichette correnti. La barra di navigazione a sinistra riassume il numero di documenti etichettati e non etichettati e ti consente di filtrare l'elenco dei documenti per etichetta o valore sentiment.
Per assegnare etichette o valori di sentiment ai documenti senza etichetta o modificare le etichette dei documenti, seleziona i documenti da aggiornare e le etichette o il valore da assegnare. Esistono due modi per aggiornare l'etichetta di un documento:
Fai clic sulla casella di controllo accanto ai documenti da aggiornare, quindi seleziona le etichette da applicare dall'elenco a discesa Etichetta visualizzato nella parte superiore dell'elenco dei documenti.
Fai clic sulla riga del documento che vuoi aggiornare, poi seleziona le etichette o il valore da applicare dall'elenco visualizzato nella pagina Dettagli testo.
Identificazione delle entità per l'estrazione delle entità
Prima di addestrare il modello personalizzato, devi annotare i documenti di addestramento nel set di dati. Puoi annotare i documenti di addestramento prima di importarli oppure aggiungere annotazioni nell'interfaccia utente di AutoML Natural Language.
Per aggiungere annotazioni all'interfaccia utente di AutoML Natural Language, seleziona il set di dati dalla pagina di elenco del set di dati per visualizzarne i dettagli. Il nome visualizzato del set di dati selezionato viene visualizzato nella barra del titolo e la pagina elenca i singoli documenti del set di dati insieme alle eventuali annotazioni. La barra di navigazione a sinistra riassume le etichette e il numero di volte in cui compare. Puoi anche filtrare l'elenco di documenti per etichetta.
Per aggiungere o eliminare annotazioni all'interno di un documento, fai doppio clic sul documento da aggiornare. La pagina Modifica mostra il testo completo del documento selezionato, con tutte le annotazioni precedenti evidenziate.
Per i documenti di addestramento PDF o i documenti importati con informazioni sul layout, la pagina Modifica contiene due schede: Testo normale e Testo strutturato. La scheda Testo normale mostra i contenuti non elaborati del documento di addestramento senza alcuna formattazione. La scheda Testo strutturato ricrea il layout di base del documento di addestramento. La scheda Testo normale contiene anche un link al file PDF originale.
Per aggiungere una nuova annotazione, evidenzia il testo che rappresenta l'entità, seleziona l'etichetta nella finestra di dialogo Annota e fai clic su Salva. Quando aggiungi annotazioni alla scheda Testo strutturato, AutoML Natural Language acquisisce la posizione dell'annotazione sulla pagina come fattore considerato durante l'addestramento.
Per rimuovere un'annotazione, individua il testo nell'elenco di etichette a destra e fai clic sull'icona a forma di cestino della spazzatura accanto.