Un set di dati contiene campioni rappresentativi del tipo di contenuti da classificare, etichettati con le etichette di categoria che vuoi utilizzare nel modello personalizzato. Il set di dati funge da input per l'addestramento di un modello.
I passaggi principali per creare un set di dati sono:
- Crea una risorsa del set di dati.
- Importa i dati di addestramento nel set di dati.
- Etichetta i documenti o identifica le entità.
Per la classificazione e l'analisi del sentiment, i passaggi 2 e 3 vengono spesso combinati: puoi importare i documenti con le relative etichette già assegnate.
Creazione di un set di dati
Il primo passaggio nella creazione di un modello personalizzato consiste nel creare un set di dati vuoto che alla fine conterrà i dati di addestramento per il modello. Il set di dati appena creato non contiene dati finché non importi documenti al suo interno.
UI web
Per creare un set di dati:
Apri l'interfaccia utente di AutoML Natural Language e seleziona Inizia nella casella corrispondente al tipo di modello che prevedi di addestrare.
Viene visualizzata la pagina Set di dati, che mostra lo stato dei set di dati creati in precedenza per il progetto corrente.
Per aggiungere un set di dati per un progetto diverso, seleziona il progetto dall'elenco a discesa in alto a destra della barra del titolo.
Fai clic sul pulsante Nuovo set di dati nella barra del titolo.
Inserisci un nome per il set di dati e specifica in quale posizione geografica archiviare il set di dati.
Per ulteriori informazioni, consulta la sezione Località.
Seleziona l'obiettivo del tuo modello, che specifica il tipo di analisi che eseguirai con il modello addestrato utilizzando questo set di dati.
- La classificazione di etichetta singola assegna una singola etichetta a ogni documento classificato
- La classificazione multi-etichetta consente di assegnare più etichette a un documento
- L'estrazione delle entità identifica le entità nei documenti
- L'analisi del sentiment analizza gli atteggiamenti nei documenti
Fai clic su Crea set di dati.
Viene visualizzata la pagina Importa per il nuovo set di dati. Consulta Importazione di dati in un set di dati.
Esempi di codice
Classificazione
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località della risorsa,
us-central1
per la località globale oeu
per l'Unione Europea
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Corpo JSON della richiesta:
{ "displayName": "test_dataset", "textClassificationDatasetMetadata": { "classificationType": "MULTICLASS" } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/434039606874/locations/us-central1/datasets/356587829854924648", "displayName": "test_dataset", "createTime": "2018-04-26T18:02:59.825060Z", "textClassificationDatasetMetadata": { "classificationType": "MULTICLASS" } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni per la configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e poi visita la documentazione di riferimento di AutoML Natural Language per Ruby.
Estrazione di entità
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località della risorsa,
us-central1
per la località globale oeu
per l'Unione Europea
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Corpo JSON della richiesta:
{ "displayName": "test_dataset", "textExtractionDatasetMetadata": { } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ name: "projects/000000000000/locations/us-central1/datasets/TEN5582774688079151104" display_name: "test_dataset" create_time { seconds: 1539886451 nanos: 757650000 } text_extraction_dataset_metadata { } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni per la configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e poi visita la documentazione di riferimento di AutoML Natural Language per Ruby.
Analisi del sentiment
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località della risorsa,
us-central1
per la località globale oeu
per l'Unione Europea
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Corpo JSON della richiesta:
{ "displayName": "test_dataset", "textSentimentDatasetMetadata": { "sentimentMax": 4 } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ name: "projects/000000000000/locations/us-central1/datasets/TST8962998974766436002" display_name: "test_dataset_name" create_time { seconds: 1538855662 nanos: 51542000 } text_sentiment_dataset_metadata { sentiment_max: 7 } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni per la configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e poi visita la documentazione di riferimento di AutoML Natural Language per Ruby.
Importazione dei dati di addestramento in un set di dati
Dopo aver creato un set di dati, puoi importare URI ed etichette dei documenti da un file CSV archiviato in un bucket Cloud Storage. Per maggiori dettagli sulla preparazione dei dati e sulla creazione di un file CSV per l'importazione, consulta Preparare i dati di addestramento.
Puoi importare documenti in un set di dati vuoto o importare documenti aggiuntivi in un set di dati esistente.
UI web
Per importare documenti in un set di dati:
Seleziona il set di dati in cui vuoi importare i documenti dalla pagina Set di dati.
Nella scheda Importa, specifica dove trovare i documenti di addestramento.
Puoi:
Carica un file .csv contenente i documenti di addestramento e le etichette di categoria associate dal tuo computer locale o da Cloud Storage.
Carica una raccolta di file .txt, .pdf, .tif o .zip contenenti i documenti di addestramento dal computer locale.
Seleziona i file da importare e il percorso Cloud Storage dei documenti importati.
Fai clic su Importa.
Esempi di codice
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: il tuo ID progetto
- location-id: la località della risorsa,
us-central1
per la località globale oeu
per l'Unione Europea - dataset-id: l'ID del tuo set di dati
- bucket-name: il tuo bucket Cloud Storage
- csv-file-name: il tuo file CSV di dati di addestramento
Metodo HTTP e URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets/dataset-id:importData
Corpo JSON della richiesta:
{ "inputConfig": { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti vedere un output simile al seguente. Puoi usare l'ID operazione per conoscere lo stato dell'attività. Ad esempio, consulta Ottenere lo stato di un'operazione.
{ "name": "projects/434039606874/locations/us-central1/operations/1979469554520650937", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Python
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Python.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Java.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Node.js.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Go
Per scoprire come installare e utilizzare la libreria client per AutoML Natural Language, consulta Librerie client di AutoML Natural Language. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AutoML Natural Language Go.
Per eseguire l'autenticazione ad AutoML Natural Language, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni per la configurazione di C# nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per .NET.
PHP: segui le istruzioni per la configurazione di PHP nella pagina delle librerie client e poi consulta la documentazione di riferimento di AutoML Natural Language per PHP.
Ruby: segui le istruzioni per la configurazione di Ruby nella pagina delle librerie client e poi visita la documentazione di riferimento di AutoML Natural Language per Ruby.
Etichettatura dei documenti di addestramento
Per essere utile per l'addestramento di un modello, ogni documento in un set di dati deve essere etichettato nel modo in cui vuoi che AutoML Natural Language etichetti documenti simili. La qualità dei dati di addestramento influisce notevolmente sull'efficacia del modello creato e, di conseguenza, sulla qualità delle previsioni restituite da quel modello. AutoML Natural Language ignora i documenti senza etichetta durante l'addestramento.
Puoi fornire etichette per i documenti di addestramento in tre modi:
- Includi etichette nel file .csv (solo per classificazione e analisi del sentiment)
- Etichetta i documenti nell'interfaccia utente di AutoML Natural Language
- Richiedi l'etichettatura da etichettatori umani utilizzando il servizio di etichettatura dei dati di AI Platform
L'API AutoML non include metodi per l'etichettatura.
Per maggiori dettagli sull'etichettatura dei documenti nel file .csv, vedi Preparare i dati di addestramento.
Etichettatura per classificazione e analisi del sentiment
Per etichettare i documenti nella UI di AutoML Natural Language, seleziona il set di dati dalla pagina di elenco del set di dati per visualizzarne i dettagli. Il nome visualizzato del set di dati selezionato viene riportato nella barra del titolo e la pagina elenca i singoli documenti nel set di dati insieme alle etichette correnti. La barra di navigazione a sinistra riassume il numero di documenti etichettati e non etichettati e ti consente di filtrare l'elenco dei documenti per etichetta o valore di sentiment.
Per assegnare etichette o valori di sentiment a documenti senza etichetta o modificare le etichette dei documenti, seleziona i documenti da aggiornare e le etichette o il valore da assegnare. Esistono due modi per aggiornare l'etichetta di un documento:
Fai clic sulla casella di controllo accanto ai documenti da aggiornare, quindi seleziona le etichette da applicare dall'elenco a discesa Etichetta che appare in cima all'elenco dei documenti.
Fai clic sulla riga del documento da aggiornare, poi seleziona le etichette o il valore da applicare dall'elenco visualizzato nella pagina Dettagli testo.
Identificazione delle entità per l'estrazione delle entità
Prima di addestrare il modello personalizzato, devi annotare i documenti di addestramento nel set di dati. Puoi annotare i documenti di addestramento prima di importarli oppure aggiungere annotazioni nella UI di AutoML Natural Language.
Per aggiungere annotazioni nella UI di AutoML Natural Language, seleziona il set di dati dalla pagina di elenco del set di dati per visualizzarne i dettagli. Il nome visualizzato del set di dati selezionato viene visualizzato nella barra del titolo e la pagina elenca i singoli documenti nel set di dati insieme alle eventuali annotazioni al loro interno. La barra di navigazione a sinistra riassume le etichette e il numero di volte in cui ciascuna viene visualizzata. Puoi anche filtrare l'elenco dei documenti per etichetta.
Per aggiungere o eliminare annotazioni all'interno di un documento, fai doppio clic sul documento che vuoi aggiornare. La pagina Modifica mostra il testo completo del documento selezionato, con tutte le annotazioni precedenti evidenziate.
Per i documenti di addestramento PDF o i documenti importati con informazioni di layout, la pagina Modifica ha due schede: Testo normale e Testo strutturato. La scheda Testo normale mostra i contenuti non elaborati del documento di addestramento senza formattazione. La scheda Testo strutturato ricrea il layout di base del documento di addestramento. La scheda Testo normale contiene anche un link al file PDF originale.
Per aggiungere una nuova annotazione, evidenzia il testo che rappresenta l'entità, seleziona l'etichetta nella finestra di dialogo Annota e fai clic su Salva. Quando aggiungi annotazioni alla scheda Testo strutturato, AutoML Natural Language acquisisce la posizione dell'annotazione sulla pagina come fattore considerato durante l'addestramento.
Per rimuovere un'annotazione, individua il testo nell'elenco delle etichette a destra e fai clic sull'icona del cestino accanto a quest'ultima.