L'addestramento con algoritmi integrati su AI Platform Training ti consente di inviare il set di dati e addestra un modello senza scrivere codice di addestramento. Questa pagina spiega come funziona l'algoritmo di classificazione delle immagini integrato e come utilizzarlo.
Panoramica
L'algoritmo di classificazione delle immagini integrato utilizza i set di dati di addestramento e convalida per addestrare i modelli in modo continuo e poi genera l'output del modello salvato più accurato generato durante il corso del job di addestramento. Puoi anche usare un iperparametro dell'ottimizzazione per ottenere la migliore accuratezza del modello. È possibile usare il modulo SavedModel esportato direttamente per la previsione, in locale o con deployment in AI Platform Prediction per un servizio di produzione.
Limitazioni
Gli algoritmi integrati di Image supportano l'addestramento con singole CPU, GPU o TPU. Il SavedModel risultante è compatibile con la pubblicazione su CPU e GPU.
Le seguenti funzionalità non sono supportate per l'addestramento con la algoritmo di classificazione delle immagini:
- Addestramento distribuito. Per eseguire un job di addestramento distribuito TensorFlow su AI Platform Training, devi creare un'applicazione di addestramento.
- Addestramento multi-GPU. Gli algoritmi integrati utilizzano una sola GPU alla volta. Per usufruire appieno dell'addestramento con più GPU su una macchina, devi creare un'applicazione di addestramento. Trova ulteriori informazioni sui tipi di macchina.
Tipi di macchine supportati
I seguenti livelli di scalabilità e tipi di macchine di AI Platform Training sono supportati:
- Livello di scalabilità
BASIC
- Livello di scalabilità
BASIC_TPU
- Livello di scalabilità
CUSTOM
con uno qualsiasi dei tipi di macchine di Compute Engine supportata da AI Platform Training. - Livello di scalabilità
CUSTOM
con uno dei seguenti tipi di macchine legacy:standard
large_model
complex_model_s
complex_model_m
complex_model_l
standard_gpu
standard_p100
standard_v100
large_model_v100
complex_model_m_gpu
complex_model_l_gpu
complex_model_m_p100
complex_model_m_v100
complex_model_l_v100
TPU_V2
(8 core)
Autorizza Cloud TPU ad accedere al tuo progetto
Formatta i dati di input per l'addestramento
L'algoritmo di classificazione delle immagini integrato richiede la formattazione dei dati di input
come tf.Examples
, salvato nei file TFRecord. La struttura di dati tf.Example
e il formato del file TFRecord sono entrambi progettati per una lettura efficiente dei dati con TensorFlow.
Il formato TFRecord è un formato semplice per archiviare una sequenza di record binari.
In questo caso, tutti i record contengono rappresentazioni binarie delle immagini. Ciascuna
dell'immagine, insieme alle etichette della classe, è rappresentata come tf.Example
. Puoi
salvare molti tf.Example
in un unico file TFRecord. Puoi anche eseguire lo sharding
tra più file TFRecord.
Scopri di più su TFRecord e tf.Example
.
Converti le immagini in TFRecord
TensorFlow fornisce uno script che puoi utilizzare per convertire le immagini da JPEG a formato TFRecord.
Puoi utilizzare lo script se:
- Puoi archiviare le immagini in Cloud Storage.
Hai file CSV con i percorsi delle immagini in Cloud Storage e le relative etichette. Ad esempio:
gs://cloud-ml-data/img/flower_photos/daisy/754296579_30a9ae018c_n.jpg,daisy gs://cloud-ml-data/img/flower_photos/dandelion/18089878729_907ed2c7cd_m.jpg,dandelion
Archivia questi file CSV in Cloud Storage.
L'esempio seguente mostra come eseguire lo script:
Scarica lo script:
curl https://raw.githubusercontent.com/tensorflow/tpu/master/tools/datasets/jpeg_to_tf_record.py > ./jpeg_to_tf_record.py
Imposta le variabili per l'ID progetto e il nome del bucket, se non l'hai già fatto Fatto:
PROJECT_ID="YOUR_PROJECT_ID" BUCKET_NAME="YOUR_BUCKET_NAME"
Crea un elenco di tutte le possibili etichette per il tuo set di dati in un file provvisorio:
cat << EOF > /tmp/labels.txt daisy dandelion roses sunflowers tulips EOF
Esegui lo script utilizzando i dati relativi ai fiori del pubblico
cloud-ml-data
bucket e il tuo elenco di etichette:python -m jpeg_to_tf_record.py \ --train_csv gs://cloud-ml-data/img/flower_photos/train_set.csv \ --validation_csv gs://cloud-ml-data/img/flower_photos/eval_set.csv \ --labels_file /tmp/labels.txt \ --project_id $PROJECT_ID \ --output_dir gs://$BUCKET_NAME/flowers_as_tf_record
Verifica le autorizzazioni dei bucket Cloud Storage
Per archiviare i dati, utilizza un bucket Cloud Storage nello stesso progetto Google Cloud che utilizzi per eseguire i job di AI Platform Training. In caso contrario, concedi l'accesso ad AI Platform Training al bucket Cloud Storage in cui sono archiviati i tuoi dati.
Formato di input obbligatorio
Per l'addestramento con l'algoritmo di classificazione delle immagini integrato, i dati delle immagini devono essere strutturati come tf.Example
che includono i seguenti campi:
image/encoded
è la stringa dell'immagine non elaborata.image/class/label
è una singola etichetta con numeri interi per l'immagine corrispondente. Non sono supportate più etichette per istanza.L'insieme di etichette intere utilizzato per il set di dati deve essere una sequenza consecutiva che inizia da
1
. Ad esempio, se il set di dati ha cinque classi, l'etichetta deve essere un numero intero compreso nell'intervallo[1, 5]
.
Ad esempio:
{
'image/encoded': '<encoded image data>',
'image/class/label': 2
}
Ottenere il miglior SavedModel come output
Al termine del job di addestramento, AI Platform Training scrive un SavedModel di TensorFlow in
il bucket Cloud Storage specificato come jobDir
al momento dell'invio
il job. Il file SavedModel viene scritto in jobDir/model
. Ad esempio, se invii il job a gs://your-bucket-name/your-job-dir
, AI Platform Training scrive il modello SavedModel in gs://your-bucket-name/your-job-dir/model
.
Se hai attivato l'ottimizzazione degli iperparametri, AI Platform Training restituisce il modello salvato di TensorFlow con la massima accuratezza raggiunta durante il processo di addestramento. Ad esempio, se hai inviato un job di addestramento con 2500 passaggi di addestramento e l'accuratezza è stata massima a 2000 passaggi, ottieni un SavedModel di TensorFlow salvato da quel determinato punto.
Ogni prova di AI Platform Training scrive il modello TensorFlow SavedModel con la massima precisione nella propria directory all'interno del bucket Cloud Storage. Per
un esempio,
gs://your-bucket-name/your-job-dir/model/trial_{trial_id}
.
La firma del SavedModel di output è:
signature_def['serving_default']:
The given SavedModel SignatureDef contains the following input(s):
inputs['image_bytes'] tensor_info:
dtype: DT_STRING
shape: (-1)
name: Placeholder:0
inputs['key'] tensor_info:
dtype: DT_STRING
shape: (-1)
name: key:0
The given SavedModel SignatureDef contains the following output(s):
outputs['classes'] tensor_info:
dtype: DT_INT64
shape: (-1)
name: ArgMax:0
outputs['key'] tensor_info:
dtype: DT_STRING
shape: (-1)
name: Identity:0
outputs['probabilities'] tensor_info:
dtype: DT_FLOAT
shape: (-1, 1000)
name: softmax_tensor:0
Method name is: tensorflow/serving/predict
Input:
image_bytes
: byte dell'immagine non elaborati (non decodificati). Equivale aimage/encoded
archiviati in tf.Example.key
: l'identificatore del valore della stringa dell'input della previsione. Questo valore viene trasmesso all'outputkey
. Nelle previsioni batch, questo aiuta a mappare l'output della previsione all'input.
Output:
classes
: l'etichetta della classe (intero) prevista, ovvero quella con la probabilità più elevata.key
: la chiave di output.probabilities
: il valoreprobability
(tra 0 e 1) per ogniclass
(da 0 anum_classes
).
Di seguito è riportato un esempio di input e output di previsione:
prediction_input: {
'image_bytes': 'some_raw_image_bytes',
'key': ['test_key'])
}
prediction_output: {
'probabilities': [[0.1, 0.3, 0.6]],
'classes': [2],
'key': ['test_key'],
}
Configurazioni di esempio
Se invii un job utilizzando gcloud
, devi creare un file config.yaml
per il tipo di macchina e le specifiche
di ottimizzazione degli iperparametri. Se utilizzi
nella console Google Cloud, non devi creare questo file. Impara
come inviare un job di formazione.
Il file config.yaml
di esempio seguente mostra come allocare le risorse TPU
per il tuo job di addestramento:
cat << EOF > config.yaml
trainingInput:
# Use a cluster with many workers and a few parameter servers.
scaleTier: CUSTOM
masterType: n1-highmem-16
masterConfig:
imageUri: gcr.io/cloud-ml-algos/image_classification:latest
workerType: cloud_tpu
workerConfig:
imageUri: gcr.io/cloud-ml-algos/image_classification:latest
acceleratorConfig:
type: TPU_V2
count: 8
workerCount: 1
EOF
Successivamente, utilizza il file config.yaml
per inviare un job di addestramento.
Configurazione dell'ottimizzazione degli iperparametri
Per utilizzare l'ottimizzazione degli iperparametri, includi la tua configurazione di ottimizzazione degli iperparametri
nello stesso file config.yaml
della configurazione della macchina.
Puoi trovare brevi spiegazioni di ogni iperparametro all'interno console Google Cloud e una spiegazione più completa nel riferimento per l'algoritmo di classificazione delle immagini integrato.
Il seguente file config.yaml
di esempio mostra come allocare le risorse TPU per il tuo job di addestramento e include la configurazione dell'ottimizzazione degli iperparametri:
cat << EOF > config.yaml
trainingInput:
# Use a cluster with many workers and a few parameter servers.
scaleTier: CUSTOM
masterType: n1-highmem-16
masterConfig:
imageUri: gcr.io/cloud-ml-algos/image_classification:latest
workerType: cloud_tpu
workerConfig:
imageUri: gcr.io/cloud-ml-algos/image_classification:latest
tpuTfVersion: 1.14
acceleratorConfig:
type: TPU_V2
count: 8
workerCount: 1
# The following are hyperparameter configs.
hyperparameters:
goal: MAXIMIZE
hyperparameterMetricTag: top_1_accuracy
maxTrials: 6
maxParallelTrials: 3
enableTrialEarlyStopping: True
params:
- parameterName: initial_learning_rate
type: DOUBLE
minValue: 0.001
maxValue: 0.2
scaleType: UNIT_LOG_SCALE
EOF
Invia un job di addestramento per la classificazione delle immagini
Questa sezione spiega come inviare un job di addestramento utilizzando l'algoritmo di classificazione delle immagini integrato.
Console
Seleziona l'algoritmo
Vai alla pagina dei job di addestramento su AI Platform nella console Google Cloud:
Fai clic sul pulsante Nuovo job di addestramento. Dalle opzioni visualizzate di seguito, fai clic su Addestramento con algoritmi integrati.
Nella pagina Crea un nuovo job di addestramento, seleziona classificazione delle immagini e fai clic su Avanti.
Seleziona i dati di addestramento e convalida
Nella casella a discesa in Dati di addestramento, specifica se utilizzi uno o più file:
- Per un singolo file, lascia selezionata l'opzione "Utilizza un unico file in un bucket GCS".
- Per più file, seleziona "Usa più file archiviati in una directory di Cloud Storage".
In Percorso directory, fai clic su Sfoglia. Nel riquadro a destra, fai clic sul nome del bucket in cui hai caricato i dati di addestramento e vai al file.
Se selezioni più file, inserisci i caratteri jolly in Nome jolly. Il "Percorso GCS completo" viene visualizzato sotto per verificare che il percorso sia corretto.
Nel menu a discesa in Dati di convalida, specifica se utilizzi un singolo file o più file:
- Per un singolo file, lascia "Utilizza singolo file in un bucket GCS" selezionato.
- Per più file, seleziona "Usa più file archiviati in una directory di Cloud Storage".
In Percorso directory, fai clic su Sfoglia. Nel riquadro a destra, fai clic sul nome del bucket in cui hai caricato i dati di addestramento e vai al file.
Se selezioni più file, inserisci i caratteri jolly in Nome carattere jolly. Di seguito viene visualizzato il "Percorso GCS completo" per aiutarti a verificare che il percorso sia corretto.
In Directory di output, inserisci il percorso del bucket Cloud Storage in cui vuoi che AI Platform Training archivi gli output del job di addestramento. Puoi inserire direttamente il percorso del bucket Cloud Storage o fare clic sul pulsante Sfoglia per selezionarlo.
Per mantenere tutto in ordine, crea una nuova directory all'interno del bucket Cloud Storage per questo job di addestramento. Puoi farlo nel riquadro Sfoglia.
Fai clic su Avanti.
Imposta gli argomenti dell'algoritmo
Ogni argomento specifico dell'algoritmo mostra un valore predefinito per l'addestramento di job senza ottimizzazione degli iperparametri. Se abiliti l'ottimizzazione degli iperparametri su un argomento dell'algoritmo, devi specificare il valore minimo e massimo valore.
Per scoprire di più su tutti gli argomenti dell'algoritmo, segui i link nella console Google Cloud e consulta la documentazione di riferimento sulla classificazione delle immagini integrata per ulteriori dettagli.
Invia il job
Nella scheda Impostazioni job:
- Inserisci un ID job univoco.
- Inserisci un'regione disponibile (ad es. "us-central1").
- Per selezionare i tipi di macchine, seleziona "PERSONALIZZATO" per il livello di scalabilità.
Viene visualizzata una sezione per fornire la specifica del cluster personalizzato.
- Seleziona un tipo di macchina disponibile per Tipo master.
- Se vuoi utilizzare le TPU, imposta Tipo di worker su cloud_tpu. Il conteggio dei worker è impostato in modo predefinito su 1.
Fai clic su Fine per inviare il job di addestramento.
gcloud
Imposta le variabili di ambiente per il job:
PROJECT_ID="YOUR_PROJECT_ID" BUCKET_NAME="YOUR_BUCKET_NAME" # Specify the same region where your data is stored REGION="YOUR_REGION" gcloud config set project $PROJECT_ID gcloud config set compute/region $REGION # Set Cloud Storage paths to your training and validation data # Include a wildcard if you select multiple files. TRAINING_DATA_PATH="gs://${BUCKET_NAME}/YOUR_DATA_DIRECTORY/train-*.tfrecord" VALIDATION_DATA_PATH="gs://${BUCKET_NAME}/YOUR_DATA_DIRECTORY/eval-*.tfrecord" # Specify the Docker container for your built-in algorithm selection IMAGE_URI="gcr.io/cloud-ml-algos/image_classification:latest" # Variables for constructing descriptive names for JOB_ID and JOB_DIR DATASET_NAME="flowers" ALGORITHM="image_classification" MODEL_NAME="${DATASET_NAME}_${ALGORITHM}" DATE="$(date '+%Y%m%d_%H%M%S')" # Specify an ID for this job JOB_ID="${MODEL_NAME}_${DATE}" # Specify the directory where you want your training outputs to be stored JOB_DIR="gs://${BUCKET_NAME}/algorithm_training/${JOB_ID}"
Invia il job:
gcloud ai-platform jobs submit training $JOB_ID \ --region=$REGION \ --config=config.yaml \ --master-image-uri=$IMAGE_URI \ -- \ --training_data_path=$TRAINING_DATA_PATH \ --validation_data_path=$VALIDATION_DATA_PATH \ --job-dir=$JOB_DIR \ --max_steps=30000 \ --train_batch_size=128 \ --num_classes=5 \ --num_eval_images=100 \ --initial_learning_rate=0.128 \ --warmup_steps=1000 \ --model_type='efficientnet-b4'
Dopo che il job è stato inviato correttamente, puoi visualizzare i log utilizzando i seguenti comandi
gcloud
:gcloud ai-platform jobs describe $JOB_ID gcloud ai-platform jobs stream-logs $JOB_ID
Passaggi successivi
- Consulta il riferimento per la classificazione delle immagini integrate per conoscere tutti i diversi parametri.