Découvrez comment préparer vos données audio et textuelles pour affiner un modèle Speech-to-Text personnalisé dans la console Google Cloud Speech. La qualité de vos données d'entraînement influe sur l'efficacité des modèles que vous créez. Vous devrez composer un ensemble de données varié qui contient un contexte audio et textuel représentatif directement pertinent pour ce à quoi le modèle répondra lors de l'inférence en production, y compris le bruit et le vocabulaire inhabituel.
Pour entraîner efficacement un modèle Speech-to-Text personnalisé, vous avez besoin des éléments suivants :
- Au moins 100 heures de données audio d'entraînement, uniquement audio ou avec la transcription textuelle correspondante en tant que vérité terrain. Ces données sont essentielles pour la phase d'entraînement initiale, car elles permettent au modèle d'apprendre les nuances des schémas de parole et du vocabulaire. Pour en savoir plus, consultez la section Créer un ensemble de données de vérité terrain.
- Un ensemble de données distinct d'au moins 10 heures audio de données de validation, avec la transcription textuelle correspondante comme vérité terrain.
Avant de commencer
Assurez-vous d'avoir créé un compte Google Cloud et d'avoir activé l'API Speech-to-Text :
- Accédez à Cloud Storage.
- Créez un bucket, si vous n'en possédez pas déjà un.
Créer un ensemble de données
Pour créer un ensemble de données, vous devez créer deux sous-répertoires dans le bucket Cloud Storage de votre choix. Respectez des conventions d'attribution de noms simples :
- Créez un sous-répertoire training_dataset pour stocker tous vos fichiers d'entraînement.
- Créez un sous-répertoire validation_dataset pour stocker tous vos fichiers d'entraînement.
- Importez vos fichiers audio et texte dans les répertoires en suivant les consignes concernant les annotations de vérité terrain.
Consignes pour les ensembles de données
- Pour l'entraînement et la validation, les formats de fichiers compatibles sont
.wav
pour les fichiers audio encodés au format LINEAR16 et.txt
pour les fichiers texte, le cas échéant. Évitez les caractères non ASCII dans les noms de fichiers. - Les fichiers audio du même répertoire doivent être fournis dans un fichier TXT distinct, chacun portant le même nom que le fichier WAV correspondant (par exemple, my_file_1.wav, my_file_1.txt). Il ne doit y avoir qu'un seul fichier de transcription par fichier audio.
Données d'entraînement
- Tous les fichiers d'entraînement doivent se trouver dans le même répertoire, sans dossiers imbriqués.
- Facultatif : Fournissez les transcriptions des fichiers audio, si disponibles. Aucun code temporel n'est requis.
- Assurez-vous que la durée audio cumulée de vos fichiers audio est supérieure à 100 heures. Si ce n'est pas le cas, le job d'entraînement échouera.
Voici un exemple de structure de répertoires après l'importation des fichiers en tant qu'ensemble de données d'entraînement :
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Données de validation
- Tous les fichiers de validation se trouvent dans le même répertoire que vous nommez validation_dataset, sans dossiers imbriqués.
- Les contenus audio de validation ne doivent pas dépasser 30 secondes chacun.
- Fournissez des transcriptions de vérité terrain pour chacun des fichiers audio du même répertoire dans un fichier TXT distinct.
Voici un exemple de structure de répertoires après l'importation des fichiers en tant qu'ensemble de données de validation :
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Consignes concernant les annotations de vérité terrain
Reportez-vous aux instructions de mise en forme suivantes.
Numbers
Les nombres cardinaux et ordinaux ne doivent être transcrits qu'en chiffres.
- Audio : "Un jeu de cartes contient cinquante-deux cartes, treize valeurs et quatre enseignes, carreau, cœur et pique"
- Texte de vérité terrain: "Un jeu de cartes contient 52 cartes, 13 valeurs et 4 enseignes, carreau, cœur et pique"
Devises et unités
Transcrivez-les selon les paramètres régionaux de transcription. Transcrivez sous une forme abrégée toutes les unités qui suivent des valeurs numériques. Si le contexte indique clairement qu'un nombre ou une séquence de chiffres fait référence à un prix ou à une valeur temporelle, formatez ce nombre comme tel.
Date et heure
Effectuez une transcription sous la forme courante pour les dates et les heures utilisées dans le langage de transcription. Écrivez les heures au format hh:mm
, si possible.
Adresses
Transcrivez les noms complets des lieux, des routes et des États, par exemple, avec des abréviations lorsqu'elles sont explicitement prononcées. Les entités et les emplacements doivent être transcrits en utilisant une virgule entre eux.
Noms propres et accents
Transcrivez en respectant l'orthographe et la ponctuation officielles. Si un nom personnel peut avoir plusieurs orthographes et que le contexte n'indique pas laquelle utiliser, utilisez l'orthographe la plus fréquente.
Marques, noms de produits et contenus multimédias
Transcrivez-les au format officiel et le plus souvent écrit.
Interjections
Les rires et autres sons sans parole doivent être transcrits avec un maximum de trois syllabes. Les rires inclus dans la parole doivent être complètement ignorés. Exemple :
- Audio : "ha ha ha ha ha"
- Texte de vérité terrain : "hahaha"
Plusieurs locuteurs
Ne les séparez pas à l'aide de tags de locuteur, car l'identification du locuteur n'est généralement pas prise en charge.
Étapes suivantes
Suivez les ressources pour tirer parti des modèles de reconnaissance vocale personnalisés dans votre application :
- Entraîner et gérer vos modèles personnalisés
- Déployer et gérer des points de terminaison de modèle
- Utiliser vos modèles personnalisés
- Évaluer vos modèles personnalisés