Transcription Chirp 3 : précision multilingue améliorée

Chirp 3 est la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google. Ils sont conçus pour répondre aux besoins des utilisateurs en fonction de leurs commentaires et de leur expérience. Chirp 3 offre une précision et une vitesse supérieures à celles des modèles Chirp précédents, ainsi que la diarisation et la détection automatique de la langue.

Informations sur le modèle

Chirp 3 : Transcription est disponible exclusivement dans l'API Speech-to-Text V2.

Identifiants de modèle

Vous pouvez utiliser Chirp 3 : Transcription comme n'importe quel autre modèle en spécifiant l'identifiant de modèle approprié dans votre requête de reconnaissance lorsque vous utilisez l'API ou le nom du modèle dans la console Google Cloud . Spécifiez l'identifiant approprié dans votre reconnaissance.

Modèle Identifiant du modèle
Chirp 3 chirp_3

Méthodes d'API

Les ensembles de langues disponibles ne sont pas les mêmes pour toutes les méthodes de reconnaissance. Étant donné que Chirp 3 est disponible dans l'API Speech-to-Text V2, il est compatible avec les méthodes de reconnaissance suivantes : Les ensembles de langues disponibles ne sont pas les mêmes pour toutes les méthodes de reconnaissance. Étant donné que Chirp 3 est disponible dans l'API Speech-to-Text V2, il est compatible avec les méthodes de reconnaissance suivantes :

API Compatibilité avec les méthodes API Assistance
v2 Speech.StreamingRecognize (idéal pour le streaming et l'audio en temps réel) Compatible
v2 Speech.Recognize (compatible avec les contenus audio de moins d'une minute) Compatible
v2 Speech.BatchRecognize (compatible avec les contenus audio longs de 1 minute à 1 heure) Compatible

Disponibilité en fonction des régions

Chirp 3 est disponible dans les Google Cloud régions suivantes (d'autres sont prévues) :

Google Cloud Zone Aptitude au lancement
us Aperçu public

En utilisant l'API Locations comme expliqué ici, vous pouvez trouver la liste la plus récente des régions, langues, paramètres régionaux et fonctionnalités Google Cloud compatibles pour chaque modèle de transcription.

Langues disponibles pour la transcription

Chirp 3 est compatible avec la transcription en StreamingRecognize, Recognize et BatchRecognize dans les langues suivantes :

LangueBCP-47 Code
Arabe (Émirats arabes unis)ar-AE
Arabe (Bahreïn)ar-BH
Arabe (Algérie)ar-DZ
Arabe (Égypte)ar-EG
Arabe (Israël)ar-IL
Sorani (Irak)ar-IQ
Arabe (Jordanie)ar-JO
Arabe (Koweït)ar-KW
Arabe (Liban)ar-LB
Arabe (Maroc)ar-MA
Arabe (Mauritanie)ar-MR
Arabe (Oman)ar-OM
Arabe (État de Palestine)ar-PS
Arabe (Qatar)ar-QA
Arabe (Arabie saoudite)ar-SA
Arabe (Syrie)ar-SY
Arabe (Tunisie)ar-TN
Arabear-XA
Arabe (Yémen)ar-YE
Bulgare (Bulgarie)bg-BG
Bengali (Bangladesh)bn-BD
Bengali (Inde)bn-IN
Catalan (Espagne)ca-ES
Chinois (simplifié, Chine)cmn-Hans-CN
Chinois cantonais (traditionnel, Hong Kong)yue-Hant-HK
Chinois mandarin (traditionnel, Taïwan)cmn-Hant-TW
Tchèque (République tchèque)cs-CZ
Danois (Danemark)da-DK
Allemand (Allemagne)de-DE
Grec (Grèce)el-GR
Anglais (Australie)en-AU
Anglais (Royaume-Uni)en-GB
Anglais (Inde)en-IN
Anglais (Philippines)en-PH
Anglais (États-Unis)en-US
Espagnol (Mexique)es-MX
Espagnol (Espagne)es-ES
Espagnol (États-Unis)es-US
Estonien (Estonie)et-EE
Persan (Iran)fa-IR
Français (France)fr-FR
Finnois (Finlande)fi-FI
Philippin (Philippines)fil-PH
Français (Canada)fr-CA
Gujarati (Inde)gu-IN
Hindi (Inde)hi-IN
Croate (Croatie)hr-HR
Hongrois (Hongrie)hu-HU
Arménien (Arménie)hy-AM
Indonésien (Indonésie)id-ID
Italien (Italie)it-IT
Hébreu (Israël)iw-IL
Japonais (Japon)ja-JP
Khmer (Cambodge)km-KH
Kannada (Inde)kn-IN
Coréen (Corée)ko-KR
Laotien (Laos)lo-LA
Lituanien (Lituanie)lt-LT
Letton (Lettonie)lv-LV
Malayalam (Inde)ml-IN
Marathi (Inde)mr-IN
Malais (Malaisie)ms-MY
Birman (Myanmar)my-MM
Népalais (Népal)ne-NP
Néerlandais (Pays-Bas)nl-NL
Norvégien (Norvège)no-NO
Polonais (Pologne)pl-PL
Portugais (Brésil)pt-BR
Portugais (Portugal)pt-PT
Roumain (Roumanie)ro-RO
Russe (Russie)ru-RU
Slovaque (Slovaquie)sk-SK
Slovène (Slovénie)sl-SI
Serbe (Serbie)sr-RS
Suédois (Suède)sv-SE
Swahilisw
Tamoul (Inde)ta-IN
Télougou (Inde)te-IN
Thaï (Thaïlande)th-TH
Turc (Turquie)tr-TR
Ukrainien (Ukraine)uk-UA
Ouzbek (Ouzbékistan)uz-UZ
Vietnamien (Viêt Nam)vi-VN

Langues disponibles pour l'identification des locuteurs

Chirp 3 n'est compatible avec la transcription et la segmentation par locuteur qu'en BatchRecognize et Recognize dans les langues suivantes :

Langue Code BCP-47
Chinois (simplifié, Chine) cmn-Hans-CN
Allemand (Allemagne) de-DE
Anglais (Royaume-Uni) en-GB
Anglais (Inde) en-IN
Français (France) en-US
Espagnol (Espagne) es-ES
Espagnol (États-Unis) es-US
Français (Canada) fr-CA
Français (France) fr-FR
Hindi (Inde) hi-IN
Italien (Italie) it-IT
Japonais (Japon) ja-JP
Coréen (Corée) ko-KR
Portugais (Brésil) pt-BR

Compatibilité des fonctionnalités et limites

Chirp 3 est compatible avec les fonctionnalités suivantes :

Fonctionnalité Description Étape de lancement
Ponctuation automatique Générées automatiquement par le modèle, elles peuvent être désactivées. Aperçu
Mise en majuscules automatique Générées automatiquement par le modèle, elles peuvent être désactivées. Aperçu
Identification du locuteur Identifiez automatiquement les différents locuteurs dans un extrait audio monocanal. Aperçu
Transcription audio indépendante de la langue. Le modèle déduit automatiquement la langue parlée dans votre fichier audio et transcrit dans la langue la plus courante. Aperçu

Chirp 3 n'est pas compatible avec les fonctionnalités suivantes :

Fonctionnalité Description
Horodatages au niveau du mot Générées automatiquement par le modèle, elles peuvent être désactivées.
Scores de confiance au niveau du mot L'API renvoie une valeur, mais ce n'est pas réellement un score de confiance.
Adaptation vocale (biais) Fournissez des suggestions au modèle sous forme d'expressions ou de mots pour améliorer la précision de la reconnaissance de termes ou de noms propres spécifiques.

Utiliser Chirp 3

Utiliser Chirp 3 pour les tâches de transcription et de segmentation par locuteur.

Transcrire à l'aide d'une requête par lots Chirp 3 avec identification

Découvrez comment utiliser Chirp 3 pour vos besoins de transcription.

Effectuer une reconnaissance vocale par lot

import os

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def transcribe_batch_chirp3(
    audio_uri: str,
) -> cloud_speech.BatchRecognizeResults:
    """Transcribes an audio file from a Google Cloud Storage URI using the Chirp 3 model of Google Cloud Speech-to-Text V2 API.
    Args:
        audio_uri (str): The Google Cloud Storage URI of the input
          audio file. E.g., gs://[BUCKET]/[FILE]
    Returns:
        cloud_speech.RecognizeResponse: The response from the
           Speech-to-Text API containing the transcription results.
    """

    # Instantiates a client
    client = SpeechClient(
        client_options=ClientOptions(
            api_endpoint="us-west1-speech.googleapis.com",
        )
    )

    speaker_diarization_config = cloud_speech.SpeakerDiarizationConfig(
        min_speaker_count=1,  # minimum number of speakers
        max_speaker_count=6,  # maximum expected number of speakers
    )

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],  # Use "auto" to detect language
        model="chirp_3",
        features=cloud_speech.RecognitionFeatures(
            diarization_config=speaker_diarization_config,
        ),
    )

    file_metadata = cloud_speech.BatchRecognizeFileMetadata(uri=audio_uri)

    request = cloud_speech.BatchRecognizeRequest(
        recognizer=f"projects/{PROJECT_ID}/locations/us-west1/recognizers/_",
        config=config,
        files=[file_metadata],
        recognition_output_config=cloud_speech.RecognitionOutputConfig(
            inline_response_config=cloud_speech.InlineOutputConfig(),
        ),
    )

    # Transcribes the audio into text
    operation = client.batch_recognize(request=request)

    print("Waiting for operation to complete...")
    response = operation.result(timeout=120)

    for result in response.results[audio_uri].transcript.results:
        print(f"Transcript: {result.alternatives[0].transcript}")
        print(f"Detected Language: {result.language_code}")
        print(f"Speakers per word: {result.alternatives[0].words}")

    return response.results[audio_uri].transcript

Utiliser Chirp 3 dans la console Google Cloud