Utiliser des modèles

Utilisez un modèle Speech-to-Text personnalisé entraîné dans votre application de production ou dans des workflows d'analyse comparative. Dès que vous déployez votre modèle via un point de terminaison dédié, vous obtenez automatiquement un accès programmatique via un objet de reconnaissance, qui peut être utilisé directement via l'API Speech-to-Text V2 ou dans la console Google Cloud.

Avant de commencer

Assurez-vous d'avoir créé un compte Google Cloud et un projet, d'avoir entraîné un modèle de reconnaissance vocale personnalisé et de l'avoir déployé à l'aide d'un point de terminaison.

Effectuer des inférences dans la version 2

Pour qu'un modèle Speech-to-Text personnalisé soit prêt à être utilisé, l'état du modèle dans l'onglet Modèles doit être Actif et le point de terminaison dédié dans l'onglet Points de terminaison doit être Déployé.

Dans notre exemple, où un ID de projet Google Cloud est custom-models-walkthrough, le point de terminaison correspondant au modèle Speech-to-Text personnalisé quantum-computing-lectures-custom-model est quantum-computing-lectures-custom-model-prod-endpoint. La région disponible est us-east1, et la requête de transcription par lot est la suivante :

from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def quickstart_v2(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe an audio file."""
    # Instantiates a client
    client = SpeechClient(
    client_options=client_options.ClientOptions(
      api_endpoint="us-east1-speech.googleapis.com"
    )
  )

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],
        model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
    )
    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

Étapes suivantes

Suivez les ressources pour tirer parti des modèles de reconnaissance vocale personnalisés dans votre application. Consultez la page Évaluer vos modèles personnalisés.