Utilisez un modèle Speech-to-Text personnalisé entraîné dans votre application de production ou dans des workflows d'analyse comparative. Dès que vous déployez votre modèle via un point de terminaison dédié, vous obtenez automatiquement un accès programmatique via un objet de reconnaissance, qui peut être utilisé directement via l'API Speech-to-Text V2 ou dans la console Google Cloud.
Avant de commencer
Assurez-vous d'avoir créé un compte Google Cloud et un projet, d'avoir entraîné un modèle de reconnaissance vocale personnalisé et de l'avoir déployé à l'aide d'un point de terminaison.
Effectuer une inférence dans la version 2
Pour qu'un modèle Speech-to-Text personnalisé soit prêt à être utilisé, l'état du modèle dans l'onglet Modèles doit être Actif et le point de terminaison dédié dans l'onglet Points de terminaison doit être Déployé.
Dans notre exemple, où un ID de projet Google Cloud est custom-models-walkthrough
, le point de terminaison correspondant au modèle Speech-to-Text personnalisé quantum-computing-lectures-custom-model
est quantum-computing-lectures-custom-model-prod-endpoint
. La région disponible est us-east1
, et la requête de transcription par lot est la suivante :
from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
def quickstart_v2(
project_id: str,
audio_file: str,
) -> cloud_speech.RecognizeResponse:
"""Transcribe an audio file."""
# Instantiates a client
client = SpeechClient(
client_options=client_options.ClientOptions(
api_endpoint="us-east1-speech.googleapis.com"
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
config=config,
content=content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
Étapes suivantes
Suivez les ressources pour tirer parti des modèles de reconnaissance vocale personnalisés dans votre application. Consultez Évaluer vos modèles personnalisés.