Verwenden Sie ein trainiertes benutzerdefiniertes Speech-to-Text-Modell in Ihrer Produktionsanwendung oder Benchmarking-Workflows. Wenn Sie Ihr Modell über einen dedizierten Endpunkt bereitstellen, erhalten Sie automatisch programmatischen Zugriff über ein Erkennungsobjekt, das direkt über die Speech-to-Text V2 API oder in der Google Cloud Console verwendet werden kann.
Hinweise
Sie müssen sich für ein Google Cloud-Konto registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und über einen Endpunkt bereitgestellt haben.
Inferenz in V2 ausführen
Damit ein benutzerdefiniertes Speech-to-Text-Modell einsatzbereit ist, muss der Status des Modells im Tab Modelle Aktiv sein, und der dedizierte Endpunkt im Tab Endpunkte muss Bereitgestellt sein.
In unserem Beispiel, in dem eine Google Cloud-Projekt-ID custom-models-walkthrough
lautet, ist der Endpunkt, der dem benutzerdefinierten Speech-to-Text-Modell quantum-computing-lectures-custom-model
entspricht, quantum-computing-lectures-custom-model-prod-endpoint
. Die Region, in der es verfügbar ist, ist us-east1
und die Batch-Transkriptionsanfrage lautet:
from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
def quickstart_v2(
project_id: str,
audio_file: str,
) -> cloud_speech.RecognizeResponse:
"""Transcribe an audio file."""
# Instantiates a client
client = SpeechClient(
client_options=client_options.ClientOptions(
api_endpoint="us-east1-speech.googleapis.com"
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
config=config,
content=content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
Nächste Schritte
In den folgenden Ressourcen erfahren Sie, wie Sie benutzerdefinierte Sprachmodelle in Ihrer Anwendung nutzen können. Siehe Benutzerdefinierte Modelle bewerten.