텍스트 변환 모델 비교

이 페이지에서는 Speech-to-Text에 대한 오디오 텍스트 변환 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.

올바른 텍스트 변환 모델 선택

Speech-to-Text는 입력을 여러 머신러닝 모델 중 하나와 비교하는 방법으로 오디오 클립의 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.

Speech-to-Text에는 특정 소스의 오디오에서 학습된 특화된 모델이 있습니다. 이러한 모델을 학습된 데이터와 유사한 종류의 오디오 데이터에 적용하면 더 나은 결과를 얻을 수 있습니다.

다음 표에는 Speech-to-Text V2 API와 함께 사용할 수 있는 텍스트 변환 모델이 나와 있습니다.

모델 이름 설명
chirp_3 피드백과 경험을 기반으로 사용자 요구사항을 충족하도록 설계된 최신 세대의 Google 다국어 자동 음성 인식(ASR) 전용 생성 모델을 사용합니다. Chirp 3는 이전 Chirp 모델보다 정확성과 속도가 향상되었으며 분할 및 자동 언어 감지를 제공합니다.
chirp_2 스트리밍 및 일괄 처리를 위해 대규모 언어 모델(LLM) 기술을 기반으로 하며 다양한 언어 콘텐츠 및 다국어 기능을 통해 텍스트 변환 및 번역을 제공하는 범용 대규모 음성 모델(USM)을 사용합니다.
telephony 일반적으로 8kHz 샘플링 레이트로 녹음된 오디오 전화 통화에서 시작되는 오디오에 이 모델을 사용합니다. 고객 서비스, 화상회의, 자동 키오스크 애플리케이션에 이상적입니다.

오디오 텍스트 변환용 모델 선택

짧은 오디오 클립(60초 미만)을 텍스트로 변환하는 가장 간단한 방법은 동기식 인식입니다. 오디오를 처리한 후 모든 오디오가 처리되면 단일 응답으로 전체 텍스트 변환 결과를 반환합니다.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

60초보다 긴 오디오 파일을 텍스트로 변환하거나 오디오를 실시간으로 텍스트로 변환하려면 다음 방법 중 하나를 사용하세요.

  • 일괄 인식: Cloud Storage 버킷에 저장된 긴 오디오 파일(수 분에서 수 시간)을 텍스트로 변환하는 데 적합합니다. 이는 비동기식 작업입니다. 일괄 인식에 대한 자세한 내용은 일괄 인식을 참조하세요.
  1. 스트리밍 인식: 마이크 피드 또는 라이브 스트림과 같은 오디오를 실시간으로 캡처하고 텍스트로 변환하는 데 적합합니다. 스트리밍 인식에 대한 자세한 내용은 스트리밍 인식을 참조하세요.

다음 단계