리소스: SpeechConfig
학습 및 적용을 지원하는 구성 기록입니다. 실제 사람인 화자는 SpeechConfig 구성을 공유하거나 각각 별도의 구성을 보유할 수 있습니다.
JSON 표현 | |
---|---|
{
"name": string,
"recognitionConfig": {
object ( |
필드 | |
---|---|
name |
|
recognitionConfig |
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. |
speakerExternalId |
특정 구성을 선택하는 데 사용할 수 있는 외부 시스템의 ID입니다. |
speakerHumanName |
제공된 사람의 이름입니다. |
RecognitionConfig
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.
JSON 표현 | |
---|---|
{
"encoding": enum ( |
필드 | |
---|---|
encoding |
모든 |
sampleRateHertz |
모든 |
audioChannelCount |
입력 오디오 데이터의 채널 수입니다. MULTI-CHANNEL 인식에만 이 값을 설정합니다. LINEAR16 및 FLAC의 유효한 값은 |
enableSeparateRecognitionPerChannel |
각 채널을 별도로 인식하려면 이 값을 명시적으로 ‘true’로 설정해야 하고 audioChannelCount > 1이어야 합니다. 인식 결과에는 결과가 속한 채널을 나타내는 channelTag 필드가 포함됩니다. 'true'가 아닌 경우 첫 번째 채널만 인식됩니다. |
languageCode |
제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 'en-US'를 예로 들 수 있습니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요. |
contextPhrases[] |
음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 문자열 목록입니다. 특정 단어 및 구의 정확도를 향상시키기 위해 사용될 수 있습니다. 예를 들어 특정 명령어가 일반적으로 해당 사용자에 의해 발언되는 경우입니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다. |
model |
특정 요청에 선택할 수 있는 모델입니다. 모델을 명시적으로 지정하지 않으면 기본값인 'default'가 사용됩니다. |
AudioEncoding
요청에서 전송한 오디오 데이터의 인코딩입니다.
모든 인코딩은 단일 채널(모노) 오디오만 지원합니다.
최상의 결과를 얻으려면 FLAC
또는 LINEAR16
와 같은 무손실 인코딩을 사용하여 오디오 소스를 캡처 및 전송하세요. 특히 주변에 잡음이 있는 경우 손실 코덱으로 오디오를 녹음하고 전송하면 음성 인식의 정확성이 떨어질 수 있습니다. 손실 코덱에는 MULAW
, AMR
, AMR_WB
, OGG_OPUS
, SPEEX_WITH_HEADER_BYTE
등이 있습니다.
FLAC
및 WAV
오디오 파일 형식에는 포함된 오디오 콘텐츠를 설명하는 헤더가 포함됩니다. LINEAR16
또는 MULAW
인코딩 오디오가 포함된 WAV
파일에 대한 인식을 요청할 수 있습니다. 요청에 FLAC
또는 WAV
오디오 파일 형식을 전송하는 경우 AudioEncoding
를 지정할 필요가 없습니다. 오디오 인코딩 형식은 파일 헤더에서 결정됩니다. FLAC
또는 WAV
오디오를 보낼 때 AudioEncoding
을 지정하는 경우 인코딩 구성은 오디오 헤더에 설명된 인코딩과 일치해야 합니다. 그렇지 않으면 요청은 google.rpc.Code.INVALID_ARGUMENT
오류 코드를 반환합니다.
열거형 | |
---|---|
ENCODING_UNSPECIFIED |
지정되지 않음 |
LINEAR16 |
압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다. |
FLAC |
FLAC (무료 무손실 오디오 코덱)에서는 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 LINEAR16 의 약 절반에 불과하므로 이 인코딩이 권장됩니다. FLAC 스트림 인코딩은 16비트와 24비트 샘플을 지원하지만 STREAMINFO 의 모든 필드가 지원되지는 않습니다. |
MULAW |
G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다. |
AMR |
적응형 다중 속도 협대역 코덱입니다. sampleRateHertz 는 8,000이어야 합니다. |
AMR_WB |
적응형 다중 속도 광대역 코덱입니다. sampleRateHertz 는 16,000이어야 합니다. |
OGG_OPUS |
Ogg 컨테이너의 Opus 인코딩 오디오 프레임(OggOpus)입니다. sampleRateHertz 는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다. |
SPEEX_WITH_HEADER_BYTE |
손실이 발생한 인코딩을 사용하지 않는 것이 좋습니다만, 매우 낮은 비트 전송률 인코딩이 필요한 경우 Speex 인코딩보다 OGG_OPUS 를 사용하는 것이 좋습니다. Cloud Speech API에서 지원하는 Speex 인코딩에는 MIME 유형 audio/x-speex-with-header-byte 의 경우와 같이 각 블록에 헤더 바이트가 있습니다. 이는 RFC 5574에 정의된 RTP Speex 인코딩의 변이입니다. 스트림은 RTP 패킷당 하나의 블록으로 연속된 블록입니다. 각 블록은 블록 길이가 바이트 단위로 포함된 바이트로 시작되며 RFC 5574에 지정된 정수 바이트 수(옥텟)로 패딩된 하나 이상의 Speex 데이터 프레임이 뒤따릅니다. 즉, 각 RTP 헤더는 블록 길이를 포함하는 단일 바이트로 바뀝니다. Speex 광대역만 지원되며, sampleRateHertz 는 16,000이어야 합니다. |
메소드 |
|
---|---|
|
새 SpeechConfig 를 만듭니다. |
|
SpeechConfig 를 삭제하거나 존재하지 않는 경우 NOT_FOUND를 반환합니다. |
|
SpeechConfig 구성을 가져옵니다. |
|
필터링을 지원하는 지정된 Dictation store 의 모든 SpeechConfigs 를 나열합니다. |
|
SpeechConfig 를 업데이트합니다. |