REST 리소스: projects.locations.datasets.dictationStores.speechConfigs

리소스: SpeechConfig

학습 및 적용을 지원하는 구성 기록입니다. 실제 사람인 화자는 SpeechConfig 구성을 공유하거나 각각 별도의 구성을 보유할 수 있습니다.

JSON 표현

{
  "name": string,
  "recognitionConfig": {
    object (RecognitionConfig)
  },
  "speakerExternalId": string,
  "speakerHumanName": string
}
필드
name

string

projects/{project_id}/locations/{locationId}/datasets/{datasetId}/dictationStores/{dictationStoreId}/speechConfigs/{speech_config_id} 형식의 구성 리소스 이름입니다. 서버에서 할당됩니다.

recognitionConfig

object (RecognitionConfig)

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

speakerExternalId

string

특정 구성을 선택하는 데 사용할 수 있는 외부 시스템의 ID입니다.

speakerHumanName

string

제공된 사람의 이름입니다.

RecognitionConfig

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

JSON 표현

{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": number,
  "audioChannelCount": number,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "contextPhrases": [
    string
  ],
  "model": string
}
필드
encoding

enum (AudioEncoding)

모든 RecognitionAudio 메시지에서 전송된 오디오 데이터 인코딩 이 필드는 FLACWAV 오디오 파일에는 선택사항이고 다른 모든 오디오 형식에는 필수입니다. 자세한 내용은 AudioEncoding을 참조하세요.

sampleRateHertz

number

모든 RecognitionAudio 메시지에서 전송된 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값은 8,000~48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다. 이 필드는 FLACWAV 오디오 파일에는 선택사항이고 다른 모든 오디오 형식에는 필수입니다. 자세한 내용은 AudioEncoding을 참조하세요.

audioChannelCount

number

입력 오디오 데이터의 채널 수입니다. MULTI-CHANNEL 인식에만 이 값을 설정합니다. LINEAR16 및 FLAC의 유효한 값은 1-8입니다. OGG_OPUS의 유효한 값은 '1'-'254'입니다. MULAW, AMR, AMR_WB, SPEEX_WITH_HEADER_BYTE에 유효한 값은 1뿐입니다. 0이거나 생략된 경우 기본값은 단일 채널(모노)입니다. 참고: 기본적으로 첫 번째 채널만 인식됩니다. 각 채널에서 독립적인 인식을 수행하려면 enableSeparateRecognitionPerChannel을 'true'로 설정합니다.

enableSeparateRecognitionPerChannel

boolean

각 채널을 별도로 인식하려면 이 값을 명시적으로 ‘true’로 설정해야 하고 audioChannelCount > 1이어야 합니다. 인식 결과에는 결과가 속한 채널을 나타내는 channelTag 필드가 포함됩니다. 'true'가 아닌 경우 첫 번째 채널만 인식됩니다.

languageCode

string

제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 'en-US'를 예로 들 수 있습니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요.

contextPhrases[]

string

음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 문자열 목록입니다. 특정 단어 및 구의 정확도를 향상시키기 위해 사용될 수 있습니다. 예를 들어 특정 명령어가 일반적으로 해당 사용자에 의해 발언되는 경우입니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다.

model

string

특정 요청에 선택할 수 있는 모델입니다. 모델을 명시적으로 지정하지 않으면 기본값인 'default'가 사용됩니다.

AudioEncoding

요청에서 전송한 오디오 데이터의 인코딩입니다.

모든 인코딩은 단일 채널(모노) 오디오만 지원합니다.

최상의 결과를 얻으려면 FLAC 또는 LINEAR16와 같은 무손실 인코딩을 사용하여 오디오 소스를 캡처 및 전송하세요. 특히 주변에 잡음이 있는 경우 손실 코덱으로 오디오를 녹음하고 전송하면 음성 인식의 정확성이 떨어질 수 있습니다. 손실 코덱에는 MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE 등이 있습니다.

FLACWAV 오디오 파일 형식에는 포함된 오디오 콘텐츠를 설명하는 헤더가 포함됩니다. LINEAR16 또는 MULAW 인코딩 오디오가 포함된 WAV 파일에 대한 인식을 요청할 수 있습니다. 요청에 FLAC 또는 WAV 오디오 파일 형식을 전송하는 경우 AudioEncoding를 지정할 필요가 없습니다. 오디오 인코딩 형식은 파일 헤더에서 결정됩니다. FLAC 또는 WAV 오디오를 보낼 때 AudioEncoding을 지정하는 경우 인코딩 구성은 오디오 헤더에 설명된 인코딩과 일치해야 합니다. 그렇지 않으면 요청은 google.rpc.Code.INVALID_ARGUMENT 오류 코드를 반환합니다.

열거형
ENCODING_UNSPECIFIED 지정되지 않음
LINEAR16 압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다.
FLAC FLAC(무료 무손실 오디오 코덱)에서는 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 LINEAR16의 약 절반에 불과하므로 이 인코딩이 권장됩니다. FLAC 스트림 인코딩은 16비트와 24비트 샘플을 지원하지만 STREAMINFO의 모든 필드가 지원되지는 않습니다.
MULAW G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다.
AMR 적응형 다중 속도 협대역 코덱입니다. sampleRateHertz는 8,000이어야 합니다.
AMR_WB 적응형 다중 속도 광대역 코덱입니다. sampleRateHertz는 16,000이어야 합니다.
OGG_OPUS Ogg 컨테이너의 Opus 인코딩 오디오 프레임(OggOpus)입니다. sampleRateHertz는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다.
SPEEX_WITH_HEADER_BYTE 손실이 발생한 인코딩을 사용하지 않는 것이 좋습니다만, 매우 낮은 비트 전송률 인코딩이 필요한 경우 Speex 인코딩보다 OGG_OPUS를 사용하는 것이 좋습니다. Cloud Speech API에서 지원하는 Speex 인코딩에는 MIME 유형 audio/x-speex-with-header-byte의 경우와 같이 각 블록에 헤더 바이트가 있습니다. 이는 RFC 5574에 정의된 RTP Speex 인코딩의 변이입니다. 스트림은 RTP 패킷당 하나의 블록으로 연속된 블록입니다. 각 블록은 블록 길이가 바이트 단위로 포함된 바이트로 시작되며 RFC 5574에 지정된 정수 바이트 수(옥텟)로 패딩된 하나 이상의 Speex 데이터 프레임이 뒤따릅니다. 즉, 각 RTP 헤더는 블록 길이를 포함하는 단일 바이트로 바뀝니다. Speex 광대역만 지원되며, sampleRateHertz는 16,000이어야 합니다.

메소드

create

SpeechConfig를 만듭니다.

delete

SpeechConfig를 삭제하거나 존재하지 않는 경우 NOT_FOUND를 반환합니다.

get

SpeechConfig구성을 가져옵니다.

list

필터링을 지원하는 지정된 Dictation store의 모든 SpeechConfigs를 나열합니다.

patch

SpeechConfig를 업데이트합니다.