일부 제품과 기능의 이름이 변경되고 있습니다. 생성형 플레이북 및 흐름 기능도 단일 통합 콘솔로 마이그레이션되고 있습니다. 세부정보를 참조하세요.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

음성 적응

인텐트 인식 요청을 수행할 때 원하는 경우 phrase_hints를 제공하여 음성 인식기에 힌트를 제공할 수 있습니다. 이러한 힌트는 특정 대화 상태에서 인식에 도움이 될 수 있습니다.

자동 음성 적응

자동 음성 적응 기능은 모든 인텐트 인식 요청에 대해 자동으로 대화 상태를 사용하여 관련 개체 및 학습 문구를 음성 컨텍스트 힌트로 전달하여 에이전트의 음성 인식 정확성을 높입니다. 이 기능은 기본적으로 비활성화되어 있습니다.

자동 음성 적응 사용 또는 사용 중지

자동 음성 적응을 사용 또는 사용 중지하려면 다음 안내를 따르세요.

콘솔

Dialogflow CX 콘솔을 엽니다.
GCP 프로젝트를 선택합니다.
에이전트를 선택합니다.
에이전트 설정을 클릭합니다.
음성 및 IVR 탭을 클릭합니다.
자동 음성 적응 사용을 사용 또는 사용 중지로 전환합니다.
저장을 클릭합니다.

API

Agent 유형은 get 및 patch/update 메서드를 참조하세요.

에이전트 참조의 프로토콜 및 버전 선택:

프로토콜	V3	V3beta1
REST	에이전트 리소스	에이전트 리소스
RPC	에이전트 인터페이스	에이전트 인터페이스
C++	AgentsClient	해당 사항 없음
C#	AgentsClient	해당 사항 없음
Go	AgentsClient	해당 사항 없음
자바	AgentsClient	AgentsClient
Node.js	AgentsClient	AgentsClient
PHP	없음	해당 사항 없음
Python	AgentsClient	AgentsClient
Ruby	없음	해당 사항 없음

음성 인식 개선을 위한 에이전트 설계

자동 음성 적응을 사용하면 에이전트 활용을 극대화할 수 있는 방법으로 에이전트를 빌드할 수 있습니다. 다음 섹션에서는 에이전트의 학습 문구, 항목을 일부 변경하여 어떻게 음성 인식을 개선할 수 있는지 설명합니다.

학습 문구

예를 들어 'stuffy nose'가 포함된 학습 문구를 정의할 경우 발음이 비슷한 최종 사용자 발화도 'stuff he knows'가 아니라 'stuffy nose'로 안정적으로 인식됩니다.

Dialogflow의 양식 작성 프롬프트를 강제하는 필수 매개변수가 있는 경우에는 자동 음성 적응에서 채워지는 항목에 강한 편향을 적용합니다.

어떤 경우든 자동 음성 적응은 음성 인식을 제한하지 않고 편향을 적용할 뿐입니다. 예를 들어 Dialogflow에서 사용자에게 필수 매개변수를 요청하더라도 최상위 수준의 'talk to an agent' 인텐트와 같은 다른 인텐트를 트리거할 수 있습니다.

시스템 개체

@sys.number 시스템 개체를 사용하는 학습 문구를 정의할 때 최종 사용자가 'I want two'라고 말하면 이 음성은 'to', 'too', '2', 'two'로 인식될 수 있습니다.

자동 음성 적응이 사용 설정된 경우 음성 인식 중에 Dialogflow가 @sys.number 항목을 힌트로 사용하고, 매개변수가 '2'로 추출될 가능성이 높습니다.

커스텀 항목

회사에서 제공되는 제품 또는 서비스 이름의 커스텀 개체를 정의하면 최종 사용자가 이러한 단어를 발화에서 언급할 때 단어의 인식 가능성이 더 높아집니다. 'Dialogflow'가 @product entity로 주석 처리되는 'I love Dialogflow' 학습 문구의 경우 자동 음성 적응에서 'I love Dialogflow', 'I love Cloud Speech' 그리고 @product entity의 나머지 개체에 편향을 적용합니다.
Dialogflow를 사용해 음성을 감지할 때는 특히 개체 동의어를 명확하게 정의해야 합니다. 'Dialogflow'와 'Dataflow'라는 두 @product entity 개체가 있다고 가정해 보겠습니다. 'Dialogflow'의 동의어는 'Dialogflow', 'dialog flow', 'dialog builder', 'Speaktoit', 'speak to it', 'API.ai', 'API dot AI'일 수 있습니다. 가장 일반적인 변형이 포함되어 있으므로 적절한 동의어라 할 수 있습니다. 'the dialogue flow builder'는 'dialogue flow'에서 이미 처리되므로 추가할 필요가 없습니다.

참고: 이 정보가 중요한 이유는 무엇인가요? 'Dialogflow'와 'Dataflow'라는 두 가지 개체가 있고, '대화상자 흐름 빌더' 및 'Google Cloud Dataflow'라는 두 개의 동의어가 있다고 가정해 보겠습니다. 최종 사용자는 아주 합리적으로 'Google Cloud Dialogflow'라고 말할 수 있지만 'Google Cloud Dialogflow' 동의어가 없으므로 음성 인식은 'Google Cloud Dataflow'라고 들을 가능성이 없습니다. 개체 정의가 구문에 편중되었기 때문입니다. 마찬가지로 'dataflow 빌더'라고 말하면 '빌더'와 정의된 유일한 개체가 '대화 흐름 빌더'이기 때문에 음성 인식이 '대화 흐름 빌더'로 듣게 될 확률이 높습니다. 또는 위에 나와 있는 것처럼 주요 문구만 정의하면 더 나은 성능을 얻을 수 있습니다. 요약하면 인텐트 학습 문구가 설계된 목적이 개체 데이터이기 때문에 일반적인 데이터를 개체 정의에 추가하지 않도록 주의하세요. 'Google Cloud Dataflow' 학습 문구는 'Dataflow'가 @product 항목으로 주석 처리되어 자동 음성 적응으로 같은 가중치의 'Google Cloud Dataflow' 및 'Google Cloud Dialogflow'를 리슨할 수 있습니다. 추가 권장사항은 에이전트 설계를 참조하세요.

연속적이지만 고유한 숫자 항목이 있는 사용자 발화는 모호할 수 있습니다. 예를 들어 'I want two sixteen packs'는 16개 팩 2개 또는 팩 216개를 의미할 수 있습니다. 철자 값이 있는 개체를 설정하면 음성 적응이 이러한 경우를 명확하게 하는 데 도움이 될 수 있습니다.
- 다음 개체가 있는 quantity 개체를 정의합니다.
  zero
  one
  ...
  twenty
- 다음 개체 있는 product 또는 size 개체를 정의합니다.
  sixteen pack
  two ounce
  ...
  five liter
- 음성 적응에서는 항목 동의어만 사용되므로 참조 값 1 및 단일 동의어 one으로 항목을 정의하여 fulfillment 로직을 단순화할 수 있습니다.

정규 표현식 항목

정규 표현식 항목은 올바르게 구성하고 테스트하면 'ABC123' 또는 '12345'와 같은 영숫자 및 숫자 시퀀스에 대한 자동 음성 적응을 트리거할 수 있습니다.

음성을 통해 이러한 시퀀스를 인식하려면 아래의 요구사항 4개 모두를 구현합니다.

1. 정규 표현식 개체 요구사항

어떤 정규 표현식으로든 텍스트 입력에서 항목을 추출할 수 있지만 음성을 인식할 때 자동 음성 적응에서 철자가 틀린 영숫자 또는 숫자 시퀀스에 편향을 적용할 수 있는 표현식도 있습니다.

정규 표현식 개체에서 최소 하나의 개체가 다음 규칙을 모두 따라야 합니다.

일부 영숫자 문자(예: \d, \w, [a-zA-Z0-9])와 일치해야 합니다.
\s* 및 \s?가 허용되더라도 공백 또는 \s를 포함하지 않아야 합니다.
캡처 그룹 또는 비캡처 그룹 ()을 포함하지 않아야 합니다.
다음과 같은 특수 문자 또는 구두점과 일치시키려고 시도하지 않아야 합니다. ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

이 개체에는 문자 집합 [] 및 *, ?, +, {3,5}와 같은 반복 수량자가 포함될 수 있습니다.

예시를 참조하세요.

2. 매개변수 정의 요구사항

정규 표현식 항목을 필수 양식 매개변수로 표시하여 양식 작성 중에 수집할 수 있도록 합니다. 그러면 인텐트와 시퀀스를 동시에 인식하는 대신에 자동 음성 적응에서 시퀀스 인식에 강한 편향을 적용합니다. 필수 매개변수로 표시하지 않을 경우 'Where is my package for ABC123'이 'Where is my package 4ABC123'으로 잘못 인식될 수 있습니다.

3. 학습 문구 주석 요구사항

인텐트 학습 문구 주석에 정규 표현식 항목을 사용하지 마세요. 이렇게 하면 매개변수가 양식을 작성하는 동안 확인됩니다.

4. 테스트 요구사항

음성 적응 테스트를 참조하세요.

예시

예를 들어 단일 항목 ([a-zA-Z0-9]\s?){5,9}를 사용하는 정규 표현식 항목은 캡처 그룹이 포함되어 있으므로 음성 시퀀스 인식기를 트리거하지 않습니다. 이 문제를 해결하려면 [a-zA-Z0-9]{5,9}에 대한 다른 개체를 추가하면 됩니다. 그러면 'ABC123'을 일치시킬 때 시퀀스 인식기를 활용할 수 있지만 공백을 허용하는 원래 규칙 때문에 NLU에서도 'ABC 123'과 같은 입력을 찾습니다.

다음 정규 표현식의 예는 영숫자 시퀀스에 맞게 조정됩니다.

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

다음 정규 표현식의 예는 숫자 시퀀스에 맞게 조정됩니다.

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

정규 표현식 해결 방법

자동 음성 적응의 정규 표현식 항목에 대한 기본 제공 지원은 언어마다 다릅니다. $OOV_CLASS_ALPHANUMERIC_SEQUENCE 및 $OOV_CLASS_DIGIT_SEQUENCE 지원 언어는 음성 클래스 토큰을 참조하세요.

원하는 언어가 목록에 없는 경우 이러한 제한을 해결할 수 있습니다. 예를 들어 세 글자와 세 자리 숫자로 된 직원 ID를 정확하게 인식하려면 다음 항목 및 매개변수를 사용하여 에이전트를 빌드할 수 있습니다.

10개 개체 항목(동의어 포함)이 포함된 digit 개체를 정의합니다.
0, 0
1, 1
...
9, 9
26개 개체 항목(동의어 포함)이 포함된 letter 개체를 정의합니다.
A, A
B, B
...
Z, Z
단일 개체 항목(동의어 제외)이 포함된 employee-id 개체를 정의합니다.
@letter @letter @letter @digit @digit @digit
학습 문구에서 @employee-id를 매개변수로 사용합니다.

수동 음성 적응

수동 음성 적응을 사용하면 흐름 또는 페이지의 음성 적응 문구를 수동으로 구성할 수 있습니다. 또한 후자를 사용 설정하면 자동 음성 적응으로 생성된 암시적 음성 컨텍스트도 재정의합니다.

흐름 수준 및 페이지 수준 음성 적응 설정에는 계층적 관계가 있습니다. 즉, 페이지가 기본적으로 흐름 수준에서 음성 적응 설정을 상속하며 페이지에 맞춤설정된 설정이 있는 경우 더 세분화된 페이지 수준이 흐름 수준보다 항상 우선 적용됩니다.

음성 적응 설정의 경우 흐름 수준 설정 및 페이지 수준 설정을 독립적으로 사용 설정할 수 있습니다. 흐름 수준 적응 설정을 사용 설정하지 않은 경우에도 페이지 수준에서 맞춤설정을 선택하여 특정 페이지에 수동 음성 적응을 사용 설정할 수 있습니다. 마찬가지로 흐름 수준 설정에서 수동 음성 적응을 사용 중지해도 맞춤설정이 선택된 흐름의 페이지는 영향을 받지 않습니다.

하지만 흐름 수준 설정 및 페이지 수준 설정은 개별적으로 사용 중지할 수 없습니다. 흐름에 수동 음성 적응이 사용 설정된 경우 맞춤설정을 통해 흐름 아래의 페이지에서는 이를 사용 중지할 수 없습니다. 따라서 흐름 내 페이지에 수동 음성 적응과 자동 음성 적응을 혼합하여 사용하려면 흐름 수준에서 수동 음성 적응을 사용 설정하면 안 되며 페이지 수준 적응 설정만 사용해야 합니다. 아래 표를 참조하여 조정 사례에 사용해야 하는 흐름 및 페이지 설정 조합을 이해할 수 있습니다.

대상 효과	적응 설정의 권장 사용 사례
흐름에 자동 적응 사용 중지	구문 집합이 없는 흐름이 사용 설정됨(기본적으로 흐름 내의 페이지가 흐름 설정을 사용함)
페이지에 자동 적응 사용 중지	흐름이 사용 중지되고 구문 집합 없이 페이지 사용 설정됨(맞춤설정 선택됨)
흐름 내 모든 페이지에 수동 음성 적응만 사용	흐름 사용 설정됨. 흐름과 다른 구문 집합을 사용해야 하는 페이지를 맞춤설정합니다.
흐름 내에서 자동 적응과 수동 적응 혼합 사용	흐름 중지됨. 수동 적응을 적용할 페이지를 맞춤설정합니다.
흐름 내 모든 페이지에 자동 음성 적응만 사용	흐름 중지됨.

수동 음성 적응 사용 설정 또는 사용 중지

흐름 또는 페이지 수준에서 수동 음성 적응을 사용 설정 또는 사용 중지하려면 다음 안내를 따르세요.

흐름 설정

Dialogflow CX 콘솔을 엽니다.
GCP 프로젝트를 선택합니다.
흐름 섹션의 흐름 위로 마우스를 가져갑니다.
옵션 버튼을 클릭합니다.
드롭다운 메뉴에서 흐름 설정을 선택합니다.
수동 음성 적응 사용 설정 체크박스를 선택하거나 선택 해제합니다.
구문 집합 표에서 구문 집합을 수정, 추가 또는 삭제합니다.
저장을 클릭합니다.

페이지 설정

Dialogflow CX 콘솔을 엽니다.
GCP 프로젝트를 선택합니다.
페이지 섹션에서 페이지 위로 마우스를 가져갑니다.
옵션 버튼을 클릭합니다.
드롭다운 메뉴에서 페이지 설정을 선택합니다.
흐름 수준 사용이 기본적으로 선택되며, 선택하면 흐름 수준 적응 문구가 이 페이지에 재사용됩니다. 맞춤설정을 선택하여 흐름 수준 설정과 다른 적응 문구를 구성할 수 있습니다. 흐름 수준에서 수동 음성 적응이 사용 중지되어 있어도 맞춤설정 옵션을 통해 해당 흐름의 페이지에 수동 음성 적응을 사용 설정하고 구성할 수 있습니다.
적응 구문 집합 표에서 구문 집합 수정, 추가 또는 삭제
저장을 클릭합니다.

음성 인식 개선을 위한 수동 구문 집합 구성

1. 단어 및 문구

적응 구문 집합에서 음성 클래스 토큰에 대한 선택적 참조를 사용하여 단일 단어 또는 여러 단어로의 구문을 정의할 수 있습니다. 예를 들어 '훌륭한 속도', '운송장 번호는 $OOV_CLASS_ALPHANUMERIC_SEQUENCE입니다.' 또는 '$FULLPHONENUM'과 같은 구문을 추가할 수 있습니다. 이렇게 제공된 구문은 다른 음성상의 유사한 구문보다 텍스트로 변환될 가능성이 높아집니다. 부스트 없이 여러 단어 문구를 추가하면 전체 문구와 문구 내 연속 부분에 편향이 적용됩니다. 일반적으로 구문 수는 적게 유지해야 하며 음성 적응 없이 음성 인식이 제대로 이해되지 않는 경우에만 구문을 추가해야 합니다. Speech-to-Text가 이미 구문을 올바르게 인식할 수 있는 경우 이 구문을 음성 적응 설정에 추가할 필요가 없습니다. Speech-to-Text가 페이지 또는 흐름에서 자주 인식하지 못하는 구문이 몇 개 있는 경우 해당 적응 설정에 올바른 구문을 추가할 수 있습니다.

인식 오류 수정 예시

다음은 음성 적응을 사용하여 인식 문제를 수정하는 방법의 예시입니다. 예를 들어 휴대전화 거래 에이전트를 설계한다고 가정할 때, 상담사가 '무엇을 도와드릴까요?'라는 첫 번째 질문을 한 후 사용자가 'sell phones'(전화 판매) 또는 'cell phone'(휴대전화)이라는 구문을 포함한 말을 한다고 가정해 보겠습니다. 그러면 음성 적응을 사용하여 두 구문의 인식 정확성을 높이려면 어떻게 해야 할까요?

적응 설정에 두 구문을 모두 포함하면 소리가 비슷하기 때문에 Speech-to-Text에서 여전히 혼동이 발생할 수 있습니다. 이 중 한 구문만 제공하면 Speech-to-Text가 한 구문을 다른 구문으로 잘못 인식할 수 있습니다. 두 구문의 음성 인식 정확성을 개선하려면 Speech-to-Text에 'sell phones'(전화 판매)를 듣는 경우와 'cell phone'(휴대전화)을 듣는 경우를 구분하기 위한 더 많은 컨텍스트 단서를 제공해야 합니다. 예를 들어 사람들은 '휴대전화 판매 방법', '휴대 전화를 팔려는 경우', '전화 판매 여부' 등의 발화의 일부로 'sell phones'(전화 판매)를 사용하고 'cell phone'(휴대전화)은 '휴대전화 구매', '휴대전화 청구서', '휴대전화 서비스'와 같은 발화의 일부로 자주 사용한다는 것을 알 수 있습니다. 원래의 짧은 문구인 'cell phones'(휴대전화)와 'sell phones'(전화 판매) 대신 더 자세한 문구를 모델에 제공하면 Speech-to-Text는 'sell phones'(전화 판매)가 동사구로 '방법', '하려는 경우'와 같은 단어와 같이 자주 나오고 'cell phones'(휴대전화)는 명사구로 '구매', '청구서', '서비스'와 같은 단어와 자주 나온다는 것을 학습할 수 있습니다. 따라서 적응 구문을 구성하는 경우 일반적으로 'sell phones'(전화 판매)만 포함하는 것보다 'how to sell phones'(전화 판매 방법) 또는 'do you sell phones'(전화 판매 여부)와 같은 더 자세한 구문을 제공하는 것이 좋습니다.

2. 음성 클래스 토큰

자연어 단어 외에 음성 클래스 토큰에 대한 참조를 문구에 삽입할 수도 있습니다. 음성 클래스 토큰은 일반적으로 특정 작성 형식을 따르는 일반적인 개념을 나타냅니다. 예를 들어 '123 Main Street'과 같은 주소에서 사람들은 대개 주소 번호를 철자로 쓴 버전인 '백이십삼' 대신 숫자 형식 '123'이 나올 것으로 생각합니다. 스크립트 작성 결과, 특히 영숫자 시퀀스에 특정 형식이 예상되는 경우 지원되는 클래스 토큰 목록을 참조하여 언어 및 사용 사례에 사용 가능한 토큰을 확인하세요.

페이지에 이미 시스템 항목에 대한 참조와 함께 인텐트 경로 또는 매개변수가 있는 경우 공통 시스템 항목과 음성 클래스 토큰 사이의 매핑을 위한 참조 표는 다음과 같습니다.

시스템 개체	음성 클래스 토큰
`@sys.date`	`$MONTH $DAY $YEAR`
`@sys.date-time`	`$MONTH $DAY $YEAR`
`@sys.date-period`	`$MONTH $DAY $YEAR`
`@sys.time`	`$TIME`
`@sys.time-period`	`$TIME`
`@sys.age`	`$OPERAND`
`@sys.number`	`$OPERAND`
`@sys.number-integer`	`$OPERAND`
`@sys.cardinal`	`$OPERAND`
`@sys.ordinal`	`$OPERAND`
`@sys.percentage`	`$OPERAND`
`@sys.duration`	`$OPERAND`
`@sys.currency-name`	`$MONEY`
`@sys.unit-currency`	`$MONEY`
`@sys.phone-number`	`$FULLPHONENUM`
`@sys.zip-code`	`$POSTALCODE` 또는 `$OOV_CLASS_POSTALCODE`
`@sys.address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.street-address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.temperature`	`$OOV_CLASS_TEMPERATURE`
`@sys.number-sequence`	`$OOV_CLASS_DIGIT_SEQUENCE`
`@sys.flight-number`	`$OOV_CLASS_ALPHANUMERIC_SEQUENCE`

3. 부스트 값

부스트 값이 없는 구문을 추가하는 것으로 충분히 강한 편향 효과를 제공하지 못하면 부스트 값을 사용하여 음성 적응 편향 효과를 더욱 강화할 수 있습니다.

0보다 크고 20보다 작은 값으로 설정하면 부스트가 추가 편향을 적용합니다. 부스트가 비어 있거나 0인 경우 기본 편향 효과는 전체 구문과 구문 내의 연속 부분을 인식하는 데 도움이 됩니다. 예를 들어 '영업 중이며 휴대전화를 판매하나요'라는 부스트되지 않은 문구는 해당 문구와 '나는 휴대전화를 판매합니다.' 및 '안녕하세요. 영업 중인가요' 등 유사한 문구를 인식하는 데 도움이 됩니다.

양수 부스트가 적용되면 편향의 효과가 더 강력하지만 정확한 문구에만 적용됩니다. 예를 들어 부스트된 문구인 '휴대전화 판매'는 '휴대전화 판매가 가능한가요'를 인식하는 데 도움이 되지만 '휴대전화 판매하나요'는 인식하지 못합니다.

따라서 부스트 유무에 관계없이 문구를 제공하면 최상의 결과를 얻을 수 있습니다.

부스트 값이 높을수록 오디오에 포함된 단어나 구문이 Speech-to-Text에서 올바르게 인식되지 않는 거짓음성이 발생할 확률이 낮아집니다(낮은 편향). 그러나 부스트는 오디오에 포함되지 않은 단어나 구문이 변환 텍스트에 나타나는 거짓양성을 증가시킬 수도 있습니다(높은 편향). 일반적으로 두 편향 문제 사이에서 절충점을 찾으려면 편향 구문을 미세 조정해야 합니다.

구문의 부스트 값을 미세 조정하는 방법은 부스트에 대한 Cloud Speech 문서에서 자세히 알아볼 수 있습니다.

자동 또는 수동 음성 적응을 사용해야 하는 경우

일반적으로 음성 적응으로 에이전트의 음성 인식 품질이 향상될지 확실하지 않은 경우(명확한 스크립트 작성 오류 패턴 없음) 수동 음성 적응을 사용하기 전에 먼저 자동 음성 적응을 사용하는 것이 좋습니다. 보다 세밀한 결정은 다음 요소를 고려하여 자동 음성 적응 또는 수동 음성 적응 중에서 결정합니다.

1. 양식 채우기

자동 음성 적응은 양식 매개변수에 ABNF 문법 컨텍스트를 사용하고 항목 유형에 따라 문법 규칙을 적용하므로 양식 작성에서 잘 작동합니다. 아직 수동 음성 적응은 ABNF 문법을 지원하지 않으므로 양식 작성 페이지의 경우 자동 음성 적응이 일반적으로 수동 음성 적응보다 선호됩니다. 시스템 항목 매개변수만 있는 페이지와 음성 클래스 토큰에서 지원하는 간단한 정규식 항목을 사용하는 경우, 정규식 항목을 조정할 필요 없이 수동 음성 적응을 사용하여 자동 음성 적응과 유사한 편향 효과를 얻을 수 있습니다.

2. 페이지 또는 흐름 전환 복잡성

인텐트 경로가 몇 개 있는 간단한 페이지 또는 흐름의 경우 자동 음성 적응에서 대표적 편향 구문을 생성하여 합리적으로 실행할 수 있습니다.

하지만 페이지 또는 흐름에 인텐트 경로가 많거나(페이지의 경우 흐름 수준 경로 수도 고려해야 함), 인텐트에 너무 길거나 중요하지 않은 학습 구문이 있는 경우(예: 한 두 음절만 있는 문장 전체 또는 한 단어) 음성 적응 모델이 이러한 구문에서 잘 작동하지 않을 가능성이 매우 높습니다. 먼저 빈 구문 집합(빈 적응 재정의)으로 수동 음성 적응을 사용 설정하여 복잡성이 높은 서술형 페이지에 대해 음성 적응을 사용 중지해야 합니다. 그런 다음 인식 품질을 개선하기 위해 Speech-to-Text에 여전히 제공되어야 하는 모호하지 않은 특수한 구문이 있는지 평가합니다.

이러한 복잡성 문제의 또 다른 증상은 자동 음성 적응이 사용 설정된 경우 낮은 편향 또는 높은 편향 문제의 범위가 넓게 표시되는 것입니다. 위의 사례와 마찬가지로 먼저 특정 페이지에서 음성 적응을 사용 중지한 상태로 테스트해야 합니다. 음성 적응을 사용 중지한 후에도 잘못된 동작이 지속되면 음성 적응 설정에 수정할 문구를 추가하고, 부스트 값을 추가하여 필요한 경우 편향 효과를 강화할 수 있습니다.

음성 적응 테스트

특정 학습 문구 또는 개체 일치에 대해 에이전트의 음성 적응 기능을 테스트할 때는 대화의 첫 번째 음성 발화로 일치 개체를 바로 테스트해서는 안 됩니다. 테스트하려는 일치 개체 전에 전체 대화의 음성 또는 이벤트 입력만 사용해야 합니다. 이 방식으로 테스트할 때 에이전트 동작은 실제 프로덕션 대화의 동작과 유사합니다.

제한사항

다음과 같은 제한사항이 적용됩니다.

음성 적응을 모든 음성 모델과 언어 조합에 사용할 수는 없습니다. 음성 모델 및 언어 조합에서 '모델 적응'을 사용할 수 있는지 확인하려면 Cloud Speech 언어 지원 페이지를 참조하세요.

현재 수동 음성 적응은 커스텀 클래스 또는 ABNF 문법을 아직 지원하지 않습니다. 자동 음성 적응을 사용 설정하거나 런타임 인텐트 인식 요청을 사용하여 이러한 적응 기능을 사용할 수 있습니다.
동일한 부스트 값이어도 음성 모델 및 언어마다 다르게 작동할 수 있으므로 여러 언어 또는 음성 모델을 사용하는 에이전트에 대해 수동으로 구성할 때 주의해야 합니다. 현재 수동 음성 적응은 에이전트의 모든 언어에 적용되므로 다국어 에이전트는 언어 제약이 없는 문구만 사용하거나 각 언어를 별도의 에이전트로 분할해야 합니다. 기본 편향 동작(부스트 또는 0 부스트 제공 안 함)은 일반적으로 모든 언어 및 모델에서 적절하게 작동하므로 인식 사용 사례에 더 강력한 편향이 필요하지 않은 한 언어별 부스트 값을 구성할 필요가 없습니다. 이 Cloud Speech-to-Text 가이드에서 부스트 값을 조정하는 방법을 자세히 알아볼 수 있습니다.

긴 문자 시퀀스를 인식하는 것은 쉽지 않습니다. 한 번에 캡처되는 문자 수는 입력 오디오의 품질과 직접적으로 관련이 있습니다. 모든 정규 표현식 항목 가이드라인을 따랐고 수동 음성 적응 설정에서 관련 음성 클래스 토큰을 사용하려 했지만 한 번에 전체 시퀀스를 캡처하는 데 여전히 어려움이 있는 경우 다음과 같은 대화 대안을 고려할 수도 있습니다.
- 데이터베이스에 대한 시퀀스를 확인할 때는 날짜, 이름, 전화번호 등 수집된 다른 매개변수를 교차 참조하여 불완전한 일치를 허용하는 것이 좋습니다. 예를 들어 사용자에게 단순히 주문 번호를 물어보는 대신 전화번호도 요청합니다. 이제 웹훅이 데이터베이스에서 주문 상태를 쿼리하면 먼저 전화번호를 사용하고 계정에서 가장 가까운 일치 순서를 반환할 수 있습니다. 이렇게 하면 Dialogflow가 'ABC'를 'AVC'로 잘못 들을 수 있지만, 여전히 사용자의 올바른 주문 상태를 반환할 수 있습니다.
- 특히 긴 시퀀스의 경우 봇에서 진행 상황을 확인할 수 있도록 최종 사용자가 중간에 잠시 멈추도록 유도하는 흐름을 설계해 보세요.

음성 복제

고급 음성 설정