의료 모델을 사용하여 음성 인식

Speech-to-Text는 다른 표준 및 고급 음성 인식 모델 외에도 2가지 의료 모델을 제공합니다. 의료 모델은 진단, 약물, 증상, 치료, 질환 등 의료 환경에서 일반적으로 사용되는 단어를 인식하도록 특별히 설계되었습니다. 이러한 유형의 오디오 데이터를 인식하려면 이 모델을 사용하여 스크립트 작성 결과를 개선하면 됩니다.

구체적인 사용 사례에 맞춰 설계된 2가지 의료 모델이 있습니다.

  • medical_conversation: 의사, 간호사 등의 의료인과 환자 간의 대화입니다. 의료인과 환자가 모두 말하는 경우 이 모델을 사용합니다. 각 화자가 발화한 단어가 자동으로 인식되어 반환된 스크립트에 라벨이 지정됩니다.
  • medical_dictation: 단일 의료인이 발언한 음성 메모(예: 환자의 혈액 검사 결과에 대한 의사 음성 기록)

의료 모델은 오직 다음과 같은 Speech-to-Text 기능과 함께 사용합니다. 이 목록에 없는 기능은 두 의료 모델과 함께 사용할 수 없습니다. 자동 구두점 기능은 기본적으로 사용 설정되어 있습니다.

의료 대화 모델에서는 다음 기능이 지원됩니다.

의료 음성기록 모델에서는 다음 기능이 지원됩니다.

스크립트 작성 요청 보내기

REST

다음 코드 샘플에서는 medical_conversation 모델을 사용하여 공개 Cloud Storage 버킷의 오디오 파일을 스크립트 작성합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LANGUAGE_CODE: 오디오 클립에서 사용된 언어의 BCP-47 코드입니다. 의료 모델은 en-US에만 사용할 수 있습니다.
  • ENCODING: 텍스트로 변환할 오디오의 인코딩입니다. 공개 오디오 샘플을 사용하는 경우 인코딩이 LINEAR16입니다.
  • PROJECT_ID: Google Cloud 프로젝트의 영숫자 ID

HTTP 메서드 및 URL:

POST https://speech.googleapis.com/v1/speech:recognize

JSON 요청 본문:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

다음과 비슷한 JSON 응답이 표시됩니다.

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

음성 구두점

의료 음성기록 모델에서는 의료 기록에 대한 의료 음성 구두점이 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 음성 구두점은 음성 스크립트 작성에서 브래킷으로 구분됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text에서는 다음 음성 구두점이 지원됩니다.

  • 마침표
  • 쉼표
  • 콜론
  • 대문자
  • 슬래시
  • 대시
  • 하이픈
  • 물음표
  • 세미콜론
  • 따옴표
  • 따옴표 해제
  • 닫는 따옴표
  • 여는 괄호
  • 닫는 괄호
  • 닫는 괄호

명령어 형식 지정

의료 음성기록 모델에서는 기록 형식 지정을 위한 음성 명령어가 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 음성 명령어는 음성 스크립트 작성에서 브래킷으로 구분됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text에서는 다음 음성 명령어가 지원됩니다.

  • 다음 지점
  • 다음 번호
  • 다음 단락
  • 대문자
  • 대문자 사용
  • 줄바꿈
  • 다음 항목
  • 다음 문제
  • 다음 문제 번호
  • 다음 행
  • 다음 섹션
  • 다음 번호
  • 스크래치
  • 스크래치 사용
  • 음성기록 종료

음성 제목

의료 음성기록 모델에서는 음성기록에 대한 음성 제목이 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 제목은 스크립트 작성에서 브래킷으로 구분되고 대문자로 표시됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text에서는 다음 음성 제목이 지원됩니다.

  • CHIEF COMPLAINT
  • CURRENT MEDICATIONS
  • DISCHARGE MEDICATIONS
  • DISCHARGE PLAN
  • FAMILY HISTORY
  • FINDINGS
  • REVIEW OF SYSTEMS
  • HISTORY OF PRESENT ILLNESS
  • INDICATIONS
  • LABS
  • PAST SURGICAL HISTORY
  • PHYSICAL EXAM
  • REVIEW OF SYSTEMS
  • RADIOLOGY