의료 모델을 사용하여 음성 인식

Speech-to-Text는 다른 표준 및 고급 음성 인식 모델 외에도 2가지 의료 모델을 제공합니다. 의료 모델은 진단, 약물, 증상, 치료, 질환 등 의료 환경에서 일반적으로 사용되는 단어를 인식하도록 특별히 설계되었습니다. 이러한 유형의 오디오 데이터를 인식하려면 이 모델을 사용하여 스크립트 작성 결과를 개선하면 됩니다.

구체적인 사용 사례에 맞춰 설계된 2가지 의료 모델이 있습니다.

medical_conversation: 의사, 간호사 등의 의료인과 환자 간의 대화입니다. 의료인과 환자가 모두 말하는 경우 이 모델을 사용합니다. 각 화자가 발화한 단어가 자동으로 인식되어 반환된 스크립트에 라벨이 지정됩니다.
medical_dictation: 단일 의료인이 발언한 음성 메모(예: 환자의 혈액 검사 결과에 대한 의사 음성 기록)

의료 모델은 오직 다음과 같은 Speech-to-Text 기능과 함께 사용합니다. 이 목록에 없는 기능은 두 의료 모델과 함께 사용할 수 없습니다.

의료 대화 모델에서는 다음 기능이 지원됩니다.

또한 다음 기능을 사용 설정해야 합니다.

자동 구두점

의료 음성기록 모델에서는 다음 기능이 지원됩니다.

또한 다음 기능을 사용 설정해야 합니다.

스크립트 작성 요청 보내기

REST

다음 코드 샘플에서는 medical_conversation 모델을 사용하여 공개 Cloud Storage 버킷의 오디오 파일의 스크립트 작성합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LANGUAGE_CODE: 오디오 클립에서 사용된 언어의 BCP-47 코드. 의료 모델은 en-US에만 사용할 수 있습니다.
ENCODING: 스크립트를 작성할 오디오의 인코딩. 공개 오디오 샘플을 사용하는 경우 인코딩이 LINEAR16입니다.
PROJECT_ID: Google Cloud 프로젝트의 영숫자 ID

HTTP 메서드 및 URL:

POST https://speech.googleapis.com/v1/speech:recognize

JSON 요청 본문:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell(Windows)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

음성 구두점

의료 음성기록 모델에서는 의료 기록에 대한 의료 음성 구두점이 지원됩니다. 이 기능은 항상 사용 설정되어 있습니다. 음성 구두점은 음성 스크립트 작성에서 브래킷으로 구분됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]

Speech-to-Text에서는 다음 음성 구두점이 지원됩니다.

마침표
쉼표
콜론
대문자
슬래시
대시
하이픈
물음표
세미콜론
따옴표
따옴표 해제
닫는 따옴표
여는 괄호
닫는 괄호
마지막 괄호

명령어 형식 지정

의료 음성기록 모델에서는 기록 형식 지정을 위한 음성 명령어가 지원됩니다. 이 기능은 항상 사용 설정되어 있습니다. 음성 명령어는 음성 스크립트 작성에서 브래킷으로 구분됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.

[next line] Patient says they are experiencing fever [next point]

Speech-to-Text에서는 다음 음성 명령어가 지원됩니다.

다음 지점
다음 번호
다음 단락
대문자
대문자 사용
줄바꿈
다음 항목
다음 문제
다음 문제 번호
다음 행
다음 섹션
다음 번호
스크래치
스크래치 사용
음성기록 종료

음성 제목

의료 음성기록 모델에서는 음성기록에 대한 음성 제목이 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 제목은 스크립트 작성에서 브래킷으로 구분되고 대문자로 표시됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.

[CURRENT MEDICATIONS] Patient is currently taking no medications

Speech-to-Text에서는 다음 음성 제목이 지원됩니다.

주요 호소 증상
현재 복용 약물
퇴원 시 처방 약물
퇴원 계획
가족력
발견 사항
시스템 검토
현재 질병의 이력
적응증
랩
과거 수술 병력
신체검사
시스템 검토
방사선학