Speech-to-Text API의 '최신' 모델 태그는 모델 필드를 지정할 때 사용할 수 있는 두 가지 새로운 모델 태그에 대한 액세스 권한을 제공합니다. 이러한 모델은 Google의 최신 음성 기술 및 머신러닝 연구에 대한 액세스를 제공하고, 다른 사용 가능한 모델보다 음성 인식의 정확도를 높일 수 있도록 설계되었습니다. 그러나 사용 가능한 다른 모델에서 지원되는 일부 기능은 아직 '최신' 모델에서 지원되지 않습니다.
최신 모델은 Google의 Conformer Speech Model 기술을 기반으로 합니다. 자세한 내용은 Google 연구팀 간행물을 참조하세요.
최신 모델을 사용하려면 Speech-to-Text API 또는 UI를 사용하는 방법에 대한 일반적인 지식이 필요합니다. 처음 사용하는 경우 빠른 시작을 참조하세요.
모델 식별자
최신 모델은 두 가지 버전으로 제공됩니다.
latest_short 모델은 길이가 몇 초인 짧은 발화를 위한 것입니다. 명령어나 다른 단일 장면 방향 음성 사용 사례를 캡처하려는 경우에 유용합니다. command_and_search 모델 대신 latest_short 모델을 사용하는 것이 좋습니다.
latest_long 모델은 미디어 또는 자유 발화나 대화와 같은 모든 종류의 긴 콘텐츠를 위한 것입니다.
특히 video 모델을 도착어에서 사용할 수 없는 경우 video 대신 latest_long 모델을 사용하는 것이 좋습니다. default 모델 대신 latest_long 모델을 사용할 수도 있습니다.
모델 기술
최신 모델의 목표는 최신 음성 기술을 Google Cloud 사용자에게 직접 제공하는 것입니다. 현재 최신 모델은 Google의 Conformer Speech Model 기술을 기반으로 하지만, 향후 변경될 수 있습니다. 자세한 내용은 Google 연구팀 간행물 목록을 확인하세요.
가격 책정
latest_long 및 latest_short 모델은 '표준'으로 청구되며 command_and_search 또는 default 모델과 동일한 사용량 및 비용이 적용됩니다. 자세한 내용은 가격 책정을 참조하세요.
모델 업데이트
최신 모델은 빠르게 발전하는 머신러닝 기술을 기반으로 합니다. 따라서 다른 모델보다 더 자주 모델 업데이트를 수행하거나 새로 고칠 수 있습니다. 이러한 업데이트는 기능을 추가하거나 정확성 또는 지연 시간을 약간 변경할 수 있습니다.
언어
최신 모델은 20개가 넘는 언어와 50개가 넘는 옵션을 제공합니다.
항상 언어를 추가하므로 언어에서 최신 목록을 참조하세요.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Introduction to Latest Models\n\nThe \"latest\" model tags in the Speech-to-Text API give access to two new model\ntags that can be used when you specify the model field. These models are designed\nto give you access to the latest speech technology and machine learning research\nfrom Google, and can provide higher accuracy for speech recognition over other\navailable models. However, some features that are supported by other available\nmodels are not yet supported by the \"latest\" models.\n\nThe latest models are based on the Conformer Speech Model technology from\nGoogle. To find out more, see\n[Google Research Publications](https://research.google/pubs/).\n\nUsing the latest models requires a general understanding of using the\nSpeech-to-Text API or UI. Please see our [Quickstarts](/speech-to-text/docs/quickstart)\nif this is your first time using it.\n\n### Model Identifiers\n\nThe latest models are available in two different versions:\n\n- The `latest_short` model is for short\n utterances that are a few seconds in length. It is useful for trying to\n capture commands or other single shot directed speech use cases. Consider\n using `latest_short` instead of the `command_and_search` model.\n\n- The `latest_long` model is for any kind of\n long form content such as media or spontaneous speech and conversations.\n Consider using `latest_long` in place of `video`, especially if `video` is not\n available in your target language. You can also use `latest_long` in place of\n the `default` model.\n\n### Model Technology\n\nThe goal of the latest models is to bring the latest in speech technology\ndirectly to Google Cloud users. Our current Latest models are based on the\nConformer Speech Model technology from Google, but this may change in the\nfuture. To find out more,\ncheck out [Google Research Publications](https://research.google/pubs/) list.\n\n### Pricing\n\nThe `latest_long` and `latest_short` models are billed as \"Standard\" and\nsubject to the same usage and costs as the `command_and_search` or `default`\nmodels. For more information, see [Pricing](/speech-to-text/pricing).\n\n### Model Updates\n\nLatest models are based on rapidly advancing machine learning technology. For\nthis reason we might perform model updates or refreshes more frequently than on\nour other models. These updates can add additional features or make slight\nchanges to accuracy or latency.\n\n### Languages\n\nLatest models are available in more than 20 languages and more than 50 variants.\nWe are always adding languages, so refer to\n[Languages](/speech-to-text/docs/speech-to-text-supported-languages) for the most up to date list.\n\n### Feature Support and Limitations\n\nFeature support varies by language. See [Languages](/speech-to-text/docs/speech-to-text-supported-languages)\nfor a full list of supported features.\n\nThe latest models do not currently support the following feature:\n\n- **Confidence Scores** - The API will return a value, but it is not truly a confidence score.\n\n### Model Service Level Agreement\n\nThe Latest models are considered a Generally Available part of the Speech-to-Text API.\nAs such the functionality they support is available in the v1 API and eligible\nfor the same Service Level Agreement and other protections afforded\nto Generally Available products and features."]]