AI 및 머신러닝

보다 저렴한 새로운 가격으로 정식 버전 출시되는 Cloud Speech-to-Text V2 API와 Chirp

2023년 10월 13일

https://storage.googleapis.com/gweb-cloudblog-publish/images/innovation_2022.max-2436x985.max-2000x2000.jpg

Calum Barnes

Product Manager, Cloud Speech

Haris Ioannou

Product Manager, Cloud Speech

*본 아티클의 원문은 2023년 8월 10일 Google Cloud 블로그(영문)에 게재되었습니다.

음성은 가장 고유하고도 보편적인 표현 형식 중 하나로, 인간 상호작용의 기본 핵심 요소입니다. 6년 전 Google Cloud의 Speech API가 정식 버전(GA)으로 출시된 이후 기업 고객에게 중요한 도구로 자리매김했으며, 현재 매달 10억 분 이상의 음성 사용 시간을 처리하고 있습니다.

Speech API를 통해 Google은 수천 곳의 고객에게 서비스를 제공하고 업계 최고 수준의 음성 인식 품질과 비용 효율성이 뛰어난 제품을 다양한 업종에 제공해 왔습니다. 제품을 끊임없이 발전시켜 조직에 새로운 이점을 제공하려는 이러한 노력이 결실을 맺어, 오늘 새로운 Speech-to-Text v2 API의 정식 버전이 출시된다는 반가운 소식을 알려드립니다.

Speech-to-Text v2는 Google API 인터페이스를 현대화하고 새로운 몇 가지 기능을 도입합니다. 또한 기존의 모든 기능이 마이그레이션되므로 STT v1 API 또는 v1p1beta1 API에서 사용했던 것과 동일한 모델과 기능을 사용할 수 있습니다. 새로운 버전의 API를 사용하면 Google은 서비스 경로에서 상당한 비용 절감 효과를 얻을 수 있습니다. 이에 따라 기본 가격을 인하하고 대규모 워크로드와 처리 시간의 연장이 허용되는 워크로드에 대해 가격 인센티브를 추가할 것입니다.

아울러 이러한 새로운 인프라 덕분에 Google은 매개변수가 20억 개에 달하는 최신 음성 모델인 Chirp 등 새로운 유형의 다양한 모델을 지원할 수 있습니다. 이 모든 것이 8월 10일부터 Google Cloud Platform 고객 및 사용자에게 정식 버전으로 제공됩니다.

Speech-to-Text API V2의 향상된 기능을 자세히 살펴보면서 새로운 기능이 비즈니스에 어떤 이점을 제공하는지 알아보겠습니다.

V2 API로 Speech-to-Text 기능 확대

2017년 Speech-to-Text API가 공식 출시된 이후 Google은 글로벌 인프라를 활용하여 프로덕션 스크립트 작성 모델을 호스팅하고 모니터링해 왔습니다. 이 강력하고 연결성이 우수한 네트워크는 모든 Google 고객을 위한 제품의 근간 역할을 했습니다.

특히 은행 및 공공 부문과 같은 규제가 엄격한 업종에서 데이터 상주 및 규정 준수 요건을 충족해야 하는 기업 고객에게는 Speech-to-Text 서비스의 통합 뷰 지원이 매우 중요한 요청사항이었습니다. Google은 고객들의 이 같은 의견을 반영하여 오늘부터 Speech-to-Text v2 API에서 완전한 리전화를 지원합니다. 이를 통해 고객은 원하는 Google Cloud Platform 리전에서 모든 스크립트 작성 모델의 동일한 복사본을 호출할 수 있게 됩니다.

사용자에게 어떤 리전에라도 배포할 수 있는 유연성을 제공하는 것 외에도 다음과 같이 개발자가 API를 기반으로 빌드하는 데 도움이 되는 여러 새로운 기능을 추가할 예정입니다.

인식기: 사용자가 정의하고 명명한 구성이며 모델 식별자, 스크립트를 작성할 오디오의 언어, 스크립트 작성 모델을 실행할 클라우드 리전 등을 조합합니다. 인식기를 생성하면 이후 모든 스크립트 작성 요청에서 참조할 수 있으므로 사용자가 동일한 구성 매개변수를 반복적으로 정의할 필요가 없습니다. 이처럼 유용한 인식기를 구현하면 사용자가 더 이상 전용 서비스 계정을 설정할 필요가 없으므로 인증 및 승인 작업의 유연성을 높일 수 있습니다.
Cloud Logging: 인식기 개체를 사용하여 수행되는 요청은 기본적으로 Cloud Logging을 자동으로 지원합니다. 인식기는 명명된 항목으로 정의되므로 고객은 관심 있는 인식기를 토대로 또는 집합적으로 트래픽을 분할할 수 있습니다.
오디오 형식 자동 감지: 새 Speech-to-Text V2 API는 사용자가 스크립트 작성 요청에 전달하는 오디오 구성 설정을 분석하고 수동으로 정의할 필요 없이 인코딩, 샘플링 레이트, 채널 수 등의 설정을 인식한 다음 자동으로 요청 구성 매개변수를 채웁니다.

Chirp를 통해 엔터프라이즈 규모로 정확성 향상

2023년 3월 Google은 기본 음성 모델에 대한 지속적인 투자의 일환으로 300개 이상의 언어로 스크립트 작성을 지원하고 20억 개의 매개변수가 포함된 첨단 음성 모델 제품군인 Google 범용 음성 모델(USM)에 대한 연구 결과를 발표했습니다. 2023년 5월에는 Google I/O에서 Chirp의 비공개 미리보기 버전을 발표했는데, 이는 Cloud 관련 사용 사례에 맞게 미세 조정된 USM 제품군의 최신 버전입니다.

이제 Chirp가 Speech-to-Text v2 API를 통해 정식 버전으로 제공됩니다. Google은 고객의 광범위한 테스트와 의견을 기반으로 간단한 엔터프라이즈급 API 노출 영역에서 선행 학습된 대규모 모델의 기능에 액세스할 수 있도록 지원합니다. 새로운 모델의 시장을 선도하는 정확성과 다국어 지원에 힘입어 Google의 얼리 어답터 기업은 활발한 고객 참여 효과를 얻었습니다. 앞으로 기업 고객에게 어떤 기회가 펼쳐질지 무척 기대됩니다.

새로운 가격 책정, 등급, 옵션 도입

고객들은 많은 워크로드에서 가격이 품질 못지않게 중요하다는 의견을 제기해 왔습니다. 이러한 의견을 반영하여 완전히 새로운 가격으로 Speech-to-Text API v2를 제공합니다. 실시간 및 일괄 스크립트 작성 비용이 분당 $0.024에서 분당 $0.016로 인하되었습니다. 또한 방대한 스크립트 작성 워크로드가 있는 고객의 경우 가격 부담의 우려가 있음을 잘 알고 있습니다. 이에 따라 분당 최저 $0.004의 비용을 허용하는 표준 볼륨 등급을 도입합니다. 언제나 그렇듯, 워크로드 규모가 더 큰 경우 추가 할인이 제공됩니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/Cloud_Speech-to-Text.c153ee01.fill-2000x11.max-1000x1000_PEheL4S.jpg

가격의 유연성과 선택권을 제공하기 위해 노력하는 과정에서 대다수의 고객이 실시간 스크립트 작성을 위한 Google 모델에 관심을 가지고 있지만, 상당수의 고객들이 저장 데이터에 대한 비실시간 스크립트 작성에도 관심이 있음을 확인했습니다. Google의 새로운 API v2 인프라를 사용하면 특정 시간대에 사용되지 않는 용량의 활용도를 높일 수 있습니다. 새로운 Dynamic Batch 가격 책정을 통해 지연 시간에 덜 민감한 고객에게 절감 효과를 제공할 계획입니다. Dynamic Batch는 표준 등급에 비해 분당 75% 저렴한 가격으로 오디오 스크립트 작성 기능을 제공하는 새로운 할인 가격 등급으로, 스크립트 작성 결과를 최대 24시간 기다릴 수 있는 사용자를 대상으로 합니다.