구글 Cloud Speech-to-Text API를 이용한 고품질 음성 학습 데이터 구축
Flitto에 대하여
플리토는 2012년 시작한 집단지성 번역 서비스를 시작으로 전문번역과 AI 번역까지 번역 플랫폼을 확장해왔습니다. 번역 외에도 플랫폼을 통해 구축한 언어 데이터를 바탕으로 국내 외 기업에 언어 데이터를 공급하고 있습니다. 2019년 현재 173개 국가 1천만 명의 사용자가 플리토의 번역 플랫폼을 이용하고 있습니다. 플리토는 세계 최대 언어 데이터 기업으로서 모든 사람들이 언어의 제약 없이 소통하는 세상을 꿈꿉니다.
어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.
문의하기플리토는 언어를 이루는 글자와 음성을 가치있는 데이터로 만들어내는 사업을 하고 있습니다. 음성 정보가 데이터로 가치를 가지려면 정확도가 높아야 합니다. 플리토는 기존에 사람이 맡았던 음성 데이터 검수의 일부 단계에 Cloud AutoML의 Cloud Speech-to-Text를 도입하면서 처리량의 제한을 없애면서도 데이터셋의 정확도와 신뢰도를 크게 높였습니다.
구글 클라우드 사용 효과
- 하루 100만 건 이상 음성 데이터 검수
- 인프라나 모델 설계, 학습 없이 최적의 머신러닝 도구 이용
- 전 세계 언어를 대상으로 하는 데이터 검수
- 병목현상 없는 빠른 데이터 처리
한국전산감리원 정확도 평가 99.8점 기록
플리토는 2012년부터 언어 데이터 관련 기업으로 출발한 스타트업입니다. 전문가 그룹의 집단 지성 번역 서비스로 유명하지만 비즈니스의 방향성은 언어 관련 데이터를 쌓고, 이를 상품화하는 것입니다. 초기에는 텍스트 기반의 데이터가 중심이었지만 2016년부터는 음성 관련 데이터도 구축해서 상품화하고 있습니다.
머신러닝이 대중화되면서 많은 기업들이 음성 인식과 관련된 기술들을 사업에 접목하고 있습니다. 그런데 음성 인식의 인공지능 모델들을 제대로 이용하려면 학습이 필요한 반면, 학습과 분석에 쓸 수 있는 음성 데이터셋은 많지도 않고 그 품질도 들쑥날쑥한 경우가 많습니다.
플리토는 이 음성 데이터 수집에 Google Cloud Platform의 Cloud AutoML을 도입하면서 질적으로나 양적으로 비약적인 성장을 이뤘습니다. Cloud AutoML에 포함되어 있는 Cloud Speech-to-Text를 이용해 수집되는 목소리를 모두 검수할 수 있게 되면서 더 많은 음성 데이터를 효과적으로 모으고 관리할 수 있게 됐습니다.
Cloud AutoML로 막대한 집단 지성 데이터 검수
국내에서 플리토는 번역 서비스로 잘 알려져 있습니다. 하지만 플리토는 창업 초기부터 언어를 다루는 기업이라는 점을 강조해왔습니다. 초기 비즈니스였던 번역 서비스는 문장 번역에 대해 이용자들의 집단 지성을 활용했습니다. 누군가 번역이 필요하다고 글을 올리면 이를 짧은 문장 여러개로 나누고 여러 언어 전문가들이 이 문장들을 직접 번역한 뒤 다시 합쳐서 하나의 완성품을 만드는 식입니다.
여기까지는 단순한 번역 서비스처럼 보이지만 플리토는 그 과정에서 많은 글들이 다른 언어로 번역되는 다양한 사례들을 수집할 수 있게 됐습니다. 이는 곧 머신러닝 등을 이용한 기계 번역에도 쓰일 수 있게 됩니다. 이미 머신러닝을 비롯한 인공지능 기술은 빠르게 개발중이고 이를 운영할 모델도 많이 공개되어 있습니다. 중요한 것은 그 모델을 원하는대로 학습시킬 수 있는 데이터이고, 플리토는 바로 그 데이터를 수집, 가공하는 기업입니다. 그리고 음성은 텍스트에 이은 또 하나의 중요한 언어 데이터입니다. 플리토가 음성 데이터 시장에 뛰어드는 것은 당연한 일입니다.
보통 머신러닝 학습용 음성 데이터셋을 만들 때 성우나 정확한 발음을 수집하기 위해 아나운서 등 읽기에 재능을 가진 전문가들을 대상으로 또렷한 목소리를 녹음하는 경우가 많습니다. 하지만 많은 데이터를 녹음하기 어렵고 비용도 높아집니다. 플리토는 스마트폰만 있으면 누구나 참여할 수 있도록 크라우드 소싱으로 음성 녹음 조건을 개방했습니다. 플리토는 이용자들이 제공한 데이터에 대해 적절한 대가를 지불하는 방법으로 막대한 음성 데이터를 수집할 수 있었습니다.
하지만 이 크라우드 소싱은 완성된 데이터셋을 만들기에 그렇게 쉬운 방법은 아닙니다. 보상 때문에 데이터를 많이 모을 수는 있지만 녹음 환경과 음성 제공자에 따라 입력되는 목소리의 소리, 높낮이, 빠르기 등이 제각각이기 때문이지요. 강동한 플리토 CTO는 무엇보다 데이터의 품질을 고르게 하는 것이 어렵고도 중요한 일이라고 말합니다.
“주변 소음이 섞이는 경우도 있고 녹음하는 스마트폰의 마이크 상태가 안 좋을 수도 있습니다. 목소리가 너무 작다거나 깨져서 들릴 만큼 크게 녹음되는 경우도 의외로 많습니다. 데이터로서의 가치를 가지려면 양도 중요하지만 일정한 수준의 품질이 유지되어야 합니다.”
‘안녕하세요’라는 문장을 녹음한다고 할 때 우선적으로 이 문장의 음절들이 다 제대로 담겼는지 확인해야 합니다. 데이터베이스에는 ‘안녕하세요’가 쓰여 있는데 실제 녹음된 데이터에는 ‘안녕’이라고 되어 있다면 그만큼 신뢰도가 떨어지게 마련입니다.
“음성 데이터의 검수를 위해 운영자들이 직접 소리 하나하나에 귀를 기울여야 했는데 Cloud Speech-to-Text를 도입하면서 비즈니스 환경이 완전히 달라졌습니다. Cloud AutoML은 하루에 100만개 이상의 데이터를 무리 없이 정확하게 처리했습니다. 속도와 신뢰도를 높일 수 있게 되면서 애초에 목표로 했던 언어 데이터의 가치를 높이는 일에 확실히 다가설 수 있었습니다.”
—- 강동한 플리토 CTO사람 대신 목소리 듣는 인공지능 귀
그래서 데이터로 쓸 수 있는 수준의 소리가 수집되었는지 판단하려면 결국 누군가 그 소리를 들어야 합니다. 초기에는 이용자들의 동의를 받고 검수자들이 직접 하나씩 들어보기도 했습니다. 하지만 소리를 듣고 검수하는 과정은 엄청나게 많은 시간이 소요됩니다. 당연히 데이터의 양이 늘어나면서 모든 소리를 다 듣기 어려워졌습니다. 그렇다고 일부를 추려서 듣는 것도 한계가 있었습니다. 강동한 CTO는 머신러닝에서 그 답을 찾았습니다.
“최대한 많은 소리를 검수하는 것이 데이터셋의 품질을 높이는 것이지만 처음부터 끝까지 사람의 힘을 빌리는 것은 힘든 일일 뿐 아니라 데이터의 처리량이 곧 비즈니스의 한계점이 될 수 있습니다. 머신러닝은 데이터 분류에 강력한 결과를 보여주기 때문에 머신러닝을 이용해 문제를 풀어내기로 했습니다. 그리고 현재 세계 여러 나라의 음성 인식 기술에서 가장 뛰어난 결과를 보여주는 것이 바로 Cloud AutoML에 포함된 Cloud Speech-to-Text입니다.”
Cloud Speech-to-Text의 역할은 녹음된 음성을 텍스트로 바꾸고, 그 결과물을 원래의 텍스트와 대조할 수 있도록 하는 것입니다. ‘안녕하세요’가 제대로 녹음됐다면 그 목소리가 Cloud Speech-to-Text로 전달되어서 ‘안녕하세요’라는 텍스트로 나옵니다. 그 결과물을 음성 제공자에게 보여주었던 텍스트와 비교하면 정확한 소리가 담겼는지 빠르고 정확하게 확인할 수 있습니다.
“STT(Speech-to-Text) 인공지능 모델을 직접 만들기는 어렵습니다. 직접 개발하는 것보다 이미 충분히 훈련된 상용 서비스를 이용하는 것이 정확도를 높일 수 있다고 생각했습니다. 구글 클라우드 플랫폼의 STT 기술은 이미 높은 수준으로 완성되어 있기 때문에 곧바로 적용할 수 있었습니다. 기존에 갖고 있는 데이터를 바탕으로 시험을 했는데 정확하면서 처리 속도가 매우 빨랐고, 비용도 저렴했습니다.”
김진구 CSO는 클라우드에서 관리형 서비스로 제공되는 텍스트 변환 솔루션 중에서 Cloud Speech-to-Text의 성능이 가장 뛰어났다고 설명합니다. 도입 시기에 여러 클라우드 기반의 STT 솔루션을 비교했는데 적용되는 언어의 수를 비롯해 처리 속도 등 여러 면에서 차별점이 있다고 말합니다. 무엇보다 Cloud Speech-to-Text는 처리 속도가 빨라서 데이터를 넣으면 곧바로 결과를 냈습니다. 이게 당연한 것 아닌가 할 수 있지만 적지 않은 STT 서비스가 파이프라인 구조로, 여러 개의 데이터가 동시에 들어가면 모든 데이터가 끝나야 다음 데이터 세트를 넣을 수 있습니다. 그만큼 지연과 병목 현상이 생기는 것이지요. 김진구 CSO는 언어에 대한 기술 지원도 강점으로 꼽았습니다.
“언어에 대한 준비도 탄탄했습니다. 현재 플리토는 한국어 외에도 현재 25개 언어의 음성 데이터 세트를 만들고 있는데, Cloud Speech-to-Text는 쓰는 인구가 적은 언어에 대한 분석 정확도도 높아서 거의 모든 언어에 대응할 수 있었습니다.”
구글은 이미 오랫동안 여러 서비스를 통해 음성 분석에 대한 기술을 갖고 있고, 구글 어시스턴트 음성 서비스와 번역 등 언어 관련 서비스를 하고 있습니다. 또한 지구상의 거의 모든 언어에 대해 STT 서비스가 제공되고 그 결과물도 뛰어납니다.
플리토는 Cloud Speech-to-Text와 함께 자체 개발한 음성 해석 모델도 운영합니다. ‘녹음이 시작된 이후 언제 읽기 시작했는가’, ‘소리 크기나 말하는 속도가 적절했나’를 비롯해 소리 그 자체에 대한 해석은 플리토가 직접 설계한 머신러닝 모델을 통해 학습됐습니다.
플리토 앱을 통해 녹음된 소리는 곧바로 플리토의 머신러닝 모델과 Cloud Speech-to-Text를 거쳐 해당 음성이 적절한지 실시간으로 판단을 내리고, 데이터로서 부적절하다고 판단되면 곧바로 음성 제공자에게 다시 녹음을 해달라고 요청할 수 있습니다. 이 과정에서 사람의 손이 필요한 부분은 거의 없습니다.
막대한 데이터 처리량으로 비즈니스 확장의 장벽 사라져
운영에 대한 업무 환경도 바뀌었습니다. 플리토가 애초 Cloud Speech-to-Text를 도입하게 된 가장 큰 이유는 검수 과정이 데이터 수집 속도를 따르지 못하는 점 때문입니다. 사람이 직접 모든 것을 확인하면 통과되는 데이터의 양이 인력만큼 한정됩니다. 이 숫자를 늘리려면 결국 운영에 부담이 갈 수밖에 없습니다.
“Cloud Speech-to-Text는 하루에 100만개 데이터를 넣어도 무리 없이 모든 것을 처리했습니다. 그날 입력 받는 데이터는 모두 그날 처리할 수 있었습니다. 심지어 함께 비교했던 다른 STT 서비스로 2주가 걸리는 작업도 Cloud Speech-to-Text는 하루만에 처리했습니다.”
강동한 CTO는 Cloud Speech-to-Text가 데이터를 빠르고 정확하게 처리하면서 운영자들의 역할도 바뀌었다고 말했습니다. 운영자들은 Cloud Speech-to-Text의 결과에 대한 기준치를 정하고, 머신러닝을 통해 적절하지 않다고 평가된 음성 데이터에 대해서만 따로 선별해서 판단하면 됩니다. 막대한 양의 데이터가 수집되어도 Cloud Speech-to-Text와 운영자들을 거치면서 사실상 전수검사를 거치는 셈입니다. 성과는 당연히 정확도로 나타납니다.
“한국전산감리원에서 데이터 품질에 대해 자체 기준으로 평가를 했는데 지난 5년 동안 최고점이 98점이었는데 플리토의 데이터가 99.8점을 받았습니다.”
구글이 추구하는 ‘인공지능의 대중화(Democratisation of AI)’는 사람들이 인공지능 기술 그 자체에 집중하기보다 각자의 아이디어에 힘을 싣는 도구로 쓰이는 것이 중요하다는 철학입니다. 플리토의 Cloud Speech-to-Text 이용 사례는 복잡한 기술이 전부가 아니라 꼭 필요한 기술이 적절한 곳에 쓰였을 때의 효과를 볼 수 있는 사례입니다. 플리토의 직원들은 인터뷰 도중에 “너무 쉬워서 이야기가 될까요?”라는 이야기를 했는데 쓰기 쉽다고 해서 Cloud AutoML을 가볍게 볼 수 있을까요? 아마 누구도 그렇지 않을 겁니다. 지금 이 시간에도 플리토의 음성 데이터는 진화를 거듭하는 Cloud Speech-to-Text를 통해 더 높은 가치를 만들어가고 있습니다.
어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.
문의하기Flitto에 대하여
플리토는 2012년 시작한 집단지성 번역 서비스를 시작으로 전문번역과 AI 번역까지 번역 플랫폼을 확장해왔습니다. 번역 외에도 플랫폼을 통해 구축한 언어 데이터를 바탕으로 국내 외 기업에 언어 데이터를 공급하고 있습니다. 2019년 현재 173개 국가 1천만 명의 사용자가 플리토의 번역 플랫폼을 이용하고 있습니다. 플리토는 세계 최대 언어 데이터 기업으로서 모든 사람들이 언어의 제약 없이 소통하는 세상을 꿈꿉니다.