Cloud Speech-to-Text로 만들어낸 텍스트 기반 동영상 편집 도구
Voyager X에 대하여
보이저엑스는 더욱 즐겁고 편리한 삶을 돕는 인공지능 기반 소프트웨어를 개발하는 스타트업입니다. 자막을 생성해서 영상까지 편집할 수 있는 브루를 비롯해 스마트폰을 책 스캐너로 만들어주는 vFlat(브이플랫) 등 인공지능 기술을 기반으로 삶을 편리하게 만들어주는 서비스들을 만들고 있습니다.
어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.
문의하기보이저엑스는 동영상 속의 음성을 분석해 텍스트로 만들어주는 동영상 편집 도구 ‘Vrew(브루)’를 서비스하고 있습니다. 브루는 Cloud Speech-to-Text를 이용해 자동으로 초벌 자막을 생성하고, 이렇게 만들어진 텍스트를 이용해 컷 편집까지 할 수 있어 사용자의 영상 편집 시간을 최대 80%까지 단축해주는 프로그램입니다. 영상 속에 담긴 음성을 읽어내는 핵심 기술을 통해 ‘손쉬운 영상 편집’이라는 본질에 더 가까워지고 있습니다.
구글 클라우드 사용 효과
- 별도의 개발 없이 곧바로 서비스 개발
- 폭발적인 트래픽에도 끊임없는 안정성 확보
- 여러 언어 서비스, 번역, 다중화자 등 지속적인 기능 추가
높은 수준의 영상 속 음성-텍스트 변환 서비스 제공
YouTube를 비롯해 개인이 직접 영상을 만들어서 올리는 동영상 플랫폼이 큰 인기를 누리고 있습니다. 누구나 갖고 있는 스마트폰으로 영상을 찍고 PC로 편집해서 혼자만의 방송국을 꾸리는 것이 하나도 놀랍지 않은 세상입니다. 하지만 그 이면에는 촬영 영상을 수 십 번을 반복해서 돌려보고, 편집을 하며 그에 맞는 적절한 자막을 붙이는 지루한 작업이 기다리고 있습니다. YouTube에 영상을 올려본 경험이 있다면 한 번 쯤 ‘누가 자막을 대신 달아주었으면 좋겠다’고 생각한 적이 있을 겁니다.
보이저엑스가 만든 ‘브루(Vrew)’는 바로 그 자막을 대신 만들어주는 인공지능 기반 영상 편집 서비스입니다. 영상의 음성 정보를 읽어서 자막으로 만들고, 영상에 넣어주는 것이 브루의 핵심 기능입니다. 그래서 ‘자동 자막’ 같은 별명이 있긴 하지만 사실 브루가 추구하는 것은 자막 생성이 전부가 아니라 텍스트에 뿌리를 둔 ‘영상 편집기’입니다.
영상 속 목소리, 글로 담아내는 Cloud Speech-to-Text
YouTube 등 1인 미디어에 담기는 영상의 핵심은 개인이 갖고 있는 정보를 전달하는 것이고, 대부분의 포맷은 설명을 담은 이야기입니다. 영상의 내용은 찍은 시간만큼 봐야 알 수 있지만 내가 무슨 이야기를 했는지 텍스트로 볼 수 있으면 전체 내용을 한 눈에 파악할 수 있습니다. 이른바 ‘편집점’을 단숨에 판단할 수 있는 것이지요.
그래서 브루의 편집 출발점은 영상 속의 목소리를 글자로 만들어주는 데에 있습니다. 보이저엑스는 Google Cloud Platform의 ‘Cloud Speech-to-Text’로 영상 속 한 마디, 한 마디를 글자로 담아냅니다.
“Cloud Speech-to-Text는 거의 전 세계의 언어를 높은 수준으로 읽어들일 수 있습니다. 애초 여러가지 서비스를 함께 검토했는데 구글의 Cloud Speech-to-Text는 여러 언어에서 보편적으로 인식률이 좋았습니다. 안정성도 뛰어나서 갑자기 브루에 20~30배씩 트래픽이 몰려도 Cloud Speech-to-Text는 안정적으로 음성을 읽어냅니다.”
보이저엑스는 브루에 쓸 Cloud Speech-to-Text를 직접 개발하고 운영하는 것도 검토했습니다. 하지만 학습시킬 수 있는 고품질의 데이터셋을 확보하는 것이 쉽지 않았고 지속적인 개발과 관리도 부담이었습니다. 브루 개발을 이끈 장재화 개발팀 리더는 Cloud Speech-to-Text를 소금에 비유하며 도입의 이유를 설명했습니다.
“보이저엑스는 브루를 비롯해 여러가지 서비스를 만드는 요리사입니다. 소금은 음식에 꼭 필요한 재료고, 전체적인 맛을 결정합니다. 하지만 아무리 훌륭한 요리사라고 해도 소금을 직접 만들지는 않습니다. 소금을 적절하게 잘 활용해 맛있는 음식을 만들 뿐이지요. 보편적으로 쓰이고 상향 평준화된 밑바탕 기술을 직접 만드는 데에 노력을 쏟을 이유는 없습니다.”
Cloud Speech-to-Text는 API 형태로 제공되기 때문에 실제 서비스에 적용하는 과정은 매우 간단했습니다. 브루를 처음 개발하는 과정에서는 외부 서비스를 이용해 원하는 서비스를 만들 수 있는지 판단하는 것이 가장 중요했습니다. 구글은 Cloud Speech-to-Text를 테스트할 수 있는 여러가지 예제를 제공했고, 이를 바탕으로 간단한 최적화를 거쳐 3일만에 브루의 데모에 적용했습니다. Cloud Speech-to-Text는 기대했던대로 작동했고, 이를 이용해 처음 구상했던 브루의 서비스를 만들 수 있다고 판단했습니다.
“동시에 많은 영상이 들어와 트래픽이 몰려도 Cloud Speech-to-Text는 부담 없이 처리합니다. 속도도 빨라서 브루의 이용자들은 영상을 업로드한 이후 금세 자막과 함께 편집을 시작할 수 있습니다.”
장재화 브루팀 리더는 안정성을 특히 강조했습니다. 브루의 핵심 서비스는 영상 속 음성을 텍스트로 뽑아내는 데에서 시작하기 때문에 Cloud Speech-to-Text가 작동을 멈추거나 처리 속도가 원활하지 않으면 다음 단계로 넘어갈 수 없습니다. 구글의 클라우드에 대한 신뢰도는 매우 높았고, 실제로 3년가량 운영하면서 속도가 느려지거나 서비스가 중단되었던 적이 없습니다.
Cloud Speech-to-Text를 통해 자막 생성과 영상 편집 도구인 브루를 빠르게 개발할 수 있었습니다. Cloud Speech-to-Text는 여러가지 언어를 정확히 읽을 수 있고, 기능도 계속 추가되면서 서비스를 고도화할 수 있는 발판이 되었습니다. Google Cloud Platform은 안정성을 바탕으로 보이저엑스가 생각한 서비스들을 현실로 만들어주고 있습니다.
“언어에 대한 기술 구글 클라우드에 맡기고, 서비스 본질에 집중할 기회 얻어”
구글의 Cloud Speech-to-Text는 지금 이 순간에도 지속적으로 학습을 통해 정확도가 높아지고 있습니다. 이미 125개 이상의 언어와 지역 방언까지 알아들을 수 있고 그 결과물의 품질은 구글의 지속적인 머신러닝 학습을 통해 발전하는 중입니다.
“브루가 처음 개발되던 2018년 당시에는 비교할 수 있는 서비스들이 거의 없었습니다. 특히 우리말을 상용 수준으로 받아 쓸 수 있는 서비스는 구글 뿐이었습니다. 또한 영어를 비롯한 여러 언어를 아주 정확하게 알아 들었습니다. 지금도 여러 음성 인식 서비스들이 나오고 있지만 한국어와 영어를 비롯한 주요 언어들을 동시에 높은 수준으로 읽어들이는 서비스는 Cloud Speech-to-Text 뿐입니다.”
Cloud Speech-to-Text는 여러가지 언어를 자유롭게 적용할 수 있기 때문에 해외 시장 진출 기회도 자연스럽게 열렸습니다. 브루는 현재 거의 완벽하게 읽어낼 수 있는 영어를 비롯해 일본어와 스페인어도 서비스를 시작했습니다. Cloud Speech-to-Text API의 언어 설정만 더해주면 큰 변화 없이 자막을 받아 쓰기 시작합니다. 덕분에 보이저엑스는 언어에 대한 고민 없이 시장의 가능성만 고민해서 언어를 확장할 수 있었습니다.
현재 브루는 우리말을 비롯해 영어, 일본어, 스페인어로 서비스되고 있습니다. 영어는 그 자체로 시장이 클 뿐 아니라 Cloud Speech-to-Text가 기능적으로나 언어적으로 가장 높은 완성도를 보여주기 때문에 선행 기술을 이해하는 기회를 주기도 합니다. 일본은 Youtube를 비롯한 영상 시장이 매우 크기 때문에 다양한 영상 편집기의 수요가 있습니다. 스페인어는 언어 인구수를 바탕으로 판단했을 때 남미 시장의 가능성이 높다고 봤습니다.
이처럼 보이저엑스는 언어의 장벽 없이 비즈니스의 가능성에 집중해 의사결정을 할 수 있었습니다. 이미 Cloud Speech-to-Text는 언어에 대한 준비가 다 되어 있기 때문에 언어 전문가나 개발 인력이 따로 필요하지 않았고, 언어에 따라 자막을 적절한 호흡으로 끊어주는 정도만으로 완성도 높은 서비스를 제공할 수 있었습니다.
꾸준한 정확도 향상, 속속 늘어나는 기능들로 서비스 고도화
Cloud Speech-to-Text의 API에 기능이 꾸준히 더해지면서 개발하는 입장에서 느끼는 기능적 발전도 브루의 서비스를 풍성하게 만들어줍니다. 최근에는 브루에 번역 기능을 더했습니다. 자막 내용을 기존 4개 언어 외에 중국어와 러시아어로 번역해주는 것인데, 이 역시 구글의 번역 API를 활용했습니다. 보이저엑스는 Cloud Speech-to-Text가 만들어주는 자막 내용부터 번역 결과물까지 내용에 대해서는 따로 처리하지 않고 API가 내어주는 그대로 씁니다. 그만큼 신뢰도가 높다는 이야기입니다.
이용자들도 만족하고 있습니다. 브루의 이용자들은 Cloud Speech-to-Text의 받아 쓰기 실력에 대해 지속적으로 정확도가 높아지고 있다는 평가를 하고 있습니다. 정확도를 높일 수 있도록 고급 모델을 제공하고, 구두점이 저절로 구분되는 등 음성을 더 꼼꼼하게 읽어들입니다. 또한 영상 속에서 여러명이 동시에 이야기하면 목소리를 구분해서 텍스트를 나누어주는 기능이 테스트중입니다. 장재화 리더는 이 화자분할 기능이 정식으로 자리를 잡으면 곧바로 브루에 적용할 계획도 세우고 있습니다.
"영상 속의 목소리가 구분된다면 편집점을 읽어내기 더 유리하기 때문에 애초부터 고민하던 기능이었습니다. 하지만 특별한 개발 과정 없이도 Cloud Speech-to-Text에 추가된 기능을 서비스에 적용할 수 있습니다. 클라우드의 가장 큰 강점이라고 봅니다."
보이저엑스는 브루의 Cloud Speech-to-Text 외에도 Google Cloud Platform의 Cloud Vision API를 적용해 책을 텍스트로 옮겨주는 모바일 스캐너 ‘브이플랫(vFlat)’을 서비스하고 있습니다. 이 역시 구글 클라우드의 범용적 기술을 활용해 고도의 서비스를 만들어내는 과정입니다. Google Cloud Platform에는 문서에 담긴 글자를 디지털로 옮겨주는 Cloud Vision API가 있고, 보이저엑스는 스마트폰 카메라로 책을 찍었을 때 모양이 찌그러진 결과물을 디지털로 펼쳐주는 기술을 갖고 있습니다. 이 둘을 합치면 최고 수준의 책 스캐너가 만들어지는 것입니다.
“바퀴를 재발명할 필요가 없는 것처럼 음성 인식 기술을 직접 만들 이유도 없습니다. 브루의 본질은 자막 기반의 영상 편집에 있습니다. 음성에 대한 기술은 구글에게 맡겨두고 새로운 방식의 영상 편집 경험에 집중하는 것이 옳다고 생각합니다.”
보이저엑스의 지향점은 앱을 쓰는 사람들의 삶을 더 쉽고 편하게 만들어주는 데에 있습니다. 그리고 브루의 목표는 편집을 쉽게 만들어주는 것입니다. 그 과정에 구글 이상의 음성 인식 기술을 개발하는 것보다 본질에 집중하는 것이 맞고 이 지향점 덕분에 브루는 다양한 기능을 더하면서 빠르게 성장하고 있습니다.
어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.
문의하기Voyager X에 대하여
보이저엑스는 더욱 즐겁고 편리한 삶을 돕는 인공지능 기반 소프트웨어를 개발하는 스타트업입니다. 자막을 생성해서 영상까지 편집할 수 있는 브루를 비롯해 스마트폰을 책 스캐너로 만들어주는 vFlat(브이플랫) 등 인공지능 기술을 기반으로 삶을 편리하게 만들어주는 서비스들을 만들고 있습니다.