中華電信：運用 Google Cloud GPUs 和 Speech-to-Text，打造在地化的智慧音箱體驗

有關 Chunghwa Telecom

中華電信成立於 1996 年，是台灣最大的電信公司之一，業務範圍涵蓋固網通信、行動通信及寬頻接取與網際網路等。在過去幾年間，中華電信將業務擴展到大數據、資安、雲端運算、網路資料中心和線上娛樂等服務，並在 2019 年推出自有的智慧音箱「i寶貝」和其他語音服務，踏入人工智慧領域。

為了持續改善為本地市場設計的智慧音箱和語音服務，中華電信運用 Google Cloud 強大的計算資源和機器學習技術，加快產品開發的速度。

Google 成效

利用 Google Cloud 的成熟語音辨識技術，將開發智慧音箱的內部預估時間從 3 年縮短至 1 年
能在 1 天內快速設置機器學習模型訓練環境，以往則需 1-2 週
以Google Speech-to-Text結果為標竿，讓自主開發在地化語音辨識技術的辨識率在自主優化後提升10%，同時Cloud Monitoring 協助減少 30% 的系統維運成本

將訓練機器學習模型的時間從 1-2 個月縮短至 3 天

在許多人的日常生活中，智慧音箱已經成為不可或缺的一部分。全世界有越來越多的家庭都在享受聲控數位助理為生活帶來的舒適和便利。同時，各家廠商也正持續努力改善語音辨識技術，打造能完全理解所有語音指示、像真人一樣和使用者互動的虛擬助理。

成立於 1996 年的中華電信是台灣推出自有智慧音箱的公司之一，以打造一個在地化聲控生態系統為長期目標。中華電信是台灣最大的電信公司之一，業務範圍涵蓋固網通信、行動通信及寬頻接取與網際網路等。在過去幾年間，中華電信將業務擴展到大數據、資安、雲端運算、網路資料中心和線上娛樂等服務。2019 年，中華電信推出自有的智慧音箱「i寶貝」和智慧客服中心（語音機器人可以直接與客戶進行語音互動的系統）等為企業客戶提供的語音服務，進一步踏入人工智慧領域。

當中華電信在 2018 年初著手開發自有的智慧音箱時，台灣科技業已經開始對聲控技術有越來越濃厚的興趣，但由本地公司打造的【聲控裝置及營運平台】在市場上仍十分罕見。為了要讓產品快速上市，中華電信選擇與 Google Cloud 合作，因為其提供支持中文的成熟語音辨識技術，以及易於使用的 API 工具，可以用來連接 Google Cloud 產品和中華電信的系統。

「對我們來說，與 Google Cloud 合作是非常自然的選擇，」中華電信商務應用處 AIoT 總監劉漢義表示：「在 2018 年，Google Cloud 是唯一提供支持中文的成熟語音辨識技術的雲端工具。由於 Google Cloud 產品的說明文件十分清晰易懂，我們的工程師可以輕易地上手 Google Cloud 的 API 工具。這讓我們能在短時間內開發出高品質的智慧聲控服務，進而打造屬於台灣人的智慧音箱。」

高伸縮度的雲端工具和全面的技術支持，協助在一年內打造在地化的智慧音箱

中華電信運用 Google Speech-to-Text作為其第一代智慧音箱系統的語音辨識技術基礎。劉漢義指出，使用雲端工具來開發軟體的其中一個主要好處是其即時的高伸縮度，讓中華電信的開發團隊隨時都能取得足夠的資源。例如，當中華電信的團隊在對智慧音箱系統進行壓力測試時，可以輕鬆且快速地將 Google Speech-to-Text 的語音資料處理能力提升五倍，而不需要購買額外的硬體。如此一來，開發流程便加快許多。

此外，Google Cloud 團隊提供的技術支援也協助中華電信加速了開發過程。有一次，中華電信的團隊在將資料從智慧音箱系統傳送到 Google Speech-to-Text 時遇到了問題，Google Cloud 的工程師很快地就幫忙找到並排除了障礙發生的原因。因此，中華電信得以在 2019 年初推出自有的智慧音箱「i寶貝」，成為台灣智慧音箱市場上領跑的本地公司之一。

「透過提供所有我們需要的技術和支援，Google Cloud 讓我們的開發作業變得順暢許多。一般來說參考國外業者經驗，從零開始開發一個智慧音箱系統至少需要三年的時間，但有了 Google Cloud，我們得以在一年內就完成第一代智慧音箱系統的開發工作，快速進入市場，」劉漢義說。

運用 Cloud GPUs，減少機器學習模型的訓練時間

在開發第一代智慧音箱的過程中，中華電信的團隊意識到，如果要為本地使用者提供最佳的智慧音箱體驗，就必須打造一個能理解混合中文和台語句子的聲控數位助理，因為台灣人在日常生活中經常混用兩種語言。因此，中華電信開始在本地機房建造訓練自有的語音辨識模型。然而，隨著語料的增加，中華電信決定將其模型訓練所需之硬體資源延伸使用公雲GPUs，以混合雲模式加速訓練時程。

由於 Cloud GPUs 已經提供了完整的計算基礎架構，中華電信的開發團隊可以直接上傳資料，在一天內就設置好機器學習模型訓練的環境，同時可以依據模型與資料庫結構所需，以中華混合雲彈性搭配，完成後續營運配套作為。

「有了 Cloud GPUs 的極高運算能力和完整的基礎架構，我們得以加快機器學習模型的訓練流程，並專注在改善我們的語音辨識技術上，而不需要擔心缺少運算資源或基礎架構維運的問題，」他補充說。

Google Speech-to-Text 和 Cloud Monitoring 協助提升開發和維運效率

自從開始開發自有的語音辨識技術起，中華電信就一直將 Google Speech-to-Text 用作其語音辨識工具的後備工具和開發標準。劉漢義認為，這讓中華電信的團隊能更有效率地進行開發工作。在改善語音辨識能力的過程中，中華電信的開發團隊直接用 Google Speech-to-Text 的辨識結果和自家語音技術的辨識結果進行比對，迅速找到其語音辨識工具辨識錯誤的部分，比用真人聽打的逐字稿逐字比對效率更好。

同時，中華電信也用 Cloud Monitoring 來進行系統維運。有了 Cloud Monitoring 提供的詳細系統分析和即時錯誤警報，中華電信的團隊得以嚴密地監控其使用 Google Cloud 產品的情況，並在問題發生時快速排除。如此一來，中華電信的維運成本降低了 30%，有更多人力資源投入開發工作。

用 Google Text-to-Speech 打造回應迅速的智慧客服中心

除了智慧音箱以外，中華電信也提供許多其他語音解決方案，像是自動生成逐字稿的「AI 聲音濾鏡」、提供線上問答服務的「 AI 知識中心」，以及智慧客服中心「AI 線上客服」。中華電信有自己的文字轉語音技術，但在有些企業客戶需要快速設置智慧客服系統的時候，中華電信的團隊也會依據客戶需求彈性運用 Google Text-to-Speech 開箱即用的多語系語音來支持其服務。

此外，中華電信也將自家的高品質深度學習文字轉語音服務部署在 Cloud GPUs 上，可大幅縮短語音合成所需時間。讓中華電信的智慧客服中心系統可以在服務標準內對客戶的要求做出回應。「對於我們的文字轉語音服務來說，回應速度非常重要，因為客戶希望人工智慧系統能在最短時間內做出反應，」劉漢義解釋：「在 Cloud GPUs 的幫助下，我們得以大幅提升文字轉語音服務的使用者體驗，未來也將透過此方式持續優化服務品質。」

解鎖人工智慧潛力，提供更全面的聲控解決方案

有了自家的成熟語音技術，中華電信現在已經準備好要擴展其人工智慧服務。除了將使用 Google Speech-to-Text 提供中文以外的語音辨識解決方案之外，中華電信也將用 Cloud GPUs 為企業客戶訓練客製化的機器學習模型。另一方面，公司也計畫透過 IoT Core，將其智慧音箱與 Google 連接超過一萬台家庭裝置的智慧家庭生態系統整合，並運用 Vision AI 的影像辨識技術來開發智慧家庭安全系統。

「要打造一個在地化的聲控生態系統，我們還有很多事情需要完成，」劉漢義說：「Google Cloud 的先進技術協助了我們以極快的速度為本地市場開發出高品質的人工智慧解決方案。正因為如此，我們相信我們可以運用更多 Google Cloud 的技術來完全解鎖人工智慧的潛力，持續改善我們的服務。」

請告訴我們您遇到的挑戰，我們在此提供您協助。

聯絡我們