Meta打造台語英語AI翻譯研發難度等5大QA一次看

2022/10/20 15:17（10/21 10:58 更新）

請同意我們的隱私權規範，才能啟用聽新聞的功能。

（中央社台北20日綜合外電報導）臉書母公司Meta昨天宣布推出首創由人工智慧（AI）技術支援的閩南語（台語）、英語即時互譯系統。究竟閩南語翻譯難在哪、研發過程面臨哪些挑戰，中央社彙整5大問答一次看懂。

Meta今天在推特（Twitter）發文指出，閩南話翻譯有SpeechMatrix系統支援，這是一個有136個語言組合、含括41.8萬小時語音數據的語料庫。

影片／Meta推AI翻譯工具閩南語跟英語可即時互譯

台灣工程師推動Meta台語AI翻譯盼父親溝通無礙

Meta打造台語英語AI翻譯台灣鄉土劇有貢獻

Meta指出，至今為止，AI翻譯主要著重於各種書寫語言上，這次新推出的「通用語言翻譯工具」（Universal Speech Translator, UST）是全球第一個由AI技術支援的「口語對口語」翻譯系統，主要用於口語相傳的語言。

閩南語是全球約3000種口語相傳的語言之一，由於沒有標準書寫系統，也少有專門的翻譯人員，這使他們為AI模型建立訓練數據時難度更高，也很難仰賴閩南語文本。

Meta指出，他們向所有AI社群開放此基準資料集的原始碼，並將閩南語翻譯系統納入UST，希望其他研究人員能以此為基礎繼續研發，期盼有朝一日，未來所有語言無論是否可以書寫，都不再是阻礙人們相互理解的障礙。

● 全世界有多少人講閩南語？

閩南語是華裔群眾廣泛使用的語言，Meta統整2000年至2018年數據顯示，亞洲地區以中國大陸約2800萬人最多，其次依序為台灣約1350萬人、馬來西亞約200萬人、新加坡約150萬人、菲律賓約100萬人。

● 打造閩南語翻譯系統為何這麼難？

以往的AI翻譯工具，必須利用大量的書寫文字來訓練AI模型，閩南語雖然是華裔族群廣泛使用的語言，但大多以口語溝通，缺乏標準的書寫文字系統，無法以傳統的方式打造翻譯工具，因此研發團隊嘗試在「通用語音翻譯工具」（UST）項目中開發新的AI翻譯技術。

● 除了英文，閩南語還能翻譯成哪些語言？

根據Meta網站，目前這套翻譯系統只能以閩南語和英語進行即時語音翻譯，且每次只能翻譯一個完整的句子。

民眾可至Hugging Face網站使用（網站連結點這裡）

● 閩南語翻譯系統在開發過程中，面臨那些挑戰？

Meta在開發這套閩南語翻譯系統時，共面臨3大挑戰，分別是資料蒐集、模型設計以及準確度評估。

為了解決閩南語資源不足問題，研發團隊想到了2大方法，首先是利用資源充足且相似度高的中文作為「中間語言」，補足閩南語的詞彙量。研發團隊先將閩南語的語音，翻譯成中文文字，接著再翻譯成英文，成功後再新增到訓練資料庫。

二是利用「語音探勘」產生訓練資料，研發團隊使用預先訓練好的語音編碼器，系統會自動分析閩南語語音，並和相似語意的英文語音、文字進行配對。

在模型設計方面，有別傳統翻譯系統大多依賴「語音轉文字」系統，研發團隊則採用「語音轉單元翻譯」（S2UT）系統，將語音轉換成一系列的聲學單元並生成波形後，再進行解碼與翻譯。

至於準確度評估方面，研發團隊使用Meta開發的台羅（Tâi-lô）系統，將閩南語語音轉譯成標準化的拼音符號，以音節為單位來評估翻譯準確度。

同時根據名為Taiwanese Across Taiwan（TAT）的閩南語語音語料庫，建立第一個閩南語與英語雙向的語音翻譯基準資料集，未來將開放原始碼鼓勵其他研究人員合作進行閩南語語音翻譯。

值得注意的是，TAT資料庫是由台灣產官學界共同開發，收集台灣各地不同腔調的台語語音，總共錄製長達100小時語料，同時使用6支麥克風模擬各種情況，並使用約3000小時台語鄉土劇片段作為研究語料，幫助訓練系統模型，提高準確率。

訂閱《早安世界》電子報每天3分鐘掌握10件天下事

請輸入正確的電子信箱格式

感謝您的訂閱！

● 這項AI翻譯技術除了翻閩南語，還能做什麼？

這項AI翻譯技術，未來可望擴展於其他口說或書寫語言，Meta也將公開具資料探勘技術支援的「大型語音翻譯語料庫」（LASER），讓其他研究人員也能建立自己的語音翻譯系統。（譯者：張茗喧/核稿：陳昱婷）1111020

Meta打造台語英語AI翻譯研發難度等5大QA一次看

● 全世界有多少人講閩南語？

● 打造閩南語翻譯系統為何這麼難？

● 除了英文，閩南語還能翻譯成哪些語言？

● 閩南語翻譯系統在開發過程中，面臨那些挑戰？

● 這項AI翻譯技術除了翻閩南語，還能做什麼？

「美人魚」儒艮時隔88年現蹤宜蘭外海誤入漁網漁民野放

中職36年火熱開打 6球團爭冠關鍵人物一次看

影片／巴黎「布丁慢跑俱樂部」爆紅掀美食慢跑團風潮

研究隊跋涉6天攀樹測量全台最高「大安溪倚天劍」等身照亮相

義大利頁報發行全球首份AI生成版開箱羅馬總部場地復古思想前衛

Meta打造台語英語AI翻譯 研發難度等5大QA一次看

● 全世界有多少人講閩南語？

● 打造閩南語翻譯系統為何這麼難？

● 除了英文，閩南語還能翻譯成哪些語言？

● 閩南語翻譯系統在開發過程中，面臨那些挑戰？

● 這項AI翻譯技術除了翻閩南語，還能做什麼？

「美人魚」儒艮時隔88年現蹤宜蘭外海 誤入漁網漁民野放

中職36年火熱開打 6球團爭冠關鍵人物一次看

影片／巴黎「布丁慢跑俱樂部」爆紅 掀美食慢跑團風潮

研究隊跋涉6天攀樹測量 全台最高「大安溪倚天劍」等身照亮相

義大利頁報發行全球首份AI生成版 開箱羅馬總部場地復古思想前衛

Meta打造台語英語AI翻譯研發難度等5大QA一次看

「美人魚」儒艮時隔88年現蹤宜蘭外海誤入漁網漁民野放

影片／巴黎「布丁慢跑俱樂部」爆紅掀美食慢跑團風潮

研究隊跋涉6天攀樹測量全台最高「大安溪倚天劍」等身照亮相

義大利頁報發行全球首份AI生成版開箱羅馬總部場地復古思想前衛