台灣客語語料庫 預計111年上線
2019/11/29 16:36
(中央社記者張雄風台北29日電)客委會今天表示,透過台灣客語語料庫,除了能將台灣客語數位化典藏外,未來結合AI還能有更多應用;這是全世界第一個由官方帶頭建置的客語語料庫,預計民國111年正式上線。
客家委員會今天舉辦「台灣客語語料庫建置階段成果發表會」,已處理包含書面500萬字、口語10萬筆資料,除保存台灣客語、進行數位化典藏外,更有機會將客語語料結合AI,能在教育、研究及翻譯上有更多應用,這是全台、也是全世界第一個由官方帶頭建置的客語語料庫。
客委會主委李永得表示,語料庫是透過政治大學的團隊,從語言、資訊工程、傳播領域等專業結合;未來客語語料搭配AI可以應用在翻譯上,若有外國人來到客家庄,透過翻譯都可以走得通,讓客家話可以和全世界的語言對話。
政大英國語文學系特聘教授賴惠玲告訴中央社記者,她一直以來都在從事客語語料的研究,但與公部門合作,最重要的是能取得授權,讓這些內容能夠公開應用;現在這個階段是在打基礎,累積文字和口語的材料後,未來在教學、語音合成、語音辨識或翻譯都能做到。
客委會表示,台灣客語語料庫耗資約新台幣6000萬元,已經完成書面語料授權316筆出版品、149筆單篇文章,並完成語料庫斷詞系統、權威詞控管系統與後台管理初步規劃,預計於民國111年底正式上線。(編輯:管中維)1081129
本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。