台灣客語語料庫試用版上線 奠定數位應用基礎
2021/12/24 18:10(12/24 22:16 更新)
(中央社記者楊淑閔台北24日電)客家委員會舉辦「建置台灣客語語料庫」成果發表記者會,宣布台灣客語語料庫試用版今天上線,迄今收錄包含書面、口語逾600萬字客語語料,將為拓展客語語音數位應用奠定基礎。
客委會委託國立政治大學規劃建置台灣客語語料庫,政治大學教授賴惠玲說,台灣客語語料庫的語料來源為全台灣客語書寫的客語文本,以及客語發音的口語內容。網址為https://corpus.hakka.gov.tw/,開放使用。
她說明,其中書面語料方面,蒐羅台灣客語早期珍貴作品到近期出版品。
口語語料來源則包含電視節目,以及執行團隊採錄的客語口說內容,包含訪談、演講、日常生活對話、說故事等,相關工作並號召客語薪傳師協助完成。
她並說,台灣客語語料庫系統有數項功能,首先,「資料視覺化與多媒體展示」,入口網頁設置客語常用詞文字雲、客語特色詞彙展示,透過是覺化,方便民眾快速瀏覽。
其次,「語言典藏與保存」,透過書面語料及口語語料的蒐集,完成台灣客語六腔的基礎保存,這六腔包含四縣、海陸、大埔、饒平、詔安、南四縣。
第3是「教學研究與數位化應用」,語料檢索系統及客語斷詞及詞性標注器的設置,能作為客語學術研究、教學推廣使用,同時完成台灣客語的數位接軌,建立語言資料與資訊科技介接的管道,可提供大數據分析能力,成為後續台灣客語數位應用的重要元素。
參與建置語音資料庫的華碩雲端總經理吳漢章並說,資料庫內有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用。(編輯:陳政偉)1101224
本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。