數發部建AI訓練語料庫擬提1年期隱私強化計畫

2025/2/27 17:04（2/27 21:31 更新）

請同意我們的隱私權規範，才能啟用聽新聞的功能。

數發部於27日舉行記者會，規劃提出1年期的「資料匯流與隱私強化計畫」。數發部政務次長林宜敬解釋概念，透過資料處理，識別兒少家暴高風險個案，讓社工知道哪些案例需加強照顧，但也強調相關概念目前僅為示意。中央社記者蘇思云攝 114年2月27日

請同意我們的隱私權規範，才能啟用聽新聞的功能。

（中央社記者蘇思云台北27日電）數發部規劃從算力、資料等5面向推動AI生態系，在資料面向上將建立台灣主權AI訓練語料庫，先從政府資料、符合現行著作權法的內容來著手，讓TAIDE訓練模型時不用一一洽談，另外也規劃提出1年期的隱私強化計畫，盼建立研究人員申請政府資料的整套機制。

數發部今天下午舉行建構台灣AI產業生態系記者會，由數發部長黃彥男親自主持。黃彥男表示，上任後以「數發3箭」強化數位韌性、發展數位經濟，規劃從算力、資料、人才、行銷、資金5大政策工具，建立完整的AI生態系。

數發部常務次長葉寧表示，AI訓練需要高品質資料，生成式AI需要文字等非結構化資料，中間可能牽涉著作權與個資。今年規劃先提出促進資料創新利用發展條例草案，明定政府資料開放可以不收費，明定公務人員資料開放免責條件，也會鼓勵公務機關開放資料給AI研究。

數發部規劃建立台灣主權AI訓練語料庫，媒體關切，是否可能造成新聞媒體等內容未來免費提供給AI模型訓練使用。

葉寧說明，可信任人工智慧對話引擎（TAIDE）先前訓練語言資料（語料）需一一洽談，非常辛苦，目前推動建立台灣主權AI訓練語料庫，由高品質、有台灣觀點的語言資料組成語料庫，也希望是無償，降低模型訓練成本，國內外大型語言模型業者才會願意使用，語料庫希望先提供台灣語言模型訓練，未來才有能力提供給國外大型語言模型做訓練。

至於語料庫的內容來源，葉寧強調，會先從政府資料著手，像是跟各部會溝通沒有著作權的公文內容，等授權方式確立、建立好語料庫後，才會鼓勵民間捐贈文學作品、論文、新聞報導內容等，但民間部分採自願方式，不影響內容產業去跟AI產業談判獲取報酬。

外界關注建立語料庫是否需修改著作權法，葉寧指出，有跟經濟部智慧財產局溝通過，目前先以取得合法授權、符合現行著作權法等內容來推動。國際上對AI著作權議題討論很多，未來持續關注，但不可能等到國際都有定論才建立語料庫。

數發部也規劃提出1年期的「資料匯流與隱私強化計畫」，正在爭取科發基金，數發部資料創新司副司長陳怡君說明，都有跟各部會說明，未來會視個案跟各部會討論資料欄位跟處理流程，依案例運用隱私強化技術來處理資料。

針對資料匯流與隱私強化計畫，數發部政務次長林宜敬說明，會請各部會整理目前手上擁有資料的目錄，如果有AI研究人員需要使用政府資料，可以通知數發部，數發部再代為向各部會提出需求，希望各部會提供資料時先做好去識別化，數發部再以隱私強化技術處理後提供給研究人員。