數發部建AI訓練語料庫 擬提1年期隱私強化計畫
(中央社記者蘇思云台北27日電)數發部規劃從算力、資料等5面向推動AI生態系,在資料面向上將建立台灣主權AI訓練語料庫,先從政府資料、符合現行著作權法的內容來著手,讓TAIDE訓練模型時不用一一洽談,另外也規劃提出1年期的隱私強化計畫,盼建立研究人員申請政府資料的整套機制。
數發部今天下午舉行建構台灣AI產業生態系記者會,由數發部長黃彥男親自主持。黃彥男表示,上任後以「數發3箭」強化數位韌性、發展數位經濟,規劃從算力、資料、人才、行銷、資金5大政策工具,建立完整的AI生態系。
數發部常務次長葉寧表示,AI訓練需要高品質資料,生成式AI需要文字等非結構化資料,中間可能牽涉著作權與個資。今年規劃先提出促進資料創新利用發展條例草案,明定政府資料開放可以不收費,明定公務人員資料開放免責條件,也會鼓勵公務機關開放資料給AI研究。
數發部規劃建立台灣主權AI訓練語料庫,媒體關切,是否可能造成新聞媒體等內容未來免費提供給AI模型訓練使用。
葉寧說明,可信任人工智慧對話引擎(TAIDE)先前訓練語言資料(語料)需一一洽談,非常辛苦,目前推動建立台灣主權AI訓練語料庫,由高品質、有台灣觀點的語言資料組成語料庫,也希望是無償,降低模型訓練成本,國內外大型語言模型業者才會願意使用,語料庫希望先提供台灣語言模型訓練,未來才有能力提供給國外大型語言模型做訓練。
至於語料庫的內容來源,葉寧強調,會先從政府資料著手,像是跟各部會溝通沒有著作權的公文內容,等授權方式確立、建立好語料庫後,才會鼓勵民間捐贈文學作品、論文、新聞報導內容等,但民間部分採自願方式,不影響內容產業去跟AI產業談判獲取報酬。
外界關注建立語料庫是否需修改著作權法,葉寧指出,有跟經濟部智慧財產局溝通過,目前先以取得合法授權、符合現行著作權法等內容來推動。國際上對AI著作權議題討論很多,未來持續關注,但不可能等到國際都有定論才建立語料庫。
數發部也規劃提出1年期的「資料匯流與隱私強化計畫」,正在爭取科發基金,數發部資料創新司副司長陳怡君說明,都有跟各部會說明,未來會視個案跟各部會討論資料欄位跟處理流程,依案例運用隱私強化技術來處理資料。
針對資料匯流與隱私強化計畫,數發部政務次長林宜敬說明,會請各部會整理目前手上擁有資料的目錄,如果有AI研究人員需要使用政府資料,可以通知數發部,數發部再代為向各部會提出需求,希望各部會提供資料時先做好去識別化,數發部再以隱私強化技術處理後提供給研究人員。
至於這類計畫後續在公部門的可能應用,林宜敬舉例,有詐團會跟返國的移工購買手機SIM卡來做詐騙,透過這類計畫,有機會把警政署、國家通訊傳播委員會(NCC)、移民署的資料去識別化後,再做隱私強化,可能可以從個人LINE ID跟出入境資料搭配,了解移工是否人在國內,幫助打詐。
在人才部分,數發部2024年啟動AI人才培育計畫,強化公務人員的AI技能,並與國家文官學院合作,將AI素養納入公務員培訓體系。另外也跟人工智慧學校等民間機構合作,制定AI開發人才指引和認定標準,盼加速AI產業發展。(編輯:張均懋)1140227
- 數發部建AI訓練語料庫 擬提1年期隱私強化計畫2025/02/27 17:04
- 2025/02/27 17:04
- 2025/02/27 16:04
本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。