馬斯克推Grok 3後 DeepSeek推出NSA加速推理
2025/2/18 19:35(2/18 19:46 更新)

(中央社台北18日電)人工智慧(AI)大戰愈演愈烈,科技富豪馬斯克今天發布最新版AI聊天機器人Grok 3後,中國深度求索(DeepSeek)也宣布推出用於超快速長文本訓練與推理的「原生稀疏注意力」(Native Sparse Attention,簡稱NSA)。
據中國媒體第一財經今天報導,DeepSeek官方18日在海外社交平台X上發布了一篇純技術論文報告,主要內容是關於「原生稀疏注意力」。據官方介紹,這是一種用於超快速長文本訓練與推理、硬體對齊且可原生訓練的稀疏注意力機制。
報告宣稱,NSA針對現代硬體進行了優化設計,能加速推理過程,同時降低預訓練成本,且不犧牲性能。NSA在通用基準測試、長文本任務和基於指令的推理,均能達到或超越全注意力模型的表現。NSA為提高效率同時保持模型能力提供了一個有前景的方向。
在這篇名題為「原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創始人梁文鋒也是共同作者。
另一方面,馬斯克(Elon Musk)旗下人工智慧新創公司xAI於台灣時間18日發布最新版AI聊天機器人Grok 3。馬斯克表示,Grok 3的運算能力是前一代的10倍,並稱它「聰明得嚇人」,又指「Grok目標是要理解宇宙」。
法新社報導形容,馬斯克希望Grok 3將在ChatGPT及中國的DeepSeek等對手競爭激烈的AI市場中占有一席之地。(編輯:陳鎧妤/邱國強)1140218
- 2025/02/20 18:39
- 2025/02/19 16:15
- 2025/02/18 19:59
- 馬斯克推Grok 3後 DeepSeek推出NSA加速推理2025/02/18 19:35
- 2025/02/18 19:04
- 2025/02/18 18:54
本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。
請繼續下滑閱讀
助攻AI晶片效能 經部攜手AMD開發千瓦級散熱技術