中國研發生成式AI 專家坦言與GPT-4差距非常大
(中央社台北30日電)OpenAI研發的ChatGPT爆紅後,再推出升級版GPT-4。中國雖有多家企業研發生成式AI,但多名專家坦言,中國的模型與GPT-4差距仍非常大;官員直言再不追上,以後看不到美國的車尾燈。
據陸媒第一財經報導,ChatGPT的出現,如同一場颶風席捲了整個科技圈,成為中國國內的最熱門話題之一。為什麼中國沒有誕生ChatGPT?在這個問題出現後的近半年時間裡,約30家科技大廠、創業公司、機構相繼宣布推出大模型。
中國的大模型距離OpenAI有多遠?一些企業家推測兩三個月以及兩三年都曾引發網路關注。儘管有一些樂觀的看法,但身處一線的中國研究者們都較為謹慎。
上海復旦大學MOSS系統負責人邱錫鵬說:「不光是國內的模型,包括谷歌,離OpenAI的GPT-4都還是存在代差的,差距非常大,遠遠不是幾個月就可以追趕上的」。
網梯科技創始人張震認為,在追趕OpenAI方面,算力並不是問題,核心是演算法、數據能不能真的產生智慧,這是挑戰。「業界認為一年時間能追到GPT3.5,我覺得不一定追得上,除非把核心程式師挖出來,否則只是看起來很像」。
上海國創中心理事長、領中資本管理合夥人黃岩也指出,短期內並不存在追上的說法,因為這個領域需要巨額投入,目前中國沒有哪家大模型廠商投下了OpenAI那樣規模的資金,對於這個高投入、高風險、高回報的領域,中國的資本也還在場外觀望。
在長三角科技產業創新論壇上,竹間智慧創始人兼CEO簡仁賢認為,在過去的幾個月,有十幾個大語言模型的發布會,這些模型都大同小異,現狀就是,在全球範圍內只有OpenAI能夠達到通用人工智慧的商業化,並且擁有絕大部分用戶的市場。
「深思考」是中國網路巨頭華為投資的人工智慧企業,此前發布了針對專業場景的多模態大模型。深思考創始人、AI演算法科學家楊志明也坦承,從通用層面來說,國內大模型與OpenAI大概有1至2代的代差,這個代差代表了整個模型層的技術,包括學習的知識、能力等等方面的差距。
報導提到,上海市徐匯區副區長俞林偉在長三角科技產業創新論壇直言,目前最重要的是大模型,因為這個是真正的「國之大者」。「也有充滿危機感的行業的領軍人物講,如果我們今年下半年仍然不能做出中國的通用大模型,因為美國還在不斷地往前走,以後可能我們連汽車的尾燈都看不見,這個絕對不是危言聳聽」。
此外,大模型需要巨額投入,此前有投資人測算,對標一個GPT3.5,基於目前已有的公開資源,大概需要的投入至少是1億到2億美金。
但與國外融資環境相比,中國生成式AI目前融資頻次與體量有一定差距。黃岩認為,通用大模型有著高投入、高風險、高回報的投資特點,商業價值很難在短期內產生。「以微軟130億美元投資OpenAI為例,在沒有看到其產品效果以及真正商業化之前,很難有機構敢去做這個規模的投資」。
據黃岩團隊的統計,截至2023年4月,生成式AI賽道目前在國外已出現了13家「獨角獸」(市值逾10億美金的新創公司);在中國目前只有小冰公司已成為獨角獸。
報導並提到,在中文語料庫裡,通過網路獲得高品質數據並不占優。根據調研公司W3Techs的數據,全球網站有55%是英文的,而中文網站的比例只有1.4%,排名第12位,和越南相近。因此中文內容在人工智慧訓練上沒有優勢。
商湯科技智慧產業研究院院長田豐也指出,國際上多邊跨國數據政策互通、全球訓練數據集易於獲取,但中國尚缺乏大模型國際標準深度參與、多國數據流程動機制、國際標準互認、大規模中文語言開源訓練術聚集。
田豐期待中國能在生成式AI時代發揮「舉國體制」的巨大價值。他希望政產學研一起去做這個事情,龍頭企業有行業數據,科技公司有較強的大模型基礎研發能力與人才,國家實驗室、國家數據局作為多方信任的中立機構,能夠有效將全球中文數據集合法合規集中於一個國家共用開放生態。(編輯:楊昇儒/邱國強)1120530
本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。