• <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

    <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
        1. <sup id="mz9d1"></sup>
          每日經濟新聞
          要聞

          每經網首頁 > 要聞 > 正文

          做空英偉達的又一理由?螞蟻集團發布最新AI成果:無需高端GPU,計算成本降低20%,訓練1萬億Token只需508萬元

          每日經濟新聞 2025-03-25 18:39:09

          3月24日,螞蟻集團Ling團隊發布兩款百靈系列開源混合專家模型Ling-Lite和Ling-Plus。該團隊在模型預訓練階段使用較低規格硬件系統,將計算成本降低約20%,并取得與使用高性能芯片模型相當的效果。螞蟻集團有關人士告訴每經記者,訓練過程中既使用了國產芯片,也使用了英偉達芯片。

          每經記者 宋欣悅    每經編輯 蘭素英    

          長久以來,英偉達憑借高性能芯片構筑起“算力霸權”,在AI模型訓練領域占據主導地位。這一局面在DeepSeek問世后遭遇到不小的沖擊,如今又面臨著新的挑戰。

          3月初,由螞蟻集團首席技術官何征宇帶領的Ling團隊發表了一篇技術成果論文。

          論文顯示,該團隊開發了兩款百靈系列開源混合專家(MoE)模型Ling-Lite(總參數為16.8B)和Ling-Plus(總參數為290B)。相比之下,據《麻省理工科技評論》,GPT-4.5總參數為1.8T,DeepSeek-R1總參數為671B。

          而驚艷之處在于,Ling團隊在模型預訓練階段使用較低規格的硬件系統,將計算成本降低約20%,訓練1萬億Token成本從635萬元降至508萬元,最終取得了與使用高性能芯片(如英偉達H100、H800等)的模型相當的效果。

          螞蟻集團有關人士告訴《每日經濟新聞》記者,在模型訓練過程中,他們既使用了國產芯片,也采用了英偉達芯片。

          但百靈系列混合專家模型的橫空出世,讓市場再次質疑英偉達的“算力信仰”。HuggingFace工程師Tiezhen Wang在社交媒體上表示,“做空英偉達的又一理由?”

          Tom's Hardware發表評論稱,螞蟻集團此次的技術突破清晰展現出中國正堅定地朝著技術獨立方向邁進。

          針對此事,3月24日螞蟻集團回應媒體稱,螞蟻針對不同芯片持續調優,以降低AI應用成本,目前取得了一定的進展,也會逐步通過開源分享。

          圖片來源:螞蟻集團Ling團隊最新論文

          螞蟻重大突破:不使用高端GPU的情況下將計算成本降低20%

          目前,螞蟻集團Ling團隊的技術成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數混合專家LING大模型》已發表在預印本平臺arXiv上。

          螞蟻Ling團隊認為,正如DeepSeek開源發布中分析的“晝夜推理負載不均”問題,在推理服務高峰期,高性能資源同樣面臨短缺。在長期科研實踐中,許多機構都持續面臨著高端AI加速卡供應不足的問題。相比之下,性能較低的加速器更易獲得,且單價更低。因此,模型需要能在異構計算單元和分布式集群間切換的技術框架,同時在AI Infra部分,在跨集群、跨設備的兼容和可靠層面進行性能優化。

          該團隊的實驗結果表明,參數規模為300B左右的混合專家模型可以在性能較低的設備上有效訓練,并在性能上達到與同規模的其他模型相當的水平。

          以Ling-Plus模型為例,在實驗中,該模型在五種不同硬件配置下完成9萬億Token的預訓練任務。經測算,使用高性能硬件設備訓練1萬億Token,預計成本高達635萬元人民幣,而使用低規格硬件系統,成本則可控制在約508萬元,節省近20%。

          圖片來源:螞蟻集團Ling團隊最新論文

          在英語理解能力上,Ling-Lite模型在一項關鍵基準測試中的表現與Qwen2.5-7B相當,優于Llama3.1-8B和Mistral-7B-v0.3。

          在中文理解能力上,Ling-Lite和Ling-Plus模型表現明顯優于海外模型Llama3.1-8B和Mistral-7B-v0.3。在部分基準測試中,Ling-Plus表現略優于DeepSeek-V2.5,與Qwen2.5-7B相當。

          在數學和代碼基準測試方面,Ling-Lite的表現與Qwen2.5-7B-Instruct相當,優于Llama3.1-8B和Mistral-7B-v0.3。Ling-Plus的表現優于DeepSeek-V2.5,接近Qwen2.5-72B的水平。

          圖片來源:螞蟻集團Ling團隊最新論文

          在工具使用方面,大多數情況下,Ling-Plus和Ling-Lite在基準測試中均取得了最佳成績。而工具使用對于大語言模型來說是一項重要且具有挑戰性的任務。工具使用能力使模型能夠作為AI代理工作、控制機器人系統并與眾多軟件工具集成。

          此外,在安全性方面,Ling-Plus和Qwen2.5-7B表現突出,而Ling-Plus在錯誤拒絕方面表現更佳。

          提高大模型的無害性(harmlessness)通常會導致其有用性(helpfulness)的降低。測試結果表明,Ling-Plus在安全性和錯誤拒絕之間整體平衡性上表現最佳

          據悉,螞蟻百靈大模型Ling-Plus和Ling-Lite將計劃開源,并應用于醫療、金融等行業領域。

          打破英偉達“算力霸權”?

          有分析稱,百靈系列混合專家模型的推出標志著螞蟻集團加入AI領域的競賽。自DeepSeek展示出能夠以遠低于OpenAI和谷歌投入的數十億美元成本訓練出強大模型以來,這一競爭加速升級。 

          此前,DeepSeek在技術論文中表示,DeepSeek-V3模型(總參數671B,激活參數37B)總訓練成本為557.6萬美元,完整訓練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型訓練所需的十分之一,堪稱“榨干”GPU,也因此引發了資本市場的恐慌。

          對此,英偉達CEO黃仁勛在公開場合多次贊美DeepSeek,但其認為,DeepSeek-R1等更高效的模型出現,反而會刺激計算需求增長。

          然而,螞蟻集團正在探索一條新的路徑——在無高端GPU的情況下擴展模型訓練能力。 

          百靈系列混合專家模型的橫空出世,讓市場再次質疑英偉達的“算力信仰”。HuggingFace工程師Tiezhen Wang在社交媒體上表示,“做空英偉達的又一理由?”

          圖片來源:X

          著名硬件媒體Tom's Hardware指出,如果螞蟻集團此次技術突破意味著實現了(與DeepSeek)類似的AI訓練效率飛躍,這極有可能成為(中國)降低對西方技術依賴進程中的又一重要里程碑。

          螞蟻集團有關人士告訴《每日經濟新聞》記者,在模型訓練過程中,他們既使用了國產芯片,也采用了英偉達芯片。 

          Tom's Hardware發表評論稱,螞蟻集團此次技術突破清晰展現出中國正堅定地朝著技術獨立方向邁進

          彭博資深商業智能分析師羅伯特·李(Robert Lea)同樣指出,螞蟻集團的研究展示了中國在AI創新方面的快速進步,也顯示出本土企業正朝著AI自給自足的方向邁進。

          如需轉載請與《每日經濟新聞》報社聯系。
          未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

          讀者熱線:4008890008

          特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

          英偉達 螞蟻集團 大模型 開源

          歡迎關注每日經濟新聞APP

          每經經濟新聞官方APP

          0

          0

          国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
        2. <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

          <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
              1. <sup id="mz9d1"></sup>
                一区二区三区视频在线观看 | 色综合久久综合香蕉色老大 | 中文字幕乱码一区二区免费 | 久久成人免费精品二区 | 日韩欧美一区二区三区永久免费 | 亚洲免费性生活视频网 |