超越Deepseek v3 32倍,MiniMax新架構開啟Agent時代

藍屍拉婦人

16 回覆
1 Like 4 Dislike
藍屍拉婦人 2025-01-28 02:11:03
全新模型架構、效能比肩GPT-4o

在MiniMax-01系列模型中,我們做了大膽創新:首次大規模實現線性注意力機制,傳統Transformer架構不再是唯一的選擇。這個模型的參數量高達4560億,其中單次啟動459億。模型綜合性能比肩海外頂尖模型,同時能夠高效處理全球最長400萬token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

超長上下文、開啟Agent時代

我們相信2025年會是Agent高速發展的一年,不管是單Agent的系統需要持續的記憶,或是多Agent的系統中Agent之間大量的相互通信,都需要越來越長的上下文。在這個模型中,我們走出了第一步,並希望使用這個架構來持續建立複雜Agent所需的基礎能力。

極致性價比、不斷創新

受益於架構的創新、效率的優化、集群訓推一體的設計以及我們內部大量並發算力復用,我們得以用業內最低的價格區間提供文本和多模態理解的API,標準定價是輸入Token 人民幣1元/百萬Token,輸出Token 8元/百萬Token。歡迎大家在MiniMax 開放平台體驗、使用。

基於業界主流的文本和多模態理解評估結果如下圖所示,我們在大多數任務上追平了海外公認最先進的兩個模型,GPT-4o-1120以及Claude-3.5-Sonnet-1022。在長文任務上,我們比較了之前長文最好的模型Google的Gemini。如圖(c)所示,隨著輸入長度變長,MiniMax-Text-01 是效能衰減最慢的模型,顯著優於Google Gemini。



受惠於我們的架構創新,我們的模型在處理長輸入的時候有非常高的效率,接近線性複雜度。和其他全球頂尖模型的對比如下:



我們使用的結構如下,其中每8層中有7個是基於Lightning Attention的線性注意力,有一層是傳統的SoftMax注意力。



這是業界第一次把線性注意力機制擴展到商用模型的級別,我們從Scaling Law、與MoE的結合、結構設計、訓練優化和推理優化等層面做了綜合的考慮。由於是業界第一次做如此大規模的以線性注意力為核心的模型,我們幾乎重構了訓練和推理系統,包括更有效率的MoE All-to-all通訊優化、更長的序列的優化,以及推理層面線性注意力的高效Kernel實現。
藍屍拉婦人 2025-01-28 02:14:09
在大部份的學術集上,我們都取得了比肩海外第一梯隊的成果:
藍屍拉婦人 2025-01-28 02:14:53
在長上下文的測評集上,我們顯著領先:
藍屍拉婦人 2025-01-28 02:15:48
在400萬的Needle-In-A-Haystack 檢索任務上全綠:
藍屍拉婦人 2025-01-28 02:16:46
除了學術資料集,我們建立了一個基於真實資料的助手場景中的測試集。在這個場景中,MiniMax-Text-01的模型表現顯著領先,具體的對比如下:
大角倔喜 2025-01-28 02:19:27
Deepseek係寧波,呢間好似係上海架

長三角LLM發達,珠三角包括中國矽谷深圳都落後了
藍屍拉婦人 2025-01-28 02:19:42
呢個係長上下文記憶4M Token有啲唔同
藍屍拉婦人 2025-01-28 02:21:53
深圳可能都有
藍屍拉婦人 2025-01-28 02:24:19
係咪成個codebase都理解到?
暴大戇鳩系 2025-01-28 02:24:45
今次呢舖棋係ai定老習捉嘅
藍屍拉婦人 2025-01-28 02:27:21
藍屍拉婦人 2025-01-28 02:28:06
QuantumCondom 2025-01-28 02:28:53
深圳的定位只係香港契弟
暴大戇鳩系 2025-01-28 02:33:00
你係咪倒轉咗
power_off 2025-01-28 02:55:36
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞