華為開源盤古大模型! 實力僅次於deepseek R1!

支共就係國難

19 回覆
1 Like 10 Dislike
支共就係國難 2025-06-30 17:26:55
吹到華為幾勁,點知仲廢過deepseek


塔利班東征 2025-06-30 17:28:10
又吹另一個雞棚
衣冠神獸 2025-06-30 17:29:14
軟軟中軟硬 2025-06-30 17:31:40
咁講
72B高過千問235B嘅話係幾勁
起碼72B Q4係你喺屋企都可以自己host
而滿血DeepSeek 671B冇咩可能
支共就係國難 2025-06-30 17:31:55
今次吹唔起
軟軟中軟硬 2025-06-30 17:33:14
Sorry睇錯
72B廢過千問32B
當我冇講過 多人一倍但係比唔上
Sky_Croc 2025-06-30 17:35:11
支共就係國難 2025-06-30 17:35:24
佢個model原本就係昇騰NPU上面run, 唔知如果轉移去Nvidia GPU上面run會唔會對能力好大影響
軟軟中軟硬 2025-06-30 17:37:03
性能應該唔會太差遠,係速度
支共就係國難 2025-06-30 17:37:11
支共就係國難 2025-06-30 17:39:57
張柏芝士腸 2025-06-30 17:44:26
呢舊野唔係一直都有?
天文台好似係咪換左呢舊野,估親落雨都錯
支共就係國難 2025-06-30 17:54:13
呢個模型係general 大模型, 天文台用緊嗰個係盤古氣象大模型,所以唔同
不過當然都係廢嘅
支共就係國難 2025-06-30 18:03:46
芝士近薯蓉 2025-06-30 19:44:30
華為好多嘢都搭雞棚
三重劉德華 2025-07-04 16:37:59
狗咬狗骨 俾人周到抄Qwen
嘈緊 專業嘅巴打入去望下
https://github.com/HonestAGI/LLM-Fingerprint/issues/8

HonestAGI 研究團隊發表論文,提出通過分析大語言模型注意力參數標準差模式來識別模型"指紋"的新方法。該技術能夠檢測模型是否通過繼續訓練從其他模型衍生而來,即使經過大量訓練也難以消除這些內在特徵。

研究團隊使用此方法發現,華為盤古 Pro MoE 模型與 Qwen-2.5 14B 模型存在 0.927 的極高相關性,表明前者可能通過"升級改造" Qwen 模型獲得,而非從零訓練。這一發現質疑了華為在技術報告中關於大規模獨立訓練投入的聲明,涉嫌版權侵犯和資訊造假。
後庭花 2025-07-05 16:43:56
琴日仲諗住等高手比證據
今日一睇就404埋
日本歐洲人 2025-07-05 18:07:44
發神經
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞