華為開源盤古大模型! 實力僅次於deepseek R1!
支共就係國難
19 回覆
1 Like
10 Dislike
支共就係國難
2025-06-30 17:26:55
吹到華為幾勁,點知仲廢過deepseek
塔利班東征
2025-06-30 17:28:10
又吹另一個雞棚
衣冠神獸
2025-06-30 17:29:14
軟軟中軟硬
2025-06-30 17:31:40
咁講
72B高過千問235B嘅話係幾勁
起碼72B Q4係你喺屋企都可以自己host
而滿血DeepSeek 671B冇咩可能
支共就係國難
2025-06-30 17:31:55
今次吹唔起
軟軟中軟硬
2025-06-30 17:33:14
Sorry睇錯
72B廢過千問32B
當我冇講過
多人一倍但係比唔上
Sky_Croc
2025-06-30 17:35:11
支共就係國難
2025-06-30 17:35:24
佢個model原本就係昇騰NPU上面run, 唔知如果轉移去Nvidia GPU上面run會唔會對能力好大影響
軟軟中軟硬
2025-06-30 17:37:03
性能應該唔會太差遠,係速度
支共就係國難
2025-06-30 17:37:11
支共就係國難
2025-06-30 17:39:57
張柏芝士腸
2025-06-30 17:44:26
呢舊野唔係一直都有?
天文台好似係咪換左呢舊野,估親落雨都錯
支共就係國難
2025-06-30 17:54:13
呢個模型係general 大模型, 天文台用緊嗰個係盤古氣象大模型,所以唔同
不過當然都係廢嘅
支共就係國難
2025-06-30 18:03:46
芝士近薯蓉
2025-06-30 19:44:30
華為好多嘢都搭雞棚
三重劉德華
2025-07-04 16:37:59
狗咬狗骨 俾人周到抄Qwen
嘈緊 專業嘅巴打入去望下
https://github.com/HonestAGI/LLM-Fingerprint/issues/8
HonestAGI 研究團隊發表論文,提出通過分析大語言模型注意力參數標準差模式來識別模型"指紋"的新方法。該技術能夠檢測模型是否通過繼續訓練從其他模型衍生而來,即使經過大量訓練也難以消除這些內在特徵。
研究團隊使用此方法發現,華為盤古 Pro MoE 模型與 Qwen-2.5 14B 模型存在 0.927 的極高相關性,表明前者可能通過"升級改造" Qwen 模型獲得,而非從零訓練。這一發現質疑了華為在技術報告中關於大規模獨立訓練投入的聲明,涉嫌版權侵犯和資訊造假。
後庭花
2025-07-05 16:43:56
琴日仲諗住等高手比證據
今日一睇就404埋
日本歐洲人
2025-07-05 18:07:44
發神經
第 1 頁
吹水台
自選台
熱 門
最 新
手機台
時事台
政事台
World
體育台
娛樂台
動漫台
Apps台
遊戲台
影視台
講故台
健康台
感情台
家庭台
潮流台
美容台
上班台
財經台
房屋台
飲食台
旅遊台
學術台
校園台
汽車台
音樂台
創意台
硬件台
電器台
攝影台
玩具台
寵物台
軟件台
活動台
電訊台
直播台
站務台
黑 洞