平時有留意開local llm既人,有冇諗過自己對AI認知已經高過一般人好多

debugger;

82 回覆
42 Like 41 Dislike
debugger; 2025-01-27 16:28:38
完全估唔到一半連登仔認為deepseek係「抄」openai,認為open weight/paper造假,safetensor同llama.cpp監控到你之類

依家d人電腦知識真係少到可怕,仲要自信爆棚
兼職陰陽師 2025-01-27 16:31:09
其實一般人對AI嘅認知真係好少
最多噏得出ChatGPT個名

連Claude都唔知咩嚟何況其他model
debugger; 2025-01-27 16:35:36
識轉model去4o分分鐘已經贏左95%人

知道claude 3.5 sonnet, command r+, llama 3.2/qwen vl果堆multimodal llm, phi4 gemma之類, 再之前既mixtral 8x7b 8x22b moe,覺得直程係稀有生物,只可以圍爐
國際軟件 2025-01-27 16:36:07
我認同r1/v3係勁
但同時佢冇公開啲training data邊度嚟
被懷疑係4o generated data直接拎嚟train v3
甜妹號 2025-01-27 16:36:39
講真外國都好少
debugger; 2025-01-27 16:36:50
deepseek: day 1就放晒paper, model weight, api/demo, benchmark,大家隨便down落自己部workstation offline試

各ai researcher: 有料到

sam哥: 被斷米路嬲豬

股民: nvda點算

美國人: 屌 搞串party

/r/localllama:

連登仔: 造假
天才小釣手 2025-01-27 16:38:25
點解Deepseek 成本咁平?
https://lih.kg/3864830
- 分享自 LIHKG 討論區

TLDR: deepshit 皮 gpt底

真係落手由零開始開發嘅美國唔知燒左幾多十億鎂先出到隻GPT3 造福人類
屌你俾幾十萬人仔個商業間諜成個model拎走


唔識嘢聽個樓主講嘅真係以為派個無間道入去用USB copy哂成個file
原來只係用咗GPT-4產生嘅datasets嚟 Train
J.V 2025-01-27 16:39:41
有幾個原因
1. 呢到係連登, 逢中必反左先
2. 玩llm既門檻唔低, 做IT狗都未必個個識玩
3. 玩得local llm仲要買唔平既hardware, 就更加少人會去玩

所以唔怪得佢地, 睇完d 回復得啖笑

利申:
localhost 用緊qwen2.5 coder + deepseek r1 distill
online 用緊gpt 4o/mini + claude sonnet
甜妹號 2025-01-27 16:40:17
勁喺資源分配
佢答你問題唔洗問晒成個Database
MoE 識得搵專業答案答你
所以用少好多資源

抽象領域同跨領域思考冇ChatGPT強
debugger; 2025-01-27 16:40:23
openai既training data咪又係scrap晒成個互聯網黎,佢自己由gpt1時代都從來冇公開過

不嬲用其他llm output做augmentation全行ai公司都會做,講版權意識既話,成個gen ai產業都要消失啦
J.V 2025-01-27 16:41:36
claude sonnet都係網頁爬蟲式拎人地資料做trainning, 好多人投訴過, 咪又係唔理

google都成日投訴d ai 公司拎youtube既data來做trainning

呢個行為就一定可恥架啦, 但其實全世界都咁玩
兼職陰陽師 2025-01-27 16:42:18
真係得ai呢個field先特別多呢啲layman扮專家嘅奇怪言論出現
低收入公屋狗垃 2025-01-27 16:42:39

係班低收入連登弱智先真係信我地中國真係咩都假
講科研 其實係美帝全方位領導得太多姐
但中國認第三 都冇咩國家敢認第二
班撚樣咩都反中 所以現實咪月入五萬都冇
debugger; 2025-01-27 16:44:26
最好唔好用字面意思去理解應該用

Mixtral (8x7b) is a sparse mixture-of-experts network. It is a decoder-only model where the feedforward block picks from a set of 8 distinct groups of parameters. At every layer, for every token, a router network chooses two of these groups (the “experts”) to process the token and combine their output additively.

This technique increases the number of parameters of a model while controlling cost and latency, as the model only uses a fraction of the total set of parameters per token. Concretely, Mixtral (8x7b) has 46.7B total parameters but only uses 12.9B parameters per token. It, therefore, processes input and generates output at the same speed and for the same cost as a 12.9B model.

只係儲多d info同時減低inference time cost既tech黎
debugger; 2025-01-27 16:47:05
咁的確你地中國係多假野既,但open source就一定冇得假,大把人驗證有冇料到
10蚊跟機 2025-01-27 16:53:34
一般人唔識好正常
就算it人,我覺得llm野追黎冇咩用
d野下個月就out
應作如是觀~ 2025-01-27 17:04:37
諗諗吓, 其實Apple都係贏家嚟
debugger; 2025-01-27 17:08:02
macbook pro m4max行llm分分鐘快過nv部新digits
應作如是觀~ 2025-01-27 17:43:14
我反而想講Apple喺AI 投入度未咁高..
debugger; 2025-01-27 17:45:30
佢唔洗再特登sell自己ai,local llm班人欣賞
黑膠蠍 2025-01-27 18:12:16
同意
樓上果班識ai 但都未發達
仲係做緊打工仔
debugger; 2025-01-27 18:17:13
依家已經用緊llm寫code同埋troubleshoot linux甚至mikrotik routeros既問題

前排幾個鐘寫左個system monitor既Frontend同backup



追黎有冇用見仁見智
debugger; 2025-01-27 18:17:38
一般人唔識好正常
就算it人,我覺得llm野追黎冇咩用
d野下個月就out
依家已經用緊llm寫code同埋troubleshoot linux甚至mikrotik routeros既問題

前排幾個鐘寫左個system monitor既Frontend同backend



追黎有冇用見仁見智
大棍巴 2025-01-27 18:24:59
哩啲嘢一般人唔識都正常嘅,始終仲係相對地新嘅concept。

我自己做科研,一直都係non believer,都係約莫半年前用落先發覺原來咁勁,之後日日睇r/localllama先識些少。

至於好多人唔信嘅並唔係LLM,而係中國共産黨啫
極北鷲 2025-01-27 18:27:29
留名
btw連登第一個openai既post好似係我開
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞