話說最近真係將self hosted AI帶入工作上

極北鷲

269 回覆

82 Like 41 Dislike

香港生果日報 2025-01-21 17:43:02

完全唔識

10蚊跟機 2025-01-21 17:47:52

要有人地api既peformance可能每月電費都唔只幾千usd

大棍巴 2025-01-28 11:37:18

終於有Qwen 2.5 VL
我地institute 可能會deploy佢

https://www.reddit.com/r/LocalLLaMA/s/OKkUEcySOn

港女洋腸夢 2025-01-28 11:41:34

自己部電腦最高只可以run 到14b model

直接課金Cody 最抵，9美金無限call claude 3.5

當然依家仲有另外一個選擇就係deepseek r1, cline + continue 都係非常之平

極北鷲 2025-01-28 12:25:57

deepseek r1做到autocomplete/fill-in-middle?
我自己未試玩，但睇人講佢唔係specialized in fill-in-middle，想autocomplete就繼續用qwen coder

港女洋腸夢 2025-01-28 12:28:20

未試過用R1，但試過用v3 ，但係有啲慢，autocomplete 唔使用大model，個人覺得3b / 7b qwen 2.5 coder效果已經好好

極北鷲 2025-01-28 12:46:55

極北鷲 2025-01-28 14:35:09

其實呢d multimodal model用咩backend行？定直接call python script?

極限哥(已極限) 2025-01-28 14:58:26

多9如
有openAI又驚人地知道你d野
唔L好用gmail唔L好用iphone啦
Apple知你d野呀

Self host多舊魚

大棍巴 2025-01-28 15:00:18

我都未run過multimodal LLM，不過應該都係咁run?
主要視乎個frontend點feed，我估Cline呢啲將來會support到。

極北鷲 2025-01-28 15:21:36

我見deepseek個janus都係直接call python script

J.V 2025-01-28 15:44:31

係cline 用R1, 佢會不停loop死自己同自己係咁講, cline會收唔到個結果

港女洋腸夢 2025-01-28 15:58:23

竟然係咁，係咪淨係cline 用r1先有呢個問題？嗰陣我用V3個體驗還可以

就係佢嗰個context length 64k真係少左d

大棍巴 2025-01-28 19:05:09

可能冇train到tool calling，Cline要有fine tune過一堆function先會work。通常遲啲都會有人搞，當然如果自己有(足夠)GPU都可以自己搞。

大棍巴 2025-01-29 11:38:25

有關VLM model hosting:
https://www.reddit.com/r/LocalLLaMA/s/R90YbCJMWR

終極ON9平井桃 2025-01-30 20:33:53

cline 正

不過 RooCode 更加正

用法：
首先 Architect Mode 用 OpenRouter 嘅 DeepSeek R1 先問問題
出 Idea + Plan

之後 Code Mode 用 VsCode LM API 嘅 Sonnet 食之前嘅結果
出 code

咁樣嘅話應該係最平，出嚟嘅結果都係最好

===============

不過有冇人知道如果有 UI design 的話 (figma / image)
點樣畀 AI 寫好 ?

大棍巴 2025-03-06 08:26:45

Alibaba QwQ 32B full release
https://x.com/Alibaba_Qwen/status/1897361654763151544

幾啱self host

大棍巴 2025-05-23 22:29:34

終於到我起好set 4xA6000 ADA
Test run行緊Qwen3 32B AWQ 4-bit，vLLM 行data-parallel=2, tensor-parallel=2, 一次同時serve到兩個request，做到54 token/second，覺得都算唔錯

雖然我張5090其實一張都做到50 token/second

Blackwell真係快ADA Lovelace唔少

大棍巴 2025-05-28 04:40:43

終於上到Qwen3 235B-A22，行官方GPTQ INT4。
用vLLM行埋rope scaling 上到128k context，都仲穩定行到50-60 token/second (對比返，Qwen3 32B可以做100t/s)，算比想像中好。(SGLang未有support)

可惜在，Qwen3 就算去到235B-A22比起即使GPT 4.1都有一段距離，vipe code完全冇可比性。或者用來執code會好啲，但要用落先知。
但起碼235B-A22好過32B唔少，相對地少出啲完全run唔到嘅code。32B我用落其實有少少失望，用過哂Cline/Aider，debug好多時3、4 shot都冇進展。

第 1 頁第 2 頁第 3 頁第 4 頁第 5 頁第 6 頁第 7 頁第 8 頁第 9 頁第 10 頁第 11 頁

吹水台自選台熱　門最　新手機台時事台政事台 World 體育台娛樂台動漫台 Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑　洞