話說最近真係將self hosted AI帶入工作上

252 回覆
79 Like 40 Dislike
2024-11-22 00:24:01
另外,其實想自己benchmark個setup
但唔知點解benchmark時會炒車最近忙 未有時間研究

benchmark tools:
https://github.com/EleutherAI/lm-evaluation-harness
2024-11-22 00:26:38
Model我而家用緊Qwen2.5-coder,係alibaba整既,community都話佢係現時最強self hosted coding model

此post已完
2024-11-22 00:27:09
留名明天睇
2024-11-22 00:28:19
Alibaba
2024-11-22 00:30:46
唔用qwen既話我都唔知用邊個 我都係睇鬼佬推薦
老實講我冇follow self hosted LLM一段時間 上次聽話最勁既係codestral 你可以睇下
Model可以任轉,唔影響backend/frontend運作的
2024-11-22 00:35:38
Lm
2024-11-22 00:37:22
冇GPU 或 GPU VRAM少既人請用gguf quantization version
佢可以用CPU+RAM去行隻AI,同時都可以offload部分layer比你個GPU以加快inference speed

不過要揀就揀Q4或以上既variant:我理解低過Q4既話output質素會大幅下降
(exl2既話好似係至少4.0bpw?呢個我唔肯定)

同埋用gguf既話 backend用ollama就得 setup非常簡單的
https://ollama.com/
2024-11-22 00:40:18
唔太識,想問用chatgpt 有冇分別?
2024-11-22 00:42:37
想搵quantized version of a model既方法係去huggingface搵返個base model既repo先,例如我係Qwen/Qwen2.5-Coder-32B-Instruct

網頁右邊有hyperlink比你快速搵finetune/quantized version:


用ollama既話就唔洗:你直接行ollama run <model name>:<branch>就得。
ollama model list:
https://ollama.com/search
2024-11-22 00:43:54
分別係chatgpt係OpenAI host既,呢個就係我自己host既

你可以理解做私人版chatgpt
2024-11-22 00:47:52
呢個可唔可以gen圖, 例如講一大段野, gen個mindmap出黎
2024-11-22 00:52:09
2024-11-22 00:52:43
你不如直接用cursor 算啦,自己host 個api server咁麻煩,啲model又係咁出新款,咪要係咁patch
2024-11-22 00:52:56
呢個gen唔到圖

gen圖我冇特別研究過,應該要用comfyui/forge (呢兩個都係包曬backend+frontend)

現時新鮮滾熱辣既model係Stable Diffusion 3.5同埋Flux,兩個都有gguf版本以降低VRAM usage(不過會gen得好慢,聽講係一分鐘以上gen一張
舊D既話,SDXL都用得
2024-11-22 00:56:26


不過講真,其實唔麻煩
Frontend同Backend都係setup and forget
Model既話出新既咪就咁replace佢而且老實講短時間內應該唔需要換,Qwen2.5 coder既output真係ok
2024-11-22 01:07:40
https://simonwillison.net/2024/Nov/12/qwen25-coder/

不過而家最勁都係Claude Sonnet
2024-11-22 01:08:43
why not use copilot
2024-11-22 01:09:31
sonnet 出啲code係最啱同最快,用黎做簡單refactoring 差唔多無野改咁劑
2024-11-22 01:11:41
因為鐘意self hosting

不過講真 你肯比錢既話,一係copilot,一係用我講既frontend任意一個 + Claude API
2024-11-22 02:24:27
佢又咪係基於llama開發出嚟
2024-11-22 03:03:43
local llm好處多太多,唔洗將公司野send出街已經差好遠
2024-11-22 06:38:39
真係唔洗同佢地解太多點解Qwen好
叫佢地自己睇Reddit同Livebench/Aider Leaderboard,同學下咩叫Open Model/Weight

師兄出post好有心
暫時打code最好Local model都係Qwen,
不過Qwen嘅coder variant好似本身冇train到tool calling,就咁用API call,Cline會唔work,你用落有冇問題?
2024-11-22 07:15:29
第一次聽,source?
2024-11-22 08:36:33
我玩ff14翻譯新劇情都係用llm
唔知點解m2 pro macbook host同一個model快過我pc用3080gpu
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞