話說最近真係將self hosted AI帶入工作上

極北鷲

269 回覆

82 Like 41 Dislike

極北鷲 2024-11-22 00:24:01

另外，其實想自己benchmark個setup
但唔知點解benchmark時會炒車

最近忙未有時間研究

benchmark tools:
https://github.com/EleutherAI/lm-evaluation-harness

諸如此類 2024-11-22 00:26:38

Model我而家用緊Qwen2.5-coder，係alibaba整既，community都話佢係現時最強self hosted coding model

此post已完

細滴大雨雲 2024-11-22 00:27:09

留名明天睇

品客薯條 2024-11-22 00:28:19

Alibaba

極北鷲 2024-11-22 00:30:46

唔用qwen既話我都唔知用邊個我都係睇鬼佬推薦
老實講我冇follow self hosted LLM一段時間上次聽話最勁既係codestral 你可以睇下
Model可以任轉，唔影響backend/frontend運作的

極北鷲 2024-11-22 00:37:22

冇GPU 或 GPU VRAM少既人請用gguf quantization version
佢可以用CPU+RAM去行隻AI，同時都可以offload部分layer比你個GPU以加快inference speed

不過要揀就揀Q4或以上既variant：我理解低過Q4既話output質素會大幅下降
(exl2既話好似係至少4.0bpw？呢個我唔肯定）

同埋用gguf既話 backend用ollama就得 setup非常簡單的
https://ollama.com/

茫茫星海 2024-11-22 00:40:18

唔太識，想問用chatgpt 有冇分別？

極北鷲 2024-11-22 00:42:37

想搵quantized version of a model既方法係去huggingface搵返個base model既repo先，例如我係Qwen/Qwen2.5-Coder-32B-Instruct

網頁右邊有hyperlink比你快速搵finetune/quantized version:

用ollama既話就唔洗：你直接行ollama run <model name>:<branch>就得。
ollama model list:
https://ollama.com/search

極北鷲 2024-11-22 00:43:54

分別係chatgpt係OpenAI host既，呢個就係我自己host既

你可以理解做私人版chatgpt

大王子小王子 2024-11-22 00:47:52

呢個可唔可以gen圖, 例如講一大段野, gen個mindmap出黎

標槍佬會攪掂 2024-11-22 00:52:09

https://x.com/bnjmn_marie/status/1850805329610625355

蛋散一舊飯 2024-11-22 00:52:43

你不如直接用cursor 算啦，自己host 個api server咁麻煩，啲model又係咁出新款，咪要係咁patch

極北鷲 2024-11-22 00:52:56

呢個gen唔到圖

gen圖我冇特別研究過，應該要用comfyui/forge （呢兩個都係包曬backend+frontend）

現時新鮮滾熱辣既model係Stable Diffusion 3.5同埋Flux，兩個都有gguf版本以降低VRAM usage（不過會gen得好慢，聽講係一分鐘以上gen一張

舊D既話，SDXL都用得

極北鷲 2024-11-22 00:56:26