另外,其實想自己benchmark個setup
但唔知點解benchmark時會炒車最近忙 未有時間研究
benchmark tools:
https://github.com/EleutherAI/lm-evaluation-harness
Model我而家用緊Qwen2.5-coder,係alibaba整既,community都話佢係現時最強self hosted coding model
gguf
quantization versionQ4
或以上既variant:我理解低過Q4
既話output質素會大幅下降exl2
既話好似係至少4.0bpw?呢個我唔肯定)gguf
既話 backend用ollama就得 setup非常簡單的Qwen/Qwen2.5-Coder-32B-Instruct
ollama run <model name>:<branch>
就得。gguf
版本以降低VRAM usage(不過會gen得好慢,聽講係一分鐘以上gen一張