行LLM留意三點
1. VRAM size,決定你可以放幾大嘅model,以及行幾高quantization。Apple Silicon unified memory哩點有優勢
2. GPU speed,決定prompt processing (PP),等幾耐個model先會開始覆你。
3. Memory bandwidth,決定token generation (TG),大約每秒出到幾多隻字。
Mac雖然VRAM夠多,但M4 Max嘅memory bandwidth都只係去到5xxGB/s,比3090慢一倍。M4 Pro就得返一半,273 GB/s,M4就得1/4,120 GB/s。
Apple Silicon行LLM更大問題係PP好慢,基本上Max都慢3090 4-5倍,即係大model+long context,你可能要等幾分鐘先有嘢出。
可以參考下:
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
我覺得新chips要上到M4 Max先夠快行到下32B Q4嘅model。暫時打code真係好有用,都要去到Qwen 2.5 32B。