話說最近真係將self hosted AI帶入工作上

252 回覆
79 Like 40 Dislike
2024-11-22 13:05:04
遲D可能會寫篇blogpost
2024-11-22 13:12:06
搞咁多野直接叫老細俾錢
ai + vpn 都出公司數
反正你都要經佢同意又要驚動其他部門先用到
2024-11-22 14:20:04
會唔會係本身我部pc開緊隻game食左一大部分resource所以唔夠m2 pro快
2024-11-22 14:53:13
err...你試下齋行個LLM咪知
2024-11-22 15:07:59
如果用pc host就一定唔會齋行,因為要開住隻game黎打

所以而家我都係攞部mac host個翻譯model算
2024-11-22 15:23:52
我都有self host ollama做code completion,用緊starcoder2,qwen都有試過,但係啲result出黎on99咁樣
2024-11-22 15:32:04
可以試多次qwen2.5 coder instruct呢個係而家最勁個款 有7B/14B/32B你揀
2024-11-22 15:35:13
自膠 原來我用左qwen2.5做cose completion,一陣試多次
2024-11-22 15:40:39
ching用緊邊隻翻譯model
2024-11-22 15:41:51
sakurallm
2024-11-22 17:43:20
我覺得唔work, RPI個PCIE bandwidth好低(好似係PCIE 2.0 x1), 會唔會影響埋inference speed?

(btw 原來Nvidia有ARM64既driver)
2024-11-22 17:56:49
gchi
2024-11-22 18:17:09
單張GPU你load完個model,PCI-E speed 應該就唔重要。如果會行RAG就另一回事。
2024-11-22 20:08:07
買Mac mini m4 pro 行llm 值唔值
2024-11-23 12:19:40
除非你想行24GB VRAM以上嘅model,如果你本身有電腦,差唔多錢,買3090/4090會快好多。
Apple Silicon嘅問題係,比你M4 Pro (276 GB/s bandwidth)就算行到大size model都會好慢。
2024-11-23 12:24:19
Qwen 2.5-coder 有冇fill in the middle
冇跟幾個月了
2024-11-23 12:35:05
2024-11-23 12:39:04
之前玩過codellama 第一代
用ollama serve 連vscode extension
煩過西最後都係sub github copilot 算鳩數 果小小錢

加上果時codellama 係垃圾過github copilot
而家見qwen 2.5 好似已經過左兩代 可以再試下
2024-11-23 14:25:59
我都想 self host 但 qwen 暫時仲係廢過 claude 好多
meta llama 更加係廢到不得了
如果有個model有 claude 8成就真係不得了
2024-11-23 14:27:49
codellama 係咪用 meta llama
呢個真係 model 問題
成個on9仔咁
qwen算係進步左好多
不過都未去到出面啲 level
2024-11-23 14:53:21
就咁coding Qwen 2.5 Coder 32B其實都有八成,差在context得32k。

Aider leaderboard
https://aider.chat/docs/leaderboards/#code-editing-leaderboard

Livebench(㩒返coding 個column)
https://livebench.ai/#/
2024-11-23 15:25:32
我依家用緊open web ui + cloudflared 個setup 再捆綁google account
個底係晒docker 一個docker compose搞掂
2024-11-23 15:50:26
copilot chat無得用住

所以enable左都唔知係咪用緊
2024-11-23 17:34:22
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞