話說最近真係將self hosted AI帶入工作上

極北鷲 2024-11-22 13:05:04

遲D可能會寫篇blogpost

章魚一味 2024-11-22 13:12:06

搞咁多野直接叫老細俾錢

ai + vpn 都出公司數
反正你都要經佢同意又要驚動其他部門先用到

Peter_Pan 2024-11-22 14:20:04

會唔會係本身我部pc開緊隻game食左一大部分resource所以唔夠m2 pro快

極北鷲 2024-11-22 14:53:13

err...你試下齋行個LLM咪知

Peter_Pan 2024-11-22 15:07:59

如果用pc host就一定唔會齋行，因為要開住隻game黎打

所以而家我都係攞部mac host個翻譯model算

PLTR 2024-11-22 15:23:52

我都有self host ollama做code completion，用緊starcoder2，qwen都有試過，但係啲result出黎on99咁樣

極北鷲 2024-11-22 15:32:04

可以試多次qwen2.5 coder instruct

呢個係而家最勁個款有7B/14B/32B你揀

PLTR 2024-11-22 15:35:13

自膠

原來我用左qwen2.5做cose completion，一陣試多次

PLTR 2024-11-22 15:40:39

ching用緊邊隻翻譯model

Peter_Pan 2024-11-22 15:41:51

sakurallm

大棍巴 2024-11-22 17:30:01

可以再壓下個成本：

https://www.tomshardware.com/raspberry-pi/raspberry-pi-5-successfully-accelerates-llms-using-an-egpu-and-vulkan?utm_medium=social&utm_campaign=socialflow&utm_source=facebook.com&utm_content=tomsguide

極北鷲 2024-11-22 17:43:20

我覺得唔work, RPI個PCIE bandwidth好低(好似係PCIE 2.0 x1), 會唔會影響埋inference speed?

(btw 原來Nvidia有ARM64既driver)

掏龍刀 2024-11-22 17:56:49

gchi

大棍巴 2024-11-22 18:17:09

單張GPU你load完個model，PCI-E speed 應該就唔重要。如果會行RAG就另一回事。

殺賊 2024-11-22 20:08:07

買Mac mini m4 pro 行llm 值唔值

大棍巴 2024-11-23 12:19:40

除非你想行24GB VRAM以上嘅model，如果你本身有電腦，差唔多錢，買3090/4090會快好多。
Apple Silicon嘅問題係，比你M4 Pro (276 GB/s bandwidth)就算行到大size model都會好慢。

六環彩大師 2024-11-23 12:24:19

Qwen 2.5-coder 有冇fill in the middle
冇跟幾個月了

大棍巴 2024-11-23 12:35:05

Coder model應該全部都有
https://github.com/QwenLM/Qwen2.5-Coder/tree/main

六環彩大師 2024-11-23 12:39:04

之前玩過codellama 第一代
用ollama serve 連vscode extension
煩過西最後都係sub github copilot 算鳩數果小小錢

加上果時codellama 係垃圾過github copilot
而家見qwen 2.5 好似已經過左兩代可以再試下

全倉NVDA 2024-11-23 14:25:59

我都想 self host 但 qwen 暫時仲係廢過 claude 好多
meta llama 更加係廢到不得了
如果有個model有 claude 8成就真係不得了

全倉NVDA 2024-11-23 14:27:49

codellama 係咪用 meta llama
呢個真係 model 問題
成個on9仔咁
qwen算係進步左好多
不過都未去到出面啲 level

大棍巴 2024-11-23 14:53:21

就咁coding Qwen 2.5 Coder 32B其實都有八成，差在context得32k。

Aider leaderboard
https://aider.chat/docs/leaderboards/#code-editing-leaderboard

Livebench(㩒返coding 個column)
https://livebench.ai/#/

托德華納 2024-11-23 15:25:32

我依家用緊open web ui + cloudflared 個setup 再捆綁google account

個底係晒docker 一個docker compose搞掂

旋風管家一拳超人 2024-11-23 15:50:26

copilot chat無得用住

所以enable左都唔知係咪用緊

debugger; 2024-11-23 17:34:22

真