話說最近真係將self hosted AI帶入工作上

極北鷲

269 回覆

82 Like 41 Dislike

fufuying 2024-11-28 23:09:40

公司有4部機有8張A100, 用嚟比員工self hosted LLM 駁editor 做autocomplete同埋open-webui, 已經玩左大半年, coding嚟講mistral-large同qwen2.5-coder都幾好, 之前試過llama 405b但太慢

CapaCitor 2024-11-28 23:58:30

鬼佬d regulation野好麻煩
成日俾人話privacy 又right野

大陸d data基本上任用
淨屈data呢下點都勁好多

大棍巴 2024-11-29 00:24:57

遲啲我地都有部A6000Ada x4嘅機專做LLM inference。
你係每部機兩張，定每部八張A100？想知你地點做scaling/load balance。

我而家諗緊應該點set俾一條10個人左右嘅team用好。
假設我行Qwen 2.5 32B coder，每張咭都可以各自load哂成個model。如果我攞哂4張行tensor parallelism，多人用嘅話，效能會唔會不及我每張咭獨自行一個model，再base on loading去allocate邊個用邊張咭？

媽咪學校有人嘔啊 2024-11-29 00:32:37

教馬騮寫字 2024-11-30 18:13:35

Qwen/Qwq-32b-Preview 好似好勁，就係淨係出簡體字

17號 2024-11-30 19:36:39

呢個簡單d 大部人都用到
https://msty.app

印鈔機CEO 2024-12-03 00:11:28

人到更年期 2024-12-03 06:01:12

初初入來認識ai，太複雜好多名詞

淨係咁多款LLM model又gwan又claude又gpt已經頭都大埋，點樣由低學起？

最終係想做到self host AI，但首先睇來要惡補晒所有現有既web AI關係先

由於工作冇接觸關係，加上hk ban咗openAI，一路冇動力去了解，最近終於的起心肝去學，但一日千里太多資訊⋯

想從基本學起，有冇D beginner friendly既教學？

九千世界 2024-12-03 06:35:06

淨係個continue 咁垃圾就已經搞唔掂。俾埋open AI個model你都冇用。

搞黎搞去不如俾少少錢人地專業既。
你話研究下冇所謂姐，但你用黎開工就食得屎，出黎既質量差，拖慢晒成件事。

利申:用過continue 自己local host過，api key 又試過都係
差

大棍巴 2024-12-03 08:10:47

視乎你有幾熟IT嘢，最簡單可以由GUI software (frontend+backend)，例如LM Studio玩起。但我覺得佢嘅API support有啲奇怪，假設你玩熟左想host server for API access，可以用返Ollama.

之後想提升performance，可以考慮其他backend，例如vLLM/ExallamaV2。

LLM指嘅係model本身，例如我地講Linux distribution 。
Qwen係個LLM嘅名，等如Ubuntu咁。

Claude，GPT係brand name，Claude旗下有幾個LLM，例如Sonnet, Haiku。Claude係由Anthropic間公司design同train出來。
GPT就來自OpenAI，旗下嘅GPT-4o/GPT-o1相當於Claude Sonnet/Haiku，係OpenAI design加train出來嘅LLM。

以上哩堆嘢，其實你如果有GPT/Claude subscriptions ，你根本唔洗喺到問，你一問LLM，解得重清楚過我。所以我先覺得香港嘅LLM literacy 好大鑊，有乜唔識，好多人重未係第一時間諗到可以問LLM。

大棍巴 2024-12-03 08:13:44

有冇玩過Cline+Qwen 2.5?
Cline我覺得做得好過Continue，不過就冇autocomplete 。
Self-hosted model來講，Qwen 2.5比起舊底嘅model進步左好多，值得試下。

當然我認同如果公司容許，直接用Sonnet API會係最好。

片皮鴨 2024-12-03 09:11:48

九千世界 2024-12-03 10:21:35

冇用過Cline，但冇autocomplete 已經唔想試

公司唔用得Github copilot / cursor ide 都唔知點開工。宜家冇autocomplete 係做唔到野

極北鷲 2024-12-03 10:35:35

我又唔覺得質量差喎

你上次slef host係幾時？
可以試下qwen2.5 coder 32b

大棍巴 2024-12-03 10:39:35

你其實可以用Cursor+self host，不過要經一經個network咁解，因為Cursor唔俾就咁用localhost，但唔理你個API邊到來。

極北鷲 2024-12-03 10:39:38

gen字only
ML investing應該同呢個post冇咩關係

我亦唔識

印鈔機CEO 2024-12-03 11:08:42

好唔該哂巴打

人到更年期 2024-12-03 11:12:54

啱啱research咗，大概了解幾大公司既LLM，如果有錯請更正：
Google - Gemini
OpenAi - chatGPT 3.5, 4, 4o, 4o-mini
Anthropic - Claude 3/3.5 Sonnet etc
Meta - LLaMa 3/3.1/3.2
Microsoft - Copilot

以上係美國公司主導既LLM，有好多其他地方整既model，例如你提到既Qwen 屬於 alibaba，每個model都用各自既dataset去train，所以各有長短處。有D係 logic and reasoning勁D，有D係sunmaries勁D，etc。

再來係你地講咩3B/7B/13B，原來你地係講緊要來train個model既parameter數據量，B=億，13B=13億個parameter。當然，唔係數據量越多就越準確，GPT3/4好似話用咗千幾億個parameter去train，但LLaMa就用咗幾十億only，但out perform前者係某D方面。

（以上理解啱唔啱？）

大棍巴 2024-12-03 11:22:31

大致上係咁，稍為可以指正嘅係B=10^9=1,000,000,000=十億，
GPT-3之後，GPT-4/4o有幾多B parameters並冇公開過，所以都應該係speculation 來。

其實唔洗太在意一開始熟哂啲terms，上多啲Reddit r/localllama，自己得閒又試下，自然會熟。

人到更年期 2024-12-03 11:36:08

多謝你回覆，依家係啱啱作為用家試吓先，因為我初用，就算用chatGPT4 免費版都覺得好好用，未應用到咩情況要俾錢用GPT-4o。

因為暫時見有咁多model（GPT-4，Claude，Copilot，etc）我是但問一個，例如MS copilot都答得我好詳盡，但又唔駛搞VPN，外國電話subscribe咁多嘢。

但係我係對自己set up個local LLM好有興趣，其實想知內理點train，點運作多D，唔想blackbox咁用。

我自己係想要個ai輔助我寫code，暫時未識set up，見vs code extension入面有github copilot（又係要俾錢），但見你又話可以自制LLM front-end，back-end寫code，好想知個分別，唔敢亂俾錢住，想體驗吓啱唔啱用先

大棍巴 2024-12-03 11:42:14

個個都話power by OpenAI，但又好似唔係OpenAI旗下既網，咁如果係個平台付費用chatGPT，係邊個收錢？

佢地係好似POE咁，經API去用OpenAI個model 做inference，再自己寫個website去包裝下，可能加下custom features例如web search，或者類似RAG(唔肯定有冇網咁做。

Powered by OpenAI其實冇講錯，不過大部分人都可能prefer唔經佢地，直接用返ChatGPT個webUI，又或者自己寫個program用API。

至於POE點解香港用到，正如你講咁，佢做左類似proxy嘅角色，將你嘅request經API俾左OpenAI，OpenAI唔會知你係咪來自banned regions。我估可以OpenAI嘅EULA本身係唔容許，只係隻眼開隻眼閉。

大棍巴 2024-12-03 11:48:44

最平嘅玩法係
1. 用Visual Studio Code，然後裝Cline/Continue等Extension
2. 喺OpenRouter開個account，然後攞條API key。放落Cline到，揀Qwen 2.5 72B做model 。

以上可以俾你體驗下用LLM輔助coding會點，用OpenRouter+Qwen 2.5比起直接用Claude Sonnet平5-10倍，但質素有七至八成。

玩到LLM嘅GPU唔平，除非有閒錢，又已經熟點set，否則可以一步步來，從API玩起。當你玩熟，覺得可以自己host，先至買GPU搞都未遲。

3HongKong 2024-12-03 13:58:38

睇完大家分享, 我都嘗試下自己host 個model 玩下
黎緊公司有部4060 laptop 應該夠入門玩下掛

不過我比較perfer 係gen 圖, 慢唔緊要, gen 到就OK

極北鷲 2024-12-03 19:41:35

我都想學gen圖
不過唔係gen丁圖而係gen blog thumbnail圖

第 1 頁第 2 頁第 3 頁第 4 頁第 5 頁第 6 頁第 7 頁第 8 頁第 9 頁第 10 頁第 11 頁

吹水台自選台熱　門最　新手機台時事台政事台 World 體育台娛樂台動漫台 Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑　洞