啱啱research咗,大概了解幾大公司既LLM,如果有錯請更正:
Google - Gemini
OpenAi - chatGPT 3.5, 4, 4o, 4o-mini
Anthropic - Claude 3/3.5 Sonnet etc
Meta - LLaMa 3/3.1/3.2
Microsoft - Copilot
以上係美國公司主導既LLM,有好多其他地方整既model,例如你提到既Qwen 屬於 alibaba,每個model都用各自既dataset去train,所以各有長短處。有D係 logic and reasoning勁D,有D係sunmaries勁D,etc。
再來係你地講咩3B/7B/13B,原來你地係講緊要來train個model既parameter數據量,B=億,13B=13億個parameter。當然,唔係數據量越多就越準確,GPT3/4好似話用咗千幾億個parameter去train,但LLaMa就用咗幾十億only,但out perform前者係某D方面。
(以上理解啱唔啱?)