唔識扮識既出晒黎
最好笑就明明weight同paper已經貼晒出黎,有人係到話人地backend駁其他ai api;
跟住成本低就想話人走咩捷徑,大大隻fp8 training/moe唔識點解;
然後又想老屈人地係finetune咩「用其他pretraining model」,但成個internet根本冇671b/38b既llm比佢,其實paper寫到咩pretraining用左幾多gpu hour;
最後又諗住用成本1/10 nvda股價一定大跌,但nvda股價冇跌就覺得間公司做假,覺得搵到方法training efficiency up = nvda會破產,其他ai公司會即刻執笠而唔train新model
為左否定人地努力 果條友真係好努力

