首先我只係user,唔係哩個field嘅researcher,我都係道聽塗說
我自己會傾向於用測試嘅方法去睇,即係類似Turing test咁。如果個model做到近似,甚至超越人類嘅reasoning capabilities,佢本身點做到咁,係咪同人類同一個approach並唔重要。我會覺得佢有reasoning。
但個問題正正係,應該點去evaluate先準確?
冇錯o1-preview已經可以答到好多高中,甚至大學研究生都唔識嘅數學問題,但同時又可以答錯好多簡單如strawberry數r咁嘅問題,或者number of sister 哩種(上面條Reddit link有講,QwQ好似答到)。
暫時我覺得好多logical reasoning 都係train出來,去解答部份有代性嘅問題,未去到一個有general logic嘅地步。
要scale up個capability等佢可以更general,唔知仲可以依賴增加parameter幾耐,都有好多跡象顯示LLM個發展已經開始慢落來。將來要再有突破,或者需要一個replace到transformer嘅architecture。