有人反向探測GPT-4o所使用的中文訓練資料集...

誠哥走得快

9 回覆
17 Like 0 Dislike
誠哥走得快 2024-05-15 00:48:36
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。

開市大賭王 2024-05-15 00:58:37
中文本來就無咩資料
之前百度又delete左一大批貼吧文章
新聞無耐又會落架
少少政治唔正確既文章又落架又封禁
有敏感詞又顯示唔到

結果係無咩正常資料可以用到
只有大量黨八股、新華社公告果d

用chatgpt就用英文啦
中文唔適合
黑膠蠍 2024-05-15 01:40:34
大部份ai用既中文文庫都係殘體字
就算係繁體好多文章都只係直接簡轉繁再拎去train
誠哥走得快 2024-05-15 01:47:48
成日傾傾下佢自己用返殘體 要屌鳩佢
素食狗狗 2024-05-15 12:12:02
我用好小會,你地用咩
章魚一味 2024-05-15 20:23:05
garbage in garbage out
三皮(牛回速歸) 2024-06-08 21:47:37
有無得反向探測text to image diffusion model用咩圖train
我有d好邪惡既hypothesis
結城友奈是勇者 2024-06-08 21:57:39
呢個就係對付AI既思路
大量垃圾信號去癱瘓AI功能
甚至用AI去產生天文數字中英文錯誤信息
用LLM對付LLM
同時不斷干擾 (例如正確答案回報錯誤干擾)

(都唔係單單對付AI
人都係一個處理咁做
用某類事件去干擾 好似政治事件時明星黃賭毒,戰場失利就象徵性動作)
真係唔 2024-06-09 09:45:53
隨時AI當d濕9 content farm先係正確資料
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞