有人反向探測GPT-4o所使用的中文訓練資料集...
誠哥走得快
9 回覆
17 Like
0 Dislike
誠哥走得快
2024-05-15 00:48:36
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。
開市大賭王
2024-05-15 00:58:37
中文本來就無咩資料
之前百度又delete左一大批貼吧文章
新聞無耐又會落架
少少政治唔正確既文章又落架又封禁
有敏感詞又顯示唔到
結果係無咩正常資料可以用到
只有大量黨八股、新華社公告果d
用chatgpt就用英文啦
中文唔適合
黑膠蠍
2024-05-15 01:40:34
大部份ai用既中文文庫都係殘體字
就算係繁體好多文章都只係直接簡轉繁再拎去train
誠哥走得快
2024-05-15 01:47:48
成日傾傾下佢自己用返殘體 要屌鳩佢
素食狗狗
2024-05-15 12:12:02
我用好小會,你地用咩
章魚一味
2024-05-15 20:23:05
garbage in garbage out
三皮(牛回速歸)
2024-06-08 21:47:37
有無得反向探測text to image diffusion model用咩圖train
我有d好邪惡既hypothesis
結城友奈是勇者
2024-06-08 21:57:39
呢個就係對付AI既思路
大量垃圾信號
去癱瘓AI功能
甚至用AI去產生天文數字中英文錯誤信息
用LLM對付LLM
同時不斷干擾 (例如正確答案回報錯誤干擾)
(都唔係單單對付AI
人都係一個處理咁做
用某類事件去干擾 好似政治事件時明星黃賭毒,戰場失利就象徵性動作)
真係唔
2024-06-09 09:45:53
隨時AI當d濕9 content farm先係正確資料
第 1 頁
吹水台
自選台
熱 門
最 新
手機台
時事台
政事台
World
體育台
娛樂台
動漫台
Apps台
遊戲台
影視台
講故台
健康台
感情台
家庭台
潮流台
美容台
上班台
財經台
房屋台
飲食台
旅遊台
學術台
校園台
汽車台
音樂台
創意台
硬件台
電器台
攝影台
玩具台
寵物台
軟件台
活動台
電訊台
直播台
站務台
黑 洞