Claude Sonnet 3.7 released

75 回覆
14 Like 2 Dislike
2025-02-25 23:05:40
我係用GUI多,俾盡都係20 USD左右,相比起佢地嘅作用,哩少少錢好抵。ChatGPT/Claude都sub左成年。

Claude個MCP/Project介面,以至佢對prompt嘅理解,對比之下好難完全用o3-mini取代到。
2025-02-25 23:07:10
冇用過POE個API,用開OpenRouter,VSCode Cline對佢嘅support唔錯。
2025-02-26 00:32:56
Sonnet-3.7 is best non-thinking model in the Misguided Attention eval.

Misguided Attention is a collection of prompts to challenge the reasoning abilities of large language models in presence of misguiding information. It consists of slightly modified well known logical problems and riddles. Many model are overfit to these problems and will therefore report a response to the unmodified problem.

Claude-3.7-Sonnet was evaluated in the non-thinking mode in the long eval with 52 prompt. It almost beats o3-mini despite not using the thinking mode. This is a very impressive result.

https://www.reddit.com/r/LocalLLaMA/comments/1ixfbzd/sonnet37_is_best_nonthinking_model_in_the/

2025-02-26 00:56:56
做護士
不過驚血所以唔做,唯有去澳洲做藍領,
2025-02-26 09:27:13
想唔長開vpn用係咪得poe做到?
2025-02-26 12:14:05
OpenRouter (+local OpenWebGUI client)
2025-02-26 13:15:17
Anthropic 用《寶可夢 紅版》來比較旗下模型有多聰明
https://hk.news.yahoo.com/anthropic-%E7%94%A8%E5%AF%B6%E5%8F%AF%E5%A4%A2-%E7%B4%85%E7%89%88%E4%BE%86%E6%AF%94%E8%BC%83%E6%97%97%E4%B8%8B%E6%A8%A1%E5%9E%8B%E6%9C%89%E5%A4%9A%E8%81%B0%E6%98%8E-103254513.html


Anthropic 今天稍早發表其最新的 Claude 3.7 Sonnet 模型時有說過,他們在開發時採取了不同的訓練策略,降低在數學和電腦科學競賽問題方面的特化程度。那如果不用這些題庫的話,要如何才能展現 Claude 3.7 Sonnet 的「思考」能力呢?答案就是寶可夢了。

不,這不是開玩笑。Anthropic 表示,他們為模型配備了基本的記憶體、螢幕讀取等能力,並且可以透過特定的程序「操縱」遊戲的按鍵,並且在螢幕上導航,讓它具備遊玩寶可夢的能力。Anthropic 用來測試的「標桿」,是第一代的《寶可夢 紅版》,從附圖上來看,最早的 3.0 Sonnet 連自家的大門都出不了,3.5 Sonnet 可以到常青森林,而 3.7 Sonnet 不僅跑得更遠,而且還能打贏三個神奇寶貝道館的館主。

Anthropic 提供的是總「動作數」,例如 3.7 Sonnet 一共花了 35,000 個「動作」才打敗馬志士,但這其實無法看出它一共花費了多少運算量,又或者中間有多少次嘗試失敗。而且,因為只有 Anthropic 在使用這個方式進行測定,因此也無法和其他模型進行比較。不過,現在 Anthropic 開了這個先河之後,推理模型可以在寶可夢紅版裡跑多遠,用多快的速度跑完,大概未來有機會變成一個挑戰項目了吧?
2025-02-26 13:34:25
AWS Bedrock用緊
好正
2025-02-26 13:53:29
真係好撚正
琴晚我由0好似整我自己嘅簡單結婚網站,佢一開始已經識揀字體,排版,配色
到後面要加popup, embed google map, google form, 每樣都係一個prompt搞掂晒
佢而家仲會識反覆check有無lint/type error, 之後先比你
最後我3個鐘就搞掂晒訓得覺
subscribe cursor係我用得最抵嘅$20usd
2025-02-26 13:54:18
好似 開始
2025-02-26 13:58:28
唔同的
2025-02-26 16:24:12
仲未dumb down之前

巴打識野 刷完BENHCMAKR 紅左等人地駁晒API
就會開始TURN 廢佢慳inference cost
2025-02-26 16:27:09
頭幾日俾你benchmark梗係要full precision ,之後佢點quant 法真係冇人知。

Reddit好多人都覺得佢時好時壞
2025-02-26 16:28:36
Cursor + Sonnet 3.7真係好無敵。
2025-02-26 16:41:32
IT狗用緊gemini flash 2.0$0.4/M output tokens入$5美金用到天荒地老
2025-02-26 16:50:01
Sub 左一年Claude , 最強寫code 神器,不過好快爆daily limited , reddit 屌哂鬼
所以通常都用ChatGPT 頭,Claude 埋尾…
本身都諗sub 多個月,用grok3 試吓….出埋3.7 真係唔會轉會….

Btw , 用Deepseek 寫code 真係一般, think think think think 我覺得佢諗多咗….
2025-02-26 17:22:24
但係sonnet 3.5 改廢改得好過份 上個星期簡直廢到好似chatgpt 3.5 turbo個經典version咁
o1 又係改廢左 天下烏鴉一樣黑
2025-02-26 17:22:43
呢個暫時幾好用 未改廢
2025-02-26 17:29:15
搭單一問
香港用唔用到 Claude? 之前聽啲師兄講話開咗VPN都唔得
2025-02-26 21:38:40
officially 係block左,
但可以經OpenRouter用佢API。
2025-02-26 21:54:08

尋晚出咗https://codeassist.google/products/business?hl=zh_tw

幾乎完全免費,應該係用緊2.0pro 嗰個Model
2025-02-26 21:57:58
要試下先知,so far Gemini用落都係麻麻地,Claude爆左我寧願用返o3-mini。
2025-02-26 22:09:56
2025-02-26 22:11:19
Claude叫佢寫code成日hea寫
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞