Claude Sonnet 3.7 released

大棍巴

115 回覆

22 Like 2 Dislike

大棍巴 2025-02-25 23:05:40

我係用GUI多，俾盡都係20 USD左右，相比起佢地嘅作用，哩少少錢好抵。ChatGPT/Claude都sub左成年。

Claude個MCP/Project介面，以至佢對prompt嘅理解，對比之下好難完全用o3-mini取代到。

大棍巴 2025-02-25 23:07:10

冇用過POE個API，用開OpenRouter，VSCode Cline對佢嘅support唔錯。

大棍巴 2025-02-26 00:32:56

Sonnet-3.7 is best non-thinking model in the Misguided Attention eval.

Misguided Attention is a collection of prompts to challenge the reasoning abilities of large language models in presence of misguiding information. It consists of slightly modified well known logical problems and riddles. Many model are overfit to these problems and will therefore report a response to the unmodified problem.

Claude-3.7-Sonnet was evaluated in the non-thinking mode in the long eval with 52 prompt. It almost beats o3-mini despite not using the thinking mode. This is a very impressive result.

https://www.reddit.com/r/LocalLLaMA/comments/1ixfbzd/sonnet37_is_best_nonthinking_model_in_the/

金黃閃電 2025-02-26 00:56:56

做護士

不過驚血所以唔做

，唯有去澳洲做藍領，

Pneuma 2025-02-26 09:27:13

想唔長開vpn用係咪得poe做到？

大棍巴 2025-02-26 12:14:05

OpenRouter (+local OpenWebGUI client)

大棍巴 2025-02-26 13:15:17

Anthropic 用《寶可夢紅版》來比較旗下模型有多聰明
https://hk.news.yahoo.com/anthropic-%E7%94%A8%E5%AF%B6%E5%8F%AF%E5%A4%A2-%E7%B4%85%E7%89%88%E4%BE%86%E6%AF%94%E8%BC%83%E6%97%97%E4%B8%8B%E6%A8%A1%E5%9E%8B%E6%9C%89%E5%A4%9A%E8%81%B0%E6%98%8E-103254513.html

Anthropic 今天稍早發表其最新的 Claude 3.7 Sonnet 模型時有說過，他們在開發時採取了不同的訓練策略，降低在數學和電腦科學競賽問題方面的特化程度。那如果不用這些題庫的話，要如何才能展現 Claude 3.7 Sonnet 的「思考」能力呢？答案就是寶可夢了。

不，這不是開玩笑。Anthropic 表示，他們為模型配備了基本的記憶體、螢幕讀取等能力，並且可以透過特定的程序「操縱」遊戲的按鍵，並且在螢幕上導航，讓它具備遊玩寶可夢的能力。Anthropic 用來測試的「標桿」，是第一代的《寶可夢紅版》，從附圖上來看，最早的 3.0 Sonnet 連自家的大門都出不了，3.5 Sonnet 可以到常青森林，而 3.7 Sonnet 不僅跑得更遠，而且還能打贏三個神奇寶貝道館的館主。

Anthropic 提供的是總「動作數」，例如 3.7 Sonnet 一共花了 35,000 個「動作」才打敗馬志士，但這其實無法看出它一共花費了多少運算量，又或者中間有多少次嘗試失敗。而且，因為只有 Anthropic 在使用這個方式進行測定，因此也無法和其他模型進行比較。不過，現在 Anthropic 開了這個先河之後，推理模型可以在寶可夢紅版裡跑多遠，用多快的速度跑完，大概未來有機會變成一個挑戰項目了吧？

施啲Rom 2025-02-26 13:34:25

AWS Bedrock用緊
好正

ぱないの 2025-02-26 13:53:29

真係好撚正
琴晚我由0好似整我自己嘅簡單結婚網站，佢一開始已經識揀字體，排版，配色
到後面要加popup, embed google map, google form, 每樣都係一個prompt搞掂晒
佢而家仲會識反覆check有無lint/type error, 之後先比你
最後我3個鐘就搞掂晒訓得覺
subscribe cursor係我用得最抵嘅$20usd

ぱないの 2025-02-26 13:54:18

好似開始

野原新之肋 2025-02-26 13:58:28

唔同的

大棍巴 2025-02-26 14:53:23

得閒得滯，可以睇吓直播

https://m.twitch.tv/claudeplayspokemon?desktop-redirect=true&fbclid=IwZXh0bgNhZW0CMTEAAR0Ad6mUrnCFLQwZoUb1x20rvStfA2esX-eRoNj_ahlPRLGEmM0HCdQFyEg_aem_dzuts4a4_oBl-PXfP1qgGQ

六環彩大師 2025-02-26 16:24:12

仲未dumb down之前

巴打識野刷完BENHCMAKR 紅左等人地駁晒API
就會開始TURN 廢佢慳inference cost

大棍巴 2025-02-26 16:27:09

頭幾日俾你benchmark梗係要full precision ，之後佢點quant 法真係冇人知。

Reddit好多人都覺得佢時好時壞

我是鬼 2025-02-26 16:28:36

Cursor + Sonnet 3.7真係好無敵。

港女洋腸夢 2025-02-26 16:41:32

IT狗用緊gemini flash 2.0

$0.4/M output tokens入$5美金用到天荒地老

WE_CONNECT 2025-02-26 16:50:01

Sub 左一年Claude , 最強寫code 神器，不過好快爆daily limited ， reddit 屌哂鬼
所以通常都用ChatGPT 頭，Claude 埋尾…
本身都諗sub 多個月，用grok3 試吓….出埋3.7 真係唔會轉會….

Btw , 用Deepseek 寫code 真係一般, think think think think 我覺得佢諗多咗….

六環彩大師 2025-02-26 17:22:24

但係sonnet 3.5 改廢改得好過份上個星期簡直廢到好似chatgpt 3.5 turbo個經典version咁
o1 又係改廢左天下烏鴉一樣黑

六環彩大師 2025-02-26 17:22:43

呢個暫時幾好用未改廢

沉默被人當契弟 2025-02-26 17:29:15

搭單一問
香港用唔用到 Claude? 之前聽啲師兄講話開咗VPN都唔得

大棍巴 2025-02-26 21:38:40

officially 係block左，
但可以經OpenRouter用佢API。

港女洋腸夢 2025-02-26 21:54:08