OpenAI 推出最具成本效益的小型模型 GPT-4o mini,表現完勝其他品牌同級模型

9 回覆
4 Like 2 Dislike
2024-07-21 21:17:13
OpenAI 宣布推出其最具成本效益的小型模型 GPT-4o mini,旨在使人工智慧技術更廣泛地普及應用。該模型在 MMLU 測試中得分達 82%,並在 LMSYS 排行榜上的聊天偏好表現上優於 GPT-4。

GPT-4o mini 的定價為每百萬輸入 tokens 15 美分和每百萬輸出 tokens 60 美分,比以往的前沿模型便宜一個數量級,比 GPT-3.5 Turbo 便宜超過 60%。

目前 OpenAI 網頁版的 GPT-3.5 模型已退役,由 GPT-4o mini 取而代之。

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

https://www.facebook.com/startupgrandline/posts/pfbid0oFpA3PSSzERtuJQHKV7YGAjUXSttF1BbpFvdwGw3B68U8pyvEzG8scV2EDpRiyktl
2024-07-21 21:18:22
■ 多功能應用

GPT-4o mini 以其低成本和低延遲特性,使其能夠勝任多種任務,例如多個模型調用的串聯或並行應用、向模型提供大量上下文(如完整的代碼庫或對話歷史),以及與客戶的實時文本交互(如客服聊天機器人)。

目前GPT-4o mini 支持文本和視覺 API,未來將增加對文本、圖片、視頻和音頻輸入輸出的支持。該模型擁有 128K tokens 的上下文窗口,支持每次請求最多 16K 輸出 tokens,並擁有截至 2023 年 10 月的知識。改進的 tokenizer 使得處理非英文文本更加經濟高效。
2024-07-21 21:18:34
■ 文本智能和多模態推理表現卓越

GPT-4o mini 在學術基準測試中超越了 GPT-3.5 Turbo 和其他小型模型,展現了強大的文本智能和多模態推理能力。該模型支持與 GPT-4o 相同範圍的語言,在函數調用方面表現優異,能夠幫助開發者構建可與外部系統交互的應用。
2024-07-21 21:18:50
■ 關鍵基準測試結果

GPT-4o mini 在多項關鍵基準測試中表現出色。在 MMLU 測試中,該模型得分 82.0%,優於 Gemini Flash(77.9%)和 Claude Haiku(73.8%)。在數學和編碼能力方面,GPT-4o mini 在 MGSM 測試中得分 87.0%,在 HumanEval 測試中得分 87.2%,均超過其他小型模型。
2024-07-21 21:20:15
■ 合作夥伴和安全措施
OpenAI 與 Ramp 和 Superhuman 等公司合作,確保 GPT-4o mini 在實際應用中的性能優於 GPT-3.5 Turbo,特別是在從收據文件中提取結構化數據或在提供線索歷史時生成高質量電子郵件回覆等任務中。
安全性方面,GPT-4o mini 繼承了 GPT-4o 的安全緩解措施,並通過人類反饋強化學習等技術來提升模型的準確性和可靠性。

■ 可用性和定價
GPT-4o mini 現已在 Assistants API、Chat Completions API 和 Batch API 中可用。開發者的收費標準為每百萬輸入 tokens 15 美分和每百萬輸出 tokens 60 美分,相當於一本標準書籍約 2500 頁的內容。
OpenAI 計劃在接下來的日子裡推出 GPT-4o mini 的微調功能。ChatGPT 的免費、Plus 和團隊用戶今天起即可使用 GPT-4o mini,企業用戶將於下週起獲得訪問權限。
2024-07-21 21:21:04
2024-07-21 21:30:23
個表邊個整
佢個價好明顯係打緊sonnet 3.5
benchmark 唔夠人好就喺個表度對垃圾
2024-07-21 21:44:09
◆ 本文圖表以Claude 3.5 Sonnet自動生成
2024-07-22 10:25:25
平又點
用既token多咗
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞