探索 Claude Sonnet 3.5 和 Claude 3.5 Haiku 的最新功能與增強,包括性能提升、新功能和更友善的使用者更新。了解這些版本在高階 AI 詩歌工具領域的獨特之處。
性能改進
編碼能力
- SWE-bench Verified 分數從 33.4% 提升至 49.0%,超越其他公開可用模型
- 在代理工具使用任務 (TAU-bench) 中表現提升:
- 零售領域:從 62.6% 提升至 69.2%
- 航空領域:從 36.0% 提升至 46.0%
速度與效率
- 運行速度為 Claude 3 Opus 的兩倍
- 在改進的同時保持相同的成本結構
新功能
電腦使用 (公開測試版)
- 讓 Claude 能像人類一樣與電腦介面互動
- 能瀏覽螢幕、移動游標並輸入文字
- 在 OSWorld 基準測試中得分 14.9%,遠高於競爭對手的 7.7%
Artifacts 功能
- 為生成的內容創建專屬窗口
- 支援三種類型的 artifacts:
- 用於寫作任務的文字型
- 需要視覺元素的項目
- 用於開發工作的編碼型
模型變體
Claude 3.5 Sonnet
- 現已提供,性能在所有指標上均有提升
- 在研究生級推理和大學本科級知識方面表現卓越
- 改善了分析圖片和圖表的視覺能力
Claude 3.5 Haiku
- 新的具成本效益的模型,性能可媲美 Claude 3 Opus
- 在 SWE-bench Verified 上得分 40.6%
- 優化用於面向客戶的應用
Claude 3.5 Sonnet vs ChatGPT 4o vs Gemini 1.5 Pro
功能 | Claude 3.5 Sonnet | ChatGPT 4o | Gemini 1.5 Pro |
---|---|---|---|
多模態推理分數 | 0.92 | 0.90 | 0.89 |
OCR/手寫辨識 | 優秀 | 優秀 | 優秀 |
圖表/圖形解釋 | 出色 | 良好 | 良好 |
視覺數據處理 | 先進 | 基本 | 基本 |
上下文窗口大小 | 200K tokens | 8K tokens | 8K tokens |
Claude 3.5 Sonnet 在多模態推理任務中表現優越,尤其在以下方面:
- 視覺數據解釋與分析
- 處理包含視覺元素的大型文件
- 高級圖表和圖形理解
三個模型在基本視覺任務如 OCR 和難以辨識的手寫辨識上表現一致,但 Claude 3.5 Sonnet 在需要詳細分析與解釋的複雜視覺推理場景中表現特別強大。
Claude 3.5 Sonnet:改進與特性並存
Claude 3.5 Sonnet 的最新版本在 AI 社群中引起了廣泛關注,使用者報告了令人印象深刻的改進與一些意想不到的挑戰。以下是開發者與使用者對新模型的全面觀察。
代碼生成與開發
iOS 開發成功
數位開發者報告了使用 Sonnet 3.5 進行 iOS 應用程式開發的積極經驗,指出其在解決問題的能力上有顯著提升。儘管如此,某些使用者仍注意到其性能的不一致。
整合工作流程
開發者已建立結合 Claude 與多種工具的有效工作流程:
- 使用網頁介面進行一般查詢
- 通過 Bolt Mac 應用進行 API 整合
- 使用 Cursor 進行直接代碼互動
- 使用自訂的 Python 腳本管理專案文件
顯著行為變化
增強的人格特質
使用者觀察到 Sonnet 3.5 在對話中展現更多的人格與參與感,部分使用者稱其“非常親和”且“令人驚奇”。該模型在回應中表現出更大的自信與智慧,超越了之前的版本。
一致性挑戰
- 在處理複雜查詢時表現不穩定
- 不同會話之間的回應質量有波動
技術限制
速率限制
使用者注意到在處理大型專案或長期對話時的速率限制挑戰。基於 tokens 的配額系統需要策略性地管理對話上下文,以最大化效率。
代碼修改問題
一些開發者報告了代碼修改的挑戰:
- 在代碼增強期間偶爾移除重要功能
- 不一致地處理存儲與快取指令
- 需要多次提示以維持所需功能
專業用途
訂閱價值。專業使用者普遍認為付費版本物有所值,一些人表示願意支付更多以獲得服務。然而,與 GPT-4 相比,回應限制仍然是重度使用者的顧慮。
結論
儘管 Claude 3.5 Sonnet 在許多領域有顯著進步,但其性能因特定使用案例與實施方法而異。建議使用者制定適當的工作流程與策略,以最大化其優勢,同時克服其局限。