Claude Sonnet 3.5 與 Claude 3.5 Haiku 最新更新

探索 Claude Sonnet 3.5 和 Claude 3.5 Haiku 的最新功能與增強，包括性能提升、新功能和更友善的使用者更新。了解這些版本在高階 AI 詩歌工具領域的獨特之處。

性能改進

編碼能力

SWE-bench Verified 分數從 33.4% 提升至 49.0%，超越其他公開可用模型
在代理工具使用任務 (TAU-bench) 中表現提升：
- 零售領域：從 62.6% 提升至 69.2%
- 航空領域：從 36.0% 提升至 46.0%

速度與效率

運行速度為 Claude 3 Opus 的兩倍
在改進的同時保持相同的成本結構

新功能

電腦使用 (公開測試版)

讓 Claude 能像人類一樣與電腦介面互動
能瀏覽螢幕、移動游標並輸入文字
在 OSWorld 基準測試中得分 14.9%，遠高於競爭對手的 7.7%

Artifacts 功能

為生成的內容創建專屬窗口
支援三種類型的 artifacts：
- 用於寫作任務的文字型
- 需要視覺元素的項目
- 用於開發工作的編碼型

模型變體

Claude 3.5 Sonnet

現已提供，性能在所有指標上均有提升
在研究生級推理和大學本科級知識方面表現卓越
改善了分析圖片和圖表的視覺能力

Claude 3.5 Haiku

新的具成本效益的模型，性能可媲美 Claude 3 Opus
在 SWE-bench Verified 上得分 40.6%
優化用於面向客戶的應用

Claude 3.5 Sonnet vs ChatGPT 4o vs Gemini 1.5 Pro

功能	Claude 3.5 Sonnet	ChatGPT 4o	Gemini 1.5 Pro
多模態推理分數	0.92	0.90	0.89
OCR/手寫辨識	優秀	優秀	優秀
圖表/圖形解釋	出色	良好	良好
視覺數據處理	先進	基本	基本
上下文窗口大小	200K tokens	8K tokens	8K tokens

Claude 3.5 Sonnet 在多模態推理任務中表現優越，尤其在以下方面：

視覺數據解釋與分析
處理包含視覺元素的大型文件
高級圖表和圖形理解

三個模型在基本視覺任務如 OCR 和難以辨識的手寫辨識上表現一致，但 Claude 3.5 Sonnet 在需要詳細分析與解釋的複雜視覺推理場景中表現特別強大。

Claude 3.5 Sonnet：改進與特性並存

Claude 3.5 Sonnet 的最新版本在 AI 社群中引起了廣泛關注，使用者報告了令人印象深刻的改進與一些意想不到的挑戰。以下是開發者與使用者對新模型的全面觀察。

代碼生成與開發

iOS 開發成功
數位開發者報告了使用 Sonnet 3.5 進行 iOS 應用程式開發的積極經驗，指出其在解決問題的能力上有顯著提升。儘管如此，某些使用者仍注意到其性能的不一致。

整合工作流程
開發者已建立結合 Claude 與多種工具的有效工作流程：

使用網頁介面進行一般查詢
通過 Bolt Mac 應用進行 API 整合
使用 Cursor 進行直接代碼互動
使用自訂的 Python 腳本管理專案文件

顯著行為變化

增強的人格特質
使用者觀察到 Sonnet 3.5 在對話中展現更多的人格與參與感，部分使用者稱其“非常親和”且“令人驚奇”。該模型在回應中表現出更大的自信與智慧，超越了之前的版本。

一致性挑戰

在處理複雜查詢時表現不穩定
不同會話之間的回應質量有波動

技術限制

速率限制
使用者注意到在處理大型專案或長期對話時的速率限制挑戰。基於 tokens 的配額系統需要策略性地管理對話上下文，以最大化效率。

代碼修改問題
一些開發者報告了代碼修改的挑戰：

在代碼增強期間偶爾移除重要功能
不一致地處理存儲與快取指令
需要多次提示以維持所需功能

專業用途

訂閱價值。專業使用者普遍認為付費版本物有所值，一些人表示願意支付更多以獲得服務。然而，與 GPT-4 相比，回應限制仍然是重度使用者的顧慮。

結論

儘管 Claude 3.5 Sonnet 在許多領域有顯著進步，但其性能因特定使用案例與實施方法而異。建議使用者制定適當的工作流程與策略，以最大化其優勢，同時克服其局限。

Claude Sonnet 3.5 與 Claude 3.5 Haiku 最新更新

性能改進

新功能

模型變體

Claude 3.5 Sonnet vs ChatGPT 4o vs Gemini 1.5 Pro

Claude 3.5 Sonnet：改進與特性並存

代碼生成與開發

顯著行為變化

技術限制

專業用途

結論

AGI 距離我們還有多遠？探討人工智慧的未來

ChatGPT Canvas vs. Claude Artifacts - 哪個能提升你的寫作效率？

Claude AI 價格指南：費用多少？

深夜重磅！Claude 推出 Computer Use：大模型學會使用電腦，開啟全新應用可能