探索 Claude Sonnet 3.5 和 Claude 3.5 Haiku 的最新功能與增強,包括性能提升、新功能和更友善的使用者更新。了解這些版本在高階 AI 詩歌工具領域的獨特之處。

性能改進

編碼能力

  • SWE-bench Verified 分數從 33.4% 提升至 49.0%,超越其他公開可用模型
  • 在代理工具使用任務 (TAU-bench) 中表現提升:
    • 零售領域:從 62.6% 提升至 69.2%
    • 航空領域:從 36.0% 提升至 46.0%

速度與效率

  • 運行速度為 Claude 3 Opus 的兩倍
  • 在改進的同時保持相同的成本結構

新功能

電腦使用 (公開測試版)

  • 讓 Claude 能像人類一樣與電腦介面互動
  • 能瀏覽螢幕、移動游標並輸入文字
  • 在 OSWorld 基準測試中得分 14.9%,遠高於競爭對手的 7.7%

Artifacts 功能

  • 為生成的內容創建專屬窗口
  • 支援三種類型的 artifacts:
    • 用於寫作任務的文字型
    • 需要視覺元素的項目
    • 用於開發工作的編碼型

模型變體

Claude 3.5 Sonnet

  • 現已提供,性能在所有指標上均有提升
  • 在研究生級推理和大學本科級知識方面表現卓越
  • 改善了分析圖片和圖表的視覺能力

Claude 3.5 Haiku

  • 新的具成本效益的模型,性能可媲美 Claude 3 Opus
  • 在 SWE-bench Verified 上得分 40.6%
  • 優化用於面向客戶的應用

Claude 3.5 Sonnet vs ChatGPT 4o vs Gemini 1.5 Pro

功能 Claude 3.5 Sonnet ChatGPT 4o Gemini 1.5 Pro
多模態推理分數 0.92 0.90 0.89
OCR/手寫辨識 優秀 優秀 優秀
圖表/圖形解釋 出色 良好 良好
視覺數據處理 先進 基本 基本
上下文窗口大小 200K tokens 8K tokens 8K tokens

Claude 3.5 Sonnet 在多模態推理任務中表現優越,尤其在以下方面:

  • 視覺數據解釋與分析
  • 處理包含視覺元素的大型文件
  • 高級圖表和圖形理解

三個模型在基本視覺任務如 OCR 和難以辨識的手寫辨識上表現一致,但 Claude 3.5 Sonnet 在需要詳細分析與解釋的複雜視覺推理場景中表現特別強大。

Claude 3.5 Sonnet:改進與特性並存

Claude 3.5 Sonnet 的最新版本在 AI 社群中引起了廣泛關注,使用者報告了令人印象深刻的改進與一些意想不到的挑戰。以下是開發者與使用者對新模型的全面觀察。

代碼生成與開發

iOS 開發成功
數位開發者報告了使用 Sonnet 3.5 進行 iOS 應用程式開發的積極經驗,指出其在解決問題的能力上有顯著提升。儘管如此,某些使用者仍注意到其性能的不一致。

整合工作流程
開發者已建立結合 Claude 與多種工具的有效工作流程:

  • 使用網頁介面進行一般查詢
  • 通過 Bolt Mac 應用進行 API 整合
  • 使用 Cursor 進行直接代碼互動
  • 使用自訂的 Python 腳本管理專案文件

顯著行為變化

增強的人格特質
使用者觀察到 Sonnet 3.5 在對話中展現更多的人格與參與感,部分使用者稱其“非常親和”且“令人驚奇”。該模型在回應中表現出更大的自信與智慧,超越了之前的版本。

一致性挑戰

  • 在處理複雜查詢時表現不穩定
  • 不同會話之間的回應質量有波動

技術限制

速率限制
使用者注意到在處理大型專案或長期對話時的速率限制挑戰。基於 tokens 的配額系統需要策略性地管理對話上下文,以最大化效率。

代碼修改問題
一些開發者報告了代碼修改的挑戰:

  • 在代碼增強期間偶爾移除重要功能
  • 不一致地處理存儲與快取指令
  • 需要多次提示以維持所需功能

專業用途

訂閱價值。專業使用者普遍認為付費版本物有所值,一些人表示願意支付更多以獲得服務。然而,與 GPT-4 相比,回應限制仍然是重度使用者的顧慮。

結論

儘管 Claude 3.5 Sonnet 在許多領域有顯著進步,但其性能因特定使用案例與實施方法而異。建議使用者制定適當的工作流程與策略,以最大化其優勢,同時克服其局限。

Share this post