DeepSeek V4 在 2026 年 4 月 24 日無預警上線預覽版,分為 Pro(1.6T 總參數、49B 激活)和 Flash(284B 總參數、13B 激活)兩個版本,都支援 1M token 上下文,全程採用 MIT 授權。獨立評測機構 Artificial Analysis 把 V4-Pro Max 排在開源權重第二名(52 分),僅次於 Kimi K2.6(54 分);但 DeepSeek 官方論文坦承,模型仍距離 GPT-5.4 與 Gemini-3.1-Pro 約 3 到 6 個月。同一天華為宣布 Ascend 950 超節點原生支援 V4,中芯國際(SMIC)港股當天跳漲 10%。
兩個版本,一份 58 頁論文:DeepSeek V4 到底是什麼
V4-Pro 是目前世界上最大的開源權重模型。1.6T 總參數比上週的 Kimi K2.6(1.1T)、GLM-5.1(754B)都大,也是 DeepSeek V3.2(685B)的兩倍多。Hugging Face 上 Pro 版檔案 865 GB,Flash 版 160 GB,兩個版本都採 MIT 授權,理論上任何人都可以下載、改寫、商用。
真正讓技術圈炸鍋的不是參數規模,是架構。
DeepSeek 在 V4 引入混合注意力機制 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention),搭配年初 洩漏論文 提到的 Manifold-Constrained Hyper-Connections(mHC)。在 1M token 上下文下,V4-Pro 單 token 推理 FLOPs 只需要 V3.2 的 27%,KV cache 縮到 10%;V4-Flash 更激進,FLOPs 降到 10%、KV cache 降到 7%。具體數字來自知乎前沿(@ZhihuFrontier)整理的論文摘要:1M 上下文下,V4 每個序列的 KV cache 是 9.62 GiB,V3.2 是 83.9 GiB,差距 8.7 倍。
這個差距大到改變了部署經濟學。Lambda 工程師在 X 上指出,Pro 版採 FP4(MoE 專家權重)+ FP8(注意力與正規化)混合精度,整顆模型可以塞進單個 8×B200 節點。換算下來,服務 1.6T 參數的開源模型,門檻從整櫃機器降到一個機架內。
定價策略:把 Nvidia 利潤換成華為產能
DeepSeek 把價格壓得很低,整個業界跟不上。
| 模型 | 輸入($ / NTD per 1M) | 輸出($ / NTD per 1M) |
|---|---|---|
| DeepSeek V4-Flash | $0.14 / 約 NTD 4.5 | $0.28 / 約 NTD 9 |
| GPT-5.4 Nano | $0.20 / 約 NTD 6.5 | $1.25 / 約 NTD 40 |
| Gemini 3.1 Flash-Lite | $0.25 / 約 NTD 8 | $1.50 / 約 NTD 48 |
| Claude Haiku 4.5 | $1.00 / 約 NTD 32 | $5.00 / 約 NTD 160 |
| DeepSeek V4-Pro | $1.74 / 約 NTD 56 | $3.48 / 約 NTD 112 |
| Gemini 3.1 Pro | $2.00 / 約 NTD 64 | $12.00 / 約 NTD 384 |
| GPT-5.4 | $2.50 / 約 NTD 80 | $15.00 / 約 NTD 480 |
| Claude Sonnet 4.6 | $3.00 / 約 NTD 96 | $15.00 / 約 NTD 480 |
| Claude Opus 4.7 | $5.00 / 約 NTD 160 | $25.00 / 約 NTD 800 |
| GPT-5.5 | $5.00 / 約 NTD 160 | $30.00 / 約 NTD 960 |
V4-Flash 是現在所有小型模型裡最便宜的,連 GPT-5.4 Nano 都沒它低。V4-Pro 是大型旗艦級別最便宜的,輸出單價只有 Claude Opus 4.7 的七分之一、GPT-5.5 的不到八分之一。
但 r/LocalLLaMA 上有個冷靜的聲音值得聽。Reddit 用戶 DistanceSolar1449 算了一筆帳:V3.2 是 671B 參數收 $0.26 / $0.38,V4-Flash 284B 收 $0.14 / $0.28。如果按參數線性換算,V4-Flash 其實比 V3.2 「貴」。換句話說,DeepSeek 沒有真的降價,只是把降低後的單位成本中的一部分轉成毛利。
這個策略接著就有政治含義。Reuters 報導 DeepSeek 說明,只要華為 Ascend 950 超節點下半年產能放量,V4-Pro 價格還會再下調。彭博 4 月 24 日新聞點出,DeepSeek 訓練 V4 只給了華為和寒武紀預覽存取,沒有給 Nvidia 和 AMD。這條供應鏈在中美 AI 競賽裡是新的訊號:中國頂級開源實驗室開始用本土晶片做訓練優化。
Benchmark 實測:開源王座底下兩個刺眼數字
Artificial Analysis 4 月 24 日發布的獨立評測把 V4 放回客觀座標。
V4-Pro Max 在 AA Intelligence Index 拿 52 分,比 V3.2 的 42 分跳了 10 分,在開源推理模型裡排第二,只輸 Kimi K2.6 一分。在 GDPval-AA 這個更接近真實工作場景的 agent 評測上,V4-Pro 得 1554 分,贏過所有開源模型,包括 GLM-5.1(1535)、MiniMax-M2.7(1514)、Kimi K2.6(1484)。LMArena 文字競技場排名也很漂亮:開源第二、醫療健康類第一。
但同一份報告裡有兩個數字應該讓任何要把 V4 放進生產環境的人停下來。
第一,幻覺率。在 AA-Omniscience 上,V4-Pro 的幻覺率 94%,V4-Flash 96%。雖然 V4-Pro 比 V3.2 改善了 11 分,但這個基準絕對值仍然嚇人。
第二,輸出 token 量。V4-Pro 跑完整套 AA Index 用掉 190M 輸出 token,Flash 用掉 240M。光跑這個 benchmark,V4-Pro 花了 $1,071(約 NTD 34,000)、Flash 花 $113(約 NTD 3,600)。每 token 便宜不代表每任務便宜,當模型把推理鏈拉得很長、又允許 Think Max 模式吐 384K context,真實成本會被放大。
開發者 TheZachMueller 在他的評測裡寫過一個有趣觀察:Flash@max ≈ Pro@high 在推理任務上。意思是花錢買 Pro 的高推理模式,跟用 Flash 跑滿推理預算,結果差不多。Pro 的優勢主要在純知識問答(SimpleQA)和最複雜的 agent 工作流。
影響者怎麼看:從 Simon Willison 到 scaling01
Simon Willison 在他 4 月 24 日的部落格貼文 《DeepSeek V4 — almost on the frontier, a fraction of the price》 用他標誌性的「鵜鶘騎腳踏車 SVG」基準測試 V4。他的觀察是 Flash 畫出「不錯的腳踏車」和「兇狠表情」的鵜鶘;Pro 反而把鵜鶘畫成只有一邊翅膀、屁股毛茸茸的怪物。但他真正關注的是定價:「DeepSeek-V4-Flash 是小模型裡最便宜的,連 GPT-5.4 Nano 都贏。DeepSeek-V4-Pro 是大型前沿模型裡最便宜的。」
Andrej Karpathy 沒有專門針對 V4 發文,但他對 DeepSeek 的歷史定調仍是參考點。他在 V3 釋出時(2024 年 12 月)說過,DeepSeek 用 2,048 顆 GPU、兩個月、約 $600 萬美金(約 NTD 192,000,000)訓練出前沿等級模型,是「玩笑等級的預算」。對比 Llama 3 405B 的 30.8M GPU-hours,DeepSeek-V3 只用了 2.8M GPU-hours,效率高出 11 倍。這條曲線到 V4 還在延伸:用 32T-33T tokens 訓練、約 1e25 FLOPs 規模(scaling01 估計值)。
社群最敏銳的觀察來自三位:
scaling01 在 X 上連發多則評論,核心結論是 V4「比 GLM-5.1 強,但還沒到 Opus 4.7、GPT-5.4 或 Gemini 3.1 Pro 的水準」。他估計 V4 落後前沿約 4 到 5 個月,並列出幾個關鍵指標來判斷是否縮短到 6 個月內:ARC-AGI-1 約 75%、ARC-AGI-2 約 35%、METR 4.5 到 5 小時。這些數字目前沒有公布,所以結論還未定。
teortaxesTex 觀點更有意思。他說 DeepSeek 「完成了任務:做出可靠的超長上下文模型」,但隨後潑冷水:「這不是民主化技術。」他的論點是 V4 的架構複雜度太高,光是混合注意力的超參數調整,大多數開源實驗室複製不出來。從 R1 那種「人人能仿」的時代,進化到 V4 這種「全棧協同設計」的階段。
Dorialexander 的評語最熱血:V4 的 58 頁技術報告是「今年最重要的 AI 論文」。這句話帶情緒,但反映了一個事實:V4 的論文披露細節遠超現在多數前沿釋出。OpenAI、Anthropic 的最新模型卡都偏向行銷文件,而 DeepSeek 給了完整訓練、推理、注意力機制的技術細節。
NVIDIA AI 官方帳號倒是也來蹭一下:在 Blackwell Ultra 上 V4-Pro 可以做到每用戶 150+ tokens/秒的 agent 互動速度。這條訊息有意思的地方在於,DeepSeek 沒有給 Nvidia 預覽存取,但 Nvidia 拿到模型權重後幾小時內就跑完 vLLM 對接。
Reddit 怎麼吵:r/LocalLLaMA 的兩極反應
Reddit 的 r/LocalLLaMA 從 4 月 24 日開始連續刷出 V4 相關熱門貼文。前三名:
- 「DeepSeek V4 AGI confirmed」- 1138 個互動。其實是迷因貼文,但底下熱門留言指向真實技術觀察。用戶 UserXtheUnknown 跑了測試:V4 過度詮釋約束,把「只能用一把刀」這種隱含彈性的條件當作絕對指令。這個現象暗示後訓練在指令遵循上的細節還沒磨好。
- 「DeepSeek V4 Flash 和 Non-Flash 在 Hugging Face 上線」- 1393 個互動。最高票留言一句話:「能等一下 0.01 bit 量化嗎」。這是 Reddit 經典自嘲:1.6T 參數的模型,本地用戶根本跑不動,連半精度量化版都吃不下。
- 「Flash 在 API 端便宜得出奇」- 404 個互動。前面提到的 DistanceSolar1449 算每參數定價的留言就出現在這裡。另一位用戶 Worried-Squirrel2023 把這個策略總結得很精準:「DeepSeek 在用 Nvidia 的毛利換 Ascend 的產能。等華為 950 超節點 H2 放量,他們可以再砍價,把開源價格帶整個壓低。」
旁邊一個競爭線程也值得注意:阿里巴巴 Qwen 3.6 Plus 27B 在開發者本地端跑出來的成績,在 Artificial Analysis Agentic Index 上跟 Claude Sonnet 4.6 打平。Reddit 用戶把 Qwen 3.6 27B 在 64GB MacBook Pro 上跑出 18 TPS 的截圖刷上熱門。意思是,DeepSeek V4 的開源頂端不是孤單的;中國開源模型整體進入「全榜佔位」階段。
華為晶片入場:地緣政治不只是背景音
DeepSeek V4 釋出當天,華為公告 Ascend 950 超節點原生支援 V4 推論。中芯國際在港股當天上漲 10%,反映市場把這條訊息當成中國 AI 自主供應鏈的里程碑。
Reuters 在 2 月 26 日就報導過,DeepSeek 訓練 V4 時沒有給 Nvidia 或 AMD 早期存取,只給華為和寒武紀。這個細節長尾效應很大:中國頂級開源實驗室從「用美國晶片訓練」轉向「用美國晶片訓練 + 為中國晶片優化部署」。論文本身花了篇幅說明 Huawei CANN(華為自家的 CUDA 替代品)相容性。
但這條供應鏈還有距離。專欄作者 PalwinderCFA 引用的數據是,Ascend 晶片目前供應量大概是 H100 的四分之一。意思是 DeepSeek 還無法真正脫離 Nvidia 依賴,只是在分散風險。中美的算力競賽從「禁運能不能擋住中國」進入「擋不住但能拖慢」的階段。
從投資視角,這一局有兩個訊號值得追:第一,SMIC 的代工良率 H2 能否撐起 950 超節點的量產;第二,DeepSeek V4 的後續變體會不會把訓練端也搬到 Ascend。如果答案都是肯定的,我們在 中國開源 AI 競賽 看到的格局又要重畫一次。
FAQ
DeepSeek V4-Pro 和 V4-Flash 該怎麼選?
V4-Pro 適合純知識問答、最複雜的 agent 工作流、需要最高推理品質的場景。V4-Flash 適合 1M 長上下文文件處理、成本敏感的批次任務、需要本地或近本地部署的開發環境。獨立測試顯示 Flash@max 推理表現接近 Pro@high,12 倍價差讓 Flash 在多數企業場景成為首選。
DeepSeek V4 真的能取代 Claude Opus 4.7 嗎?
不能完全取代,但可以分流。V4-Pro 在數學、編碼、agentic 任務上接近 Opus 4.7;在科學、法律、醫療等廣域知識上仍有差距。實務做法是把高風險、需細緻判斷的任務留給 Opus 4.7,大量但結構化的任務轉到 V4-Pro,單位成本可降低 80% 以上。
V4 的 1M token 上下文真的能用嗎?
技術上可行,但要注意兩個成本。第一是輸出 token 爆量,V4-Pro 在 Think Max 模式可能吐出 200K 以上的推理 token;第二是 KV cache 仍占 9.62 GiB(BF16)。建議生產環境先用 256K 到 512K 上限,確認任務不會把上下文「填到爆」再考慮放開。
V4 在哪裡可以使用?
四個主要管道:DeepSeek 官方 API(api-docs.deepseek.com)、Hugging Face 開源權重(可下載自架)、第三方推論平台(Together、Baseten、OpenRouter、DeepInfra)、官方網頁版 chat.deepseek.com 的 Expert Mode 和 Instant Mode。OpenAI ChatCompletions 和 Anthropic API 兩種格式都支援。
DeepSeek 的舊 API 何時下線?
deepseek-chat 和 deepseek-reasoner 兩個端點將在 2026 年 7 月 24 日 15:59 UTC 完全下線。在那之前,兩個端點分別對應 V4-Flash 的非思考模式和思考模式。預計遷移到 V4 的開發者請改用顯式模型 ID:deepseek-v4-pro 與 deepseek-v4-flash。
高公信力來源
- Reuters — DeepSeek V4 to launch in next few weeks, runs on Huawei chips
- CNBC — China's DeepSeek releases preview of long-awaited V4 model as AI race intensifies
- Fortune — DeepSeek unveils V4 model, with rock-bottom prices and close integration with Huawei's chips
- Hugging Face — DeepSeek-V4-Pro Model Card and Technical Report
Author Insight
評估一個新模型該不該進生產環境,我們團隊內部的順序從來不是「benchmark 先看」。先看的是定價結構和服務基礎設施,因為這兩個決定可不可重複部署。
V4 在這兩個維度給的訊號是混合的。Pro 版單位輸出價格只有 Opus 4.7 的七分之一,看起來很美,但 Artificial Analysis 跑完整套 Index 花了 $1,071(約 NTD 34,000)。這個數字對企業導入評估的意義是,你必須測自己的工作流到底會吐多少 token。我們在替金融與製造業客戶做 Claude Code 與 GitHub Copilot 試點專案 時就遇到過類似狀況:某個模型每千次任務便宜 60%,但因為推理鏈太長,實際月帳單只比 Claude Sonnet 4.6 便宜 18%。
另一個維度是基礎設施。V4 同時支援 OpenAI ChatCompletions 和 Anthropic API 兩種格式,意思是已經在用 Claude 系列建系統的團隊,可以最低成本切換做 A/B 測試。但 vLLM、Together、Baseten 的 day-0 支援代表這已不是「要不要試」的問題,而是「分流給哪些任務」的問題。我自己給客戶的建議是,先把編碼類、結構化批次任務、長文件 RAG 這三類分流到 V4-Flash 試水溫。Pro 版本除非你有明確的 agent 工作流,否則先觀望幾週,看 Hugging Face 社群把量化版本和推理優化做到什麼程度。
最後一條觀察跟很多人不一樣:我認為 V4 的長期影響不在 benchmark 排名,而在它把「開源 1M 上下文 + 商用級推理成本」這個組合釘在地上了。這對 AI agent 商業模式的衝擊,會比模型分數更深。當 Flash 級別的長上下文模型每千 token 輸出只要 NTD 9 分,SaaS 按席次收費的邏輯會被重新審視,這是我們最近在跟客戶討論的核心議題。
