DeepSeek-V3 外网刷屏爆火，训练成本只有 600 万，把 AI 大佬都炸出来了

好文推荐1年前发布我对AI一无所知

322 0 0

DeepSeek V3 发布并同步开源，直接在外网刷屏了。

延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。

怎么说呢，QLoRA一作的一个词评价就是：优雅。

具体来说，DeepSeek V3是一个参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。

在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——

而其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%。

我们整理了外网上对于DeepSeek V3的热议，综合了「量子位」和「新智元」的内容。

01 只用了550万美元，

大概是7b Llama2 的成本

DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下，Llama 3 405B的训练时长是3080万GPU小时（p.s. GPU型号也不同）。

直观地从钱上来对比就是，训练671B的DeepSeek V3的成本是557.6万美元（约合4070万人民币），而只是训练一个7B的Llama 2，就要花费76万美元（约合555万人民币）。

OpenAI创始成员Karpathy对此赞道：

作为参考，要达到这种级别的能力，通常需要约1.6万个GPU的计算集群。不仅如此，当前业界正在部署的集群规模甚至已经达到了10万个GPU。

比如，Llama 3 405B消耗了3080万GPU小时，而看起来更强大的DeepSeek-V3却只用了280万GPU小时（计算量减少了约11倍）。到目前为止，模型在实际应用中的表现相当出色——不仅在LLM竞技场名列前茅，而且从Karpathy本人的快速测试来看，结果也都很不错。这说明，即便是在资源受限情况下，模型也能展现出令人印象深刻的研究和工程能力。

这是否意味着前沿LLM不需要大型GPU集群？不是的，但这表明，你必须确保不浪费已有的资源，这个案例很好地证明了在数据和算法方面还有很大的优化空间」。

Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”：

这是非常伟大的工作。

02 贾扬清力赞，

各路评测碾压

贾扬清针对推理提出了几点自己的思考：

首先最重要的是，我们正式进入了分布式推理时代。一台单GPU机器（80×8=640G）的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型，但不论如何，都需要分布式推理来保证性能和未来扩展。
即使在单个模型中，也需要关注MoE的负载均衡，因为每次推理只有大约5%的参数激活。
论文中特别提到引入「redundantexpert」概念，正是为了解决这个问题。这已经不再是「一个模型多个副本」的问题、而是「每个模型子模块都有多个副本」，然后独立扩缩容。
输入token很容易实现盈利。根据个人专业判断，需要大量优化才能使输出token盈利或实现收支平衡。但如果我们相信「软件摩尔定律」，这就不