2022 年底,ChatGPT 的横空出世点燃了全球对通用人工智能(AGI)的想象力,也让 AGI 竞赛的格局变得前所未有地紧张。
在硅谷的资本狂潮与产物创新竞速中,我们看到了无数高调宣传的 AI 模型、产物和技术路线:OpenAI 的 GPT 和 o 系列,谷歌的 Gemini 系列,Meta 的 Llama 系列,Anthropic 的 Claude 系列,xAI 的 Grok 系列……
在这场你方唱罢我登场的大戏中,也不乏中国科技公司的身影。然而,中国过去的 AI 发展常被置于“追赶者叙事”之中——以技术差距为驱动力,试图缩小与美国领先者的距离。
不过,随着中国初创公司 DeepSeek 的出现,人们终于意识到,中国 AI“复制+追赶”的刻板印象正在被打破。
DeepSeek 的 V3 和 R1 模型,不仅其低成本、高性能的优势迅速成为业内焦点,更是以开源精神挑衅愈发封闭、商业化的 AI 大模型社区。
就在撰写这篇文章时,DeepSeek 在本周陆续放出 5 个与构建大模型有关的开源库,每个都经历了生产环境的实战检验。
图 | DeepSeek 为开源运动预热(来源:DeepSeek)
上次这么干的是 OpenAI,他们去年连续 12 天直播发布新功能和产物,其中大多数新功能都需要订阅 Plus 或 Pro 服务,而最贵的 Pro 月费高达 200 美元。
一边是高昂的月费,一边是开源模型参数+库,DeepSeek 格局拉满,已经赚得了广泛好评,被许多人称为“真正的 Open AI(开放 AI)”。
这种对比背后,折射出的不仅是市场策略的差异,更是头脑模式和发展路径的不同。
不仅仅是低成本
DeepSeek V3 和 R1 的破圈并非偶然。从最初的低成本切入市场,到如今在性能上与一线大模型媲美,其核心竞争力正表现在对算力资源的高效利用和工程优化上。
简单来说就是,通过精准把控算法细节和硬件优化,DeepSeek 极大地降低了计算资源的浪费,从而实现了在保证性能的前提下大幅降低推理成本。
据浪潮信息相关负责人介绍,DeepSeek 在算法架构层面的创新主要会集在以下几个方面。
首先最重要的是,DeepSeek 基于 Transformer 架构在专家混合模型(MoE)和注意力机制方面做了创新,有效降低了算力和内存的需求,使得每次推理所需的计算量大幅减少,让训练更为有效。
在注意力机制方面,其使用的多头潜在注意力(MLA)算法相比于主流的 MHA 和 GQA 算法,在没有显著降低计算精度的情况下,大幅降低了推理时的 KV cache 占用,从而提升了推理效率。
DeepSeek 在 MOE 架构方面也有诸多的创新,比如使用了共享专家和路由专家 2 种专家,其中共享专家用于学习公共知识,路由专家学习专用知识,有效提升了模型的训练效率。
DeepSeek 的 MoE 模型和业界其他的 MoE 模型相比稀疏度更高,也对节省训练和推理的算力大有帮助。
其次,Deepseek 对于强化学习经典算法 PPO 做了改进,提出了 GRPO(Group Relative Policy Optimization)算法,取消了 PPO 算法中所需要训练的价值模型,显著减少了内存和计算开销。
得益于这些创新,DeepSeek 的模型训练稳定性也相当不错。
清华大学智能产业研究院(AIR)助理教授赵昊指出,在训练非常大的模型的时间,训练瓦解的次数少,这自己就是很重大的一件事。
他解释说:“这需要许多体系结构上面的优化,DeepSeek 在论文中用大篇幅描述了如何让通讯和计算很好的重合,从而避免通讯带宽的浪费。这是它乐成背后很重要的一个因素。”
最后,DeepSeek R1 直接运用大规模强化学习就实现了推理能力的大幅提升,第一次体系地论证了随着强化学习的算力投入,大模型解决复杂问题的输出长度(思考使用的 token 数)持续增加,解决复杂问题的能力也持续提升。
在硬件层面,DeepSeek 同样做出了效果拔群的优化。
当前软硬件协同的难点是大多数情况下都是先设计算法,证明算法有效,最后才针对这个算法做工程优化,这种策略下,往往需要在工程优化层面有比力大的投入,且也不愿定能做到特别好。
而 DeepSeek 团队的风格是面向硬件特性设计算法,从而实现计算效率的提升。其团队利用低精度计算(如 FP8)和底层 PTX 编程,直接挖掘硬件性能潜力,实现了对 GPU 算力的极致利用。
从底层硬件出发的工程优化,使得 DeepSeek 在划一硬件条件下,能够完成更多计算任务,进一步凸显了其技术优势。
北京大学助理教授李萌表示,DeepSeek 完全采用 FP8 精度进行训练,对于科研界也是很有启发意义的。“这点对于硬件影响非常大,因为计算精度直接和硬件开销密切相关,这种创新反过来会引导学术界继续去深入研究。”
最终,所有这些通过工程本领实现成本革命的思路,使 DeepSeek 在代价上远远低于国际主流大模型,同时还能展现出旗鼓相当的性能。
低成本优势不仅带来了市场竞争力,更为广泛的应用场景提供了可能。传统大模型往往因高昂的使用成本而难以普及,只有少数拥有雄厚资源的企业才能负担。
而 DeepSeek 则以平民化的代价迅速降低了技术门槛,使得中小企业乃至个体开辟者都能触及先进的 AI 技术,推动了整个行业的普惠化进程。
国际数据公司(IDC)中国副总裁周震刚表示,“DeepSeek 这个水平的模型开源之后,把门槛降低了,更多的用户进来了,天生式 AI 的开辟平台更多人乐意在上面做应用……都会在这个生态里面让大家更方便用到 AI,一个普惠化的 AI 平台已经在向我们招手。”
工程哲学与开源
作为一款颇具突破性的大模型,DeepSeek 不仅凭借工程优化和技术创新在市场上脱颖而出,更代表了一种全新的研发理念和全球竞争格局下的战略头脑。
在 DeepSeek 身上,我们可以看到一种不同于传统大模型研发模式的工程哲学。
在大模型行业,人们信奉“大力出奇迹的”扩展法则(Scaling Law),用越来越大的算力推动模型快速迭代。而如今,模型迭代更新之快,却让仅仅风光了 3 年的扩展法则开始遭到质疑。
与许多依赖海量数据和极端算力堆砌参数的模式不同,DeepSeek 更注意工程效率和开源协作,追求的是在有限资源下实现性能最大化。
“DeepSeek 找到了一种,即使在算力自己没有那么充裕的情况下,仍然能够把大模型训练的很好的方式。”李萌教授解释道,“但更重要是它也给了我们一些启示,也就是对于训练阶段,其实我们还是有许多技术和工程上的创新可以做的,从而更好地使用已有的算力。”
DeepSeek 的独特路径更表现在其开源策略上。它选择将大部分研究结果和技术细节公开,不仅为行业提供了参考和学习的机会,也推动了整个开源生态的发展。
当然,在DeepSeek 之前,我们也看到了许多国内外良好的开源大模型,例如阿里的通义千问 Qwen(2024 年 HuggingFace 开源社区下载量第一)、智谱的 GLM、百川的 Baichuan 和 Meta 的 Llama 等等,也都在努力构筑开源社区的繁荣。
最近,我们已经看到许多机构在尝试用 DeepSeek 的技术思路(也用到了其他开源基座模型)低成本复现 DeepSeek R1,包罗 HuggingFace 的 Open R1、UC 伯克利的 DeepScaleR 和 Open-Thoughts 等等。
可以说,DeepSeek 开放透明的模式使得全球各地的技术团队可以迅速验证和迭代相关方案,加速了天生式 AI 和大模型技术的普及和创新速率,也推动了整个开源生态进一步繁荣。
正如 Meta 首席 AI 科学家杨立昆(Yann LeCun)所说:“DeepSeek 的胜利并非是中国 AI 战胜了美国 AI,而是开源模型战胜了专有模型。”
全球视野,重塑 AI 竞争和应用
在全球人工智能竞争日益激烈的背景下,作为一款由中国团队主导研发的先进大模型,DeepSeek 以其独特的工程创新和开放策略,正逐步改变全球 AI 生态中的力量对比。
首先,DeepSeek 的低成本高性能优势为国际市场带来了新的选择。传统大模型产物多依赖于巨额的研发投入和硬件资源,而 DeepSeek 则凭借精细的工程优化实现了以较低投入换取高性能的目标。
这种路径使得更多国家和地域的小型企业有机会进入高端 AI 应用领域,从而打破了部分国际垄断的局面。
浪潮信息高级副总裁刘军表示,“这样高质量模型的开源,使得我们每一个人、每一个企业、每一个国家都会变成一个创新的主体,充分发挥创新的与各种场景联合的主动能动性、热情,激发创新的活力。”
其次,DeepSeek 的乐成也对中美之间的技术竞争产生了重要影响。在全球 AI 领域,美国企业长期占据主导地位,而 DeepSeek 的崛起显示出中国团队在工程能力和技术创新上的不俗力气。
这不仅提升了中国在国际 AI 市场中的话语权,也为全球技术尺度和应用生态的重构提供了新的参考模式。面对这种新局面,美国企业不得不重新审视自身的技术优势和商业模式。
我们看到,在 DeepSeek 出来后,关于扩展法则是否已经撞墙的讨论越来越多,同时也迫使 OpenAI、xAI 等竞争对手加速发布新模型,给出更便宜的定价,甚至是将部分核心功能直接免费。
对于 AI 领域未来的发展方向,开源解决方案服务商红帽(Red Hat)的看法是:一个开放的 AI 生态,聚焦于更小巧、优化且开放的模型,能够根据特定企业的数据和使用场景进行定制。
这与 DeepSeek 促成的效果不谋而合。通过开放共享技术,全球的科研机构和企业都可以选择不同参数的模型(大模型和小模型)进行二次开辟和优化,实现资源互补和优势叠加。
浪潮信息相关负责人表示,在 DeepSeek 模型破圈后,其市场需求不停下沉,村镇当局、农业研究机构等传统上与 AI 距离较远的客户也开始尝试部署。中小客户更倾向于通过一体机或单机部署的方式快速实现推理能力,通过轻量化部署方案初步探索 AI 与业务的联合。
这种多元化的 AI 应用其实更加值得关注。
北京智源人工智能研究院副院长兼总工程师林咏华认为,许多企业中的现实应用场景都更适合采用小模型(参数小于等于 7B 的模型),“因为它们可以针对详细的任务来搭建,通过后续的持续训练和微调,它们也可以掌握相关的行业知识。”
在清华大学交叉信息研究院助理教授许华哲看来,如果将 AI 与机器人联合起来,那么大模型反倒是一个更好的选择,因为“目前机器人的能力仍然有限,更适合先用通用的、能力更强的大模型提升其整体能力值,之后再用小模型优化性能。”
显然,随着技术不停迭代升级,AI 市场必将呈现出更加多元和开放的竞争态势。
瑕不掩瑜
DeepSeek 的乐成无疑为整个行业树立了新的标杆。然而,未来能否持续引领技术进步,还需要面对诸多内外部挑衅。
对 DeepSeek 而言,技术创新的同时也伴随着一些潜在的挑衅和瓶颈。理性分析其优劣,既能帮助我们更全面地认识其现状,也为未来改进指明方向。
一方面,DeepSeek 在降低推理成本、优化硬件利用率方面取得了显著成效,其 MoE 和 MLA 机制极大地推动了模型效率的提升。但与此同时,这种架构也面临肯定的工程复杂性。
大量专家模块的管理、调度以及在训练过程中的负载均衡问题,都需要极高的工程调试和维护能力。这是 DeepSeek 的技术壁垒,但也可能是其他人尝试类似技术方案的门槛。
另一方面,只管 DeepSeek 采用低精度计算和底层硬件优化本领降低了算力需求,但这种“底层定制”也使得其对硬件平台的依赖性较强。在硬件更新换代或生态环境变化时,如何确保模型的适配和稳定性,仍然是一个需要持续关注的问题。
此外,也有一些研究指出,DeepSeek R1 的“幻觉”问题相较于其他主流大模型更加严峻,在一些究竟性的问题上表现较差。
但瑕不掩瑜,DeepSeek 已然成为国际 AI 竞争格局中一股不可忽视的新力量。正如前文提到的,它既挑衅了传统技术霸主的地位,也为全球产业链和创新生态带来了前所未有的变革机遇。
结语
可以说,DeepSeek 作为一款集低成本、高性能和高效工程优化于一体的大模型产物,不仅在技术上实现了突破,更为 AI 技术走向普惠、开放和协同发展提供了名贵的经验。
拥抱开源的 DeepSeek 是我们喜闻乐见的。它用独特的工程哲学挑衅了传统技术路线,在国际竞争中给中国乃至全球 AI 市场注入了一剂强心针。
在 AI 技术日新月异的今天,如何在不停突破的同时又保证生态安全,以及如何在开放合作中最大化商业价值,都是摆在大家面前的重要课题。
DeepSeek 的乐成给我们带来了一种全新的思路:专注工程创新,通过开放共享和国际合作,让技术真正走进生存,从单一的技术突破跳跃到整体生态的升级。
未来,随着技术不停迭代、生态日益完善,我们有理由等待,以 DeepSeek 为代表的开源力量和中国人才必将继续引领 AI 技术的前进,为 AGI 的发展做出更大的贡献。
运营/排版:何晨龙、刘雅坤
来源:https://view.inews.qq.com/k/20250301A04SNP00
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |