开源大模型，下一个“卡脖子”科技？｜深网

admin · 发表于 2023-11-20 16:50:32|来自：中国浙江湖州

作者|叶蓁
编辑|康晓
华为手机突破5G芯片封锁，成为过去一周科技圈最热门话题。而中国AGI通用人工智能大模型的创业者们正在思考，大模型会不会成为下一个“卡脖子”科技？
今年7月，Meta发布开源大模型LLaMA的商用版本Llama2，业界认为其可以媲美商用GPT-3.5，在开源模型中独树一帜。LLaMA2的诞生无异于在大模型战场投下了一发重磅炸弹，为全球大模型之战增添了变数。
开源和闭源，正成为大模型领域两股并行的力量，“Llama2的出现，对ChatGPT而言，整个大模型领域的竞争格局已经清晰，就像iOS和安卓之争，目前是并驾齐驱的。”中科智深创始人成维忠告诉《深网》。
“美国通用大模型闭源模型头部几家已经并无悬念，OpenAI的ChatGPT、Google有一张门票，Llama2的出现在美国做开源通用大模型也已经没有悬念。”百川智能创始人、CEO王小川认为。
但在中国，谁做最好的大模型现在并没有结论，王小川说，“大家都有争取的机会。”
一个危险的信号是，Llama2在美国市场卷起的大模型硝烟也影响了国内“百模大战”的走向，部分中国科技公司认为，Llama2为国内企业提供了一个有望赶超GPT-3.5的免费选择，因此无需再自主研发成本巨大的基础大模型。
“其实国内很多公司在一开始都是想要做通用大模型的，Llama2的出现，那些公司已经做的工作基本就浪费了，付出很多人力物力及计算资源做出的通用模型，发现还没有别人开源的Llama2的效果好，而且以后肯定还会有比Llama2更强的开源通用大模型发布。”特斯联首席科学家邵岭博士告诉《深网》。
一位国内大模型创业者告诉《深网》，目前，国内企业和开发者对Llama2的投入热情，要远高于对国内大模型产品的支持。
上述创业者认为，相比Llama2尤其是Llama2的汉化版本，国内开源大模型的水平和能力其实不相上下，如果中国企业盲目拥抱Llama2，会重演操作系统iOS和安卓独大的局面，未来在超级人工智能领域面临被卡脖子的风险。
“大国肯定需要自己自主研发的大模型，就跟芯片类似，如果没有自己的，到时候很容易控制权落在别人手中。”邵岭向《深网》表示。
毋庸置疑，科技公司不能完全依赖开源的LLaMA，中国需要本土的大模型。
“现在大模型的竞争是单纯的模型的竞争，也是算力和人才的竞争（这两项也是‘卡脖子’的因素），但未来的大模型竞争更可能是生态领域的竞争。”CSDN 创始人、董事长蒋涛告诉《深网》。
Llama2加速了百模大战淘汰赛
从去年12月ChatGPT诞生后，Meta 发布的 Llama，3月份斯坦福大学微调 Llama 后发布的 Alpaca，5月份出现的 Falcon，世界各地的开源模型在快速进步。而7 月 18 日，Llama2 的出现，更是直接让大模型的竞争格局变天了。
据Meta官方介绍，Llama 2大语言模型系列是经过预训练和微调的生成式文本模型，其参数数量从70亿到700亿不等。
“Llama2的确是个重磅炸弹，它把训练方法中用到的数据，技术和细节都公布了，这是很罕见的。从历史来看，有闭源的，必然有开源的，如果说ChatGPT占据了通用大模型的先发优势，必然会出来一个开源大模型的生态， Llama2的出现搅乱了这个市场，创造了更多机会和可能。”CSDN 创始人蒋涛表示。
Meta 副总裁、人工智能部门负责人杨立昆（Yann LeCun）说，Llama 2 将改变大语言模型市场的格局。人工智能领域权威之一的内森·兰伯特（ Nathan Lambert ）表示，Llama 2 性能是超过GPT-3的，对许多闭门造大模型的公司是个巨大的打击。
业内认为：GPT-3.5 水平通常被认为是大模型商用的标准线，在 Llama2 模型 70 亿、130 亿和 700 亿三种参数变体中，700 亿的版本在 MMLU 和 GSM8K 上接近了 GPT-3.5 的水平。这意味着有了 Llama 2 这样的开源大模型，自研的意义更小了。
国内的大模型厂商在路径的选择上亦是出现两条路分化。百川智能、智谱和清华EKG、阿里云等，选择了开源。而华为的盘古大模型，百度的文心一言等选择了闭源。
Llama2的出现，也加速了国内的大模型企业开源步伐，中国百模大战的淘汰赛开启了。
在7月11日，百川智能推出了百亿级别参数的大模型 Baichuan-13B，不仅宣布开源，同样还是免费可商用。免费策略冲击了国内大模型付费行情。智源AI紧接就在14日宣布，企业登记获得授权，允许免费商业使用ChatGLM-6B 和 ChatGLM2-6B。
丁香园CTO范凯如此形容这波开源免费潮，就像把自来水厂免费接到用户家里，让每家人手一个水龙头，那些闭源的自来水厂，最好水无敌好喝，大家才愿意付费。
中国必须有自研大模型
“现在仍处于大模型的‘西部蛮荒’时代，缺乏法律监管，各方都在跑马圈地。Meta是否想清楚了盈利模式？实际上还没有。现在大模型的超级应用尚未问世，整个市场仍处于混沌态。”CSDN 创始人蒋涛表示。
鉴于当下的形势，《深网》接触到投资人、科学家都认为，中国必须有自研大模型。“中国和美国是AI发展最快的两个国家，中国肯定是需要自己的大模型布局的，不光是中国和美国，像欧洲一些国家，比如英国，最近也在投资做自己的大模型。”
特斯联首席科学家邵岭博士告诉《深网》，“在大模型这一块，中国发展算是比较早的，在ChatGPT之前，中国的大模型研发其实已经有一些储备。”
资料显示：在ChaTGPT 3.0面世之前，国内就已经有多家万亿参数的大模型，他们分别是达摩院的M6和华为云的盘古大模型以及智源的悟道2.0。但因为各种各样的原因，效果上无法与ChatGPT媲美。
“中国一定会有自己的ChatGPT。这跟搜索引擎一样，我们有自己的合规要求。但是中国版的ChatGPT只会在5家公司里产生：BAT+字节+华为。”迅雷创始人、远望资本程浩告诉《深网》。
而Llama2开源后的半个月，国内就涌现出了一大批基于Llama2以指令微调形式汉化而来的中文版模型，那么汉化之后的Llama2的表现究竟如何呢？国内大模型评测机构SuperCLUE针对五个被社区广泛讨论的Llama2中文版模型，进行了测评。

根据评测结果，虽然部分中文版Llama2模型取得了不错的表现（如OpenBuddy），效果与ChatGLM2-6B接近（35.12 VS 36.50）。但所有基于Llama2优化的中文版大模型的表现与国内Baichuan-13B-Chat等相比还有明显差距。

研究还显示，基于Llama2训练的中文模型，可以提升中文能力，但同时也可能会引起通用能力的大幅降低。
实用的角度来看，汉化版Llama2并不能满足中文环境中的应用需求，虽然不排除随着开源社区的努力，未来Llama的中文表现能够得到进一步提升，赶超国内本土的原生大模型，但是将鸡蛋但放在Llama这一个篮子里，会有单一化的风险。因此中国依然需要自研大模型。
“百川和智源之所以公开披露部分参数，是为了证明其在各种关键性能指标和参数方面的优势，这也是大模型创业者要去PK的，谁能跑在前面就是取得了先发优势，对于获得成功至关重要。”CSDN 创始人蒋涛认为。
谁能笑到最后？
对于国内大模型目前的竞争格局，《深网》接触到的投资人、创业者、科学家，都认为目前整个领域仍在跑马圈地阶段，看不出来谁会成为胜出者。不过大家一致的观点是：2024年或许会有大模型公司跑出来，目前所有的人都在抢时间。
李开复、王慧文，王小川等互联网老兵，互联网大厂的中高层，再加上一些学院派的科学家，还有大厂，纷纷加入这波大模型创业浪潮。他们中一类做自研大模型，一类做垂直大模型。
Meta 的 LLama2 大模型开源、放开商业化之后，意味着大模型应用进入了“免费时代”，初创公司也能够以低廉的价格来创建类似ChatGPT这样的聊天机器人。
国内现在的机会其实是跟Llama在同一起跑线上，目前国内这些做通用大模型的企业，预计90%的企业会倾向基于开源大模型进行发展。
王小川表示，未来开源和闭源会像苹果和安卓系统一样并行发展。大部分服务会依赖开源模型，而闭源会提供特定的增值服务。开源模型提供80%，最后靠闭源提供剩下20%服务。
猎豹移动创始人、董事长傅盛就在社交媒体上公开表示：“大模型不再高不可攀，平民化大模型时代已经到来！像我们这样的公司会笑醒在深夜。”
以制作数字虚拟人的中科深智为例，成维忠在2023年春节前后开启了大模型训练，5个月后中科智深发布了20亿参数级别的大语言模型“数智姜尚”。这是他们租用了2000张英伟达A100显卡做出来的产品。
“对大多数企业来说，更明智的做法是基于比较好的开源模型去做训练。即便我有了‘数智姜尚’，我觉得到了某一个节点，有了特别好的开源大模型，我们会把我们的训练工作平移到一个开源大模型上。站在人家的肩膀上，进步会更快。”
成维忠阐述，“如果Llama2是一条高速路，我们现在做的工作就是修一条路，让它可以连接上高速公路。”
“随着开源大模型的发展和行业数字化升级，开发者的数量将呈现倍增趋势，而企业基于私有数据的应用需求也将得到井喷释放。我们也将会迎来人人都是开发者、行行知识炼模型、软件工具全重构、智能应用百千万的智能新时代。”CSDN 创始人蒋涛表示。
对于这新一波AI技术浪潮的来临，创业公司都在奋力前行，先修好小路，以便未来更好的连接上高速路，而成熟开源的大模型生态就是那条高速路。

来源：https://view.inews.qq.com/k/20230906A01UE700
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

开源大模型，下一个“卡脖子”科技？｜深网

发表回复

精选推荐

站长推荐 /1