官方微信
手机客户端
设为首页
收藏本站
扫一扫,关注我们
QQ登录
微信登录
登录
注册
我的空间
我的消息
我的积分
我的收藏
我的好友
我的相册
我的道具
帐号设置
退出登录
免费发布信息
首页
Portal
新闻资讯
论坛
BBS
城事杂谈
求职招聘
房屋出租
织里跳蚤
房产资讯
关于我们
导读
首页
房产
装修
亲子
婚嫁
美食
汽车
旅游
娱乐
信息
求职
租房
二手房
招聘
拼车
二手车
服务
生活服务
城事杂谈
跳蚤市场
便民服务
社区
城事杂谈
情感天空
户外旅游
房产楼市
装修装饰
美食天地
当前位置:
»
论坛
›
城市服务
›
电脑维修
›
帖子
师傅,不好了!“二师兄”掉在高速
台风“贝碧嘉”逼近!湖州将有大到
金店来了一位“豪客”,店员却选择
[ 房产资讯 ]
90后美院夫妻改造西湖边的家:330㎡,只
[ 理财 ]
A股摔杯为号、万箭齐发 刘煜辉火线解读
[ 理财 ]
反弹超30%!白酒板块为何成为价投最爱?
[ 理财 ]
盛松成建议:提高个税起征点至8000元 调
[ 房产资讯 ]
广州又一城中村改造项目动工!一级总投资
返回列表
发帖
回复
查看:
292
|
回复:
0
开源大模型,下一个“卡脖子”科技?|深网
[复制链接]
admin
admin
当前在线
积分
309493
关注TA
发消息
发表于 2023-11-20 16:50:32
|
来自:中国浙江湖州
|
显示全部楼层
|
阅读模式
作者|叶蓁
编辑|康晓
华为手机突破5G芯片封锁,成为过去一周科技圈最热门话题。而中国AGI通用人工智能大模型的创业者们正在思考,大模型会不会成为下一个“卡脖子”科技?
今年7月,Meta发布开源大模型LLaMA的商用版本Llama2,业界认为其可以媲美商用GPT-3.5,在开源模型中独树一帜。LLaMA2的诞生无异于在大模型战场投下了一发重磅炸弹,为全球大模型之战增添了变数。
开源和闭源,正成为大模型领域两股并行的力量,“
Llama2的出现,对ChatGPT而言,整个大模型领域的竞争格局已经清晰,就像iOS和安卓之争,目前是并驾齐驱的。
”中科智深创始人成维忠告诉《深网》。
“美国通用大模型闭源模型头部几家已经并无悬念,OpenAI的ChatGPT、Google有一张门票,Llama2的出现在美国做开源通用大模型也已经没有悬念。”百川智能创始人、CEO王小川认为。
但在中国,
谁做最好的大模型现在并没有结论,王小川说,“大家都有争取的机会
。”
一个危险的信号是,Llama2在美国市场卷起的大模型硝烟也影响了国内“百模大战”的走向,部分中国科技公司认为,Llama2为国内企业提供了一个有望赶超GPT-3.5的免费选择,因此无需再自主研发成本巨大的基础大模型。
“其实国内很多公司在一开始都是想要做通用大模型的,Llama2的出现,那些公司已经做的工作基本就浪费了,付出很多人力物力及计算资源做出的通用模型,发现还没有别人开源的Llama2的效果好,而且以后肯定还会有比Llama2更强的开源通用大模型发布。”特斯联首席科学家邵岭博士告诉《深网》。
一位国内大模型创业者告诉《深网》,目前,国内企业和开发者对Llama2的投入热情,要远高于对国内大模型产品的支持。
上述创业者认为,相比Llama2尤其是Llama2的汉化版本,国内开源大模型的水平和能力其实不相上下,如果中国企业盲目拥抱Llama2,会重演操作系统iOS和安卓独大的局面,未来在超级人工智能领域面临被卡脖子的风险。
“大国肯定需要自己自主研发的大模型,就跟芯片类似,如果没有自己的,到时候很容易控制权落在别人手中。”邵岭向《深网》表示。
毋庸置疑,科技公司不能完全依赖开源的LLaMA,中国需要本土的大模型。
“现在大模型的竞争是单纯的模型的竞争,也是算力和人才的竞争(这两项也是‘卡脖子’的因素),但未来的大模型竞争更可能是生态领域的竞争。”CSDN 创始人、董事长蒋涛告诉《深网》。
Llama2加速了百模大战淘汰赛
从去年12月ChatGPT诞生后,Meta 发布的 Llama,3月份斯坦福大学微调 Llama 后发布的 Alpaca,5月份出现的 Falcon,世界各地的开源模型在快速进步。而7 月 18 日,Llama2 的出现,更是直接让大模型的竞争格局变天了。
据Meta官方介绍,Llama 2大语言模型系列是经过预训练和微调的生成式文本模型,其参数数量从70亿到700亿不等。
“Llama2的确是个重磅炸弹,它把训练方法中用到的数据,技术和细节都公布了,这是很罕见的。从历史来看,有闭源的,必然有开源的,如果说ChatGPT占据了通用大模型的先发优势,必然会出来一个开源大模型的生态, Llama2的出现搅乱了这个市场,创造了更多机会和可能。”CSDN 创始人蒋涛表示。
Meta 副总裁、人工智能部门负责人杨立昆(Yann LeCun)说,Llama 2 将改变大语言模型市场的格局。人工智能领域权威之一的内森·兰伯特( Nathan Lambert )表示,Llama 2 性能是超过GPT-3的,对许多闭门造大模型的公司是个巨大的打击。
业内认为:GPT-3.5 水平通常被认为是大模型商用的标准线,在 Llama2 模型 70 亿、130 亿和 700 亿三种参数变体中,700 亿的版本在 MMLU 和 GSM8K 上接近了 GPT-3.5 的水平。这意味着有了 Llama 2 这样的开源大模型,自研的意义更小了。
国内的大模型厂商在路径的选择上亦是出现两条路分化。百川智能、智谱和清华EKG、阿里云等,选择了开源。而华为的盘古大模型,百度的文心一言等选择了闭源。
Llama2的出现,也加速了国内的大模型企业开源步伐,中国百模大战的淘汰赛开启了。
在7月11日,百川智能推出了百亿级别参数的大模型 Baichuan-13B,不仅宣布开源,同样还是免费可商用。免费策略冲击了国内大模型付费行情。智源AI紧接就在14日宣布,企业登记获得授权,允许免费商业使用ChatGLM-6B 和 ChatGLM2-6B。
丁香园CTO范凯如此形容这波开源免费潮,就像把自来水厂免费接到用户家里,让每家人手一个水龙头,那些闭源的自来水厂,最好水无敌好喝,大家才愿意付费。
中国必须有自研大模型
“现在仍处于大模型的‘西部蛮荒’时代,缺乏法律监管,各方都在跑马圈地。Meta是否想清楚了盈利模式?实际上还没有。现在大模型的超级应用尚未问世,整个市场仍处于混沌态。”CSDN 创始人蒋涛表示。
鉴于当下的形势,《深网》接触到投资人、科学家都认为,中国必须有自研大模型。“中国和美国是AI发展最快的两个国家,中国肯定是需要自己的大模型布局的,不光是中国和美国,像欧洲一些国家,比如英国,最近也在投资做自己的大模型。”
特斯联首席科学家邵岭博士告诉《深网》,“在大模型这一块,中国发展算是比较早的,在ChatGPT之前,中国的大模型研发其实已经有一些储备。”
资料显示:在ChaTGPT 3.0面世之前,国内就已经有多家万亿参数的大模型,他们分别是达摩院的M6和华为云的盘古大模型以及智源的悟道2.0。但因为各种各样的原因,效果上无法与ChatGPT媲美。
“中国一定会有自己的ChatGPT。这跟搜索引擎一样,我们有自己的合规要求。但是中国版的ChatGPT只会在5家公司里产生:BAT+字节+华为。”迅雷创始人、远望资本程浩告诉《深网》。
而Llama2开源后的半个月,国内就涌现出了一大批基于Llama2以指令微调形式汉化而来的中文版模型,那么汉化之后的Llama2的表现究竟如何呢?国内大模型评测机构SuperCLUE针对五个被社区广泛讨论的Llama2中文版模型,进行了测评。
根据评测结果,虽然部分中文版Llama2模型取得了不错的表现(如OpenBuddy),效果与ChatGLM2-6B接近(35.12 VS 36.50)。但所有基于Llama2优化的中文版大模型的表现与国内Baichuan-13B-Chat等相比还有明显差距。
研究还显示,基于Llama2训练的中文模型,可以提升中文能力,但同时也可能会引起通用能力的大幅降低。
实用的角度来看,汉化版Llama2并不能满足中文环境中的应用需求,虽然不排除随着开源社区的努力,未来Llama的中文表现能够得到进一步提升,赶超国内本土的原生大模型,但是将鸡蛋但放在Llama这一个篮子里,会有单一化的风险。因此中国依然需要自研大模型。
“百川和智源之所以公开披露部分参数,是为了证明其在各种关键性能指标和参数方面的优势,这也是大模型创业者要去PK的,谁能跑在前面就是取得了先发优势,对于获得成功至关重要。”CSDN 创始人蒋涛认为。
谁能笑到最后?
对于国内大模型目前的竞争格局,《深网》接触到的投资人、创业者、科学家,都认为目前整个领域仍在跑马圈地阶段,看不出来谁会成为胜出者。不过大家一致的观点是:
2024年或许会有大模型公司跑出来,目前所有的人都在抢时间。
李开复、王慧文,王小川等互联网老兵,互联网大厂的中高层,再加上一些学院派的科学家,还有大厂,纷纷加入这波大模型创业浪潮。他们中一类做自研大模型,一类做垂直大模型。
Meta 的 LLama2 大模型开源、放开商业化之后,意味着大模型应用进入了“免费时代”,初创公司也能够以低廉的价格来创建类似ChatGPT这样的聊天机器人。
国内现在的机会其实是跟Llama在同一起跑线上,目前国内这些做通用大模型的企业,预计90%的企业会倾向基于开源大模型进行发展。
王小川表示,未来开源和闭源会像苹果和安卓系统一样并行发展。大部分服务会依赖开源模型,而闭源会提供特定的增值服务。开源模型提供80%,最后靠闭源提供剩下20%服务。
猎豹移动创始人、董事长傅盛就在社交媒体上公开表示:“大模型不再高不可攀,平民化大模型时代已经到来!像我们这样的公司会笑醒在深夜。”
以制作数字虚拟人的中科深智为例,成维忠在2023年春节前后开启了大模型训练,5个月后中科智深发布了20亿参数级别的大语言模型“数智姜尚”。这是他们租用了2000张英伟达A100显卡做出来的产品。
“对大多数企业来说,更明智的做法是基于比较好的开源模型去做训练。即便我有了‘数智姜尚’,我觉得到了某一个节点,有了特别好的开源大模型,我们会把我们的训练工作平移到一个开源大模型上。站在人家的肩膀上,进步会更快。”
成维忠阐述,“如果Llama2是一条高速路,我们现在做的工作就是修一条路,让它可以连接上高速公路。”
“随着开源大模型的发展和行业数字化升级,开发者的数量将呈现倍增趋势,而企业基于私有数据的应用需求也将得到井喷释放。我们也将会迎来人人都是开发者、行行知识炼模型、软件工具全重构、智能应用百千万的智能新时代。”CSDN 创始人蒋涛表示。
对于这新一波AI技术浪潮的来临,创业公司都在奋力前行,先修好小路,以便未来更好的连接上高速路,而成熟开源的大模型生态就是那条高速路。
来源:
https://view.inews.qq.com/k/20230906A01UE700
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
post_newreply
回复
使用道具
举报
返回列表
发帖
回复
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点击附件文件名添加到帖子内容中
描述
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
精选推荐
师傅,不好了!“二师兄”掉在高
名单公布!
首个全国生态日主场活动在湖州举
2023绿色低碳创新大会在湖州举行
《焦点访谈》关注湖州!
市共同富裕领导小组召开第五次会
织里镇家园志愿广场本周活动预告
防诈骗小课堂,提高警惕!
7天1检!常态化核酸检测提醒!
友情链接
浙沪导航
网站目录
关闭
站长推荐
/1
关注织里资讯微信公众号
关注织里资讯微信公众号
查看 »
浙江网络警察报警平台
经营性网站备案信息
湖州市公安局网监备案
不良信息举报中心
联系客服
关注微信
下载APP
返回顶部
返回列表
点击联系客服
在线时间:8:30-17:00
客服电话
13362228119
电子邮件
511400718@qq.com
扫一扫,关注我们
下载APP客户端