>首页> IT >

开源VS闭源,大模型永不会结束的战争

时间:2023-09-07 17:28:05       来源:腾讯网

来源:视觉中国

作者|叶蓁


(资料图片仅供参考)

编辑|康晓

华为手机突破5G芯片封锁,成为过去一周科技圈最热门话题。而中国AGI通用人工智能大模型的创业者们正在思考,大模型会不会成为下一个“卡脖子”科技?

今年7月,Meta发布开源大模型LLaMA的商用版本Llama2,业界认为其可以媲美商用GPT-3.5,在开源模型中独树一帜。LLaMA2的诞生无异于在大模型战场投下了一发重磅炸弹,为全球大模型之战增添了变数。

开源和闭源,正成为大模型领域两股并行的力量,“Llama2的出现,对ChatGPT而言,整个大模型领域的竞争格局已经清晰,就像iOS和安卓之争,目前是并驾齐驱的。”中科智深创始人成维忠告诉《深网》。

“美国通用大模型闭源模型头部几家已经并无悬念,OpenAI的ChatGPT、Google有一张门票,Llama2的出现在美国做开源通用大模型也已经没有悬念。”百川智能创始人、CEO王小川认为。

但在中国,谁做最好的大模型现在并没有结论,王小川说,“大家都有争取的机会。”

一个危险的信号是,Llama2在美国市场卷起的大模型硝烟也影响了国内“百模大战”的走向,部分中国科技公司认为,Llama2为国内企业提供了一个有望赶超GPT-3.5的免费选择,因此无需再自主研发成本巨大的基础大模型。

“其实国内很多公司在一开始都是想要做通用大模型的,Llama2的出现,那些公司已经做的工作基本就浪费了,付出很多人力物力及计算资源做出的通用模型,发现还没有别人开源的Llama2的效果好,而且以后肯定还会有比Llama2更强的开源通用大模型发布。”特斯联首席科学家邵岭博士告诉《深网》。

一位国内大模型创业者告诉《深网》,目前,国内企业和开发者对Llama2的投入热情,要远高于对国内大模型产品的支持。

上述创业者认为,相比Llama2尤其是Llama2的汉化版本,国内开源大模型的水平和能力其实不相上下,如果中国企业盲目拥抱Llama2,会重演操作系统iOS和安卓独大的局面,未来在超级人工智能领域面临被卡脖子的风险。

“大国肯定需要自己自主研发的大模型,就跟芯片类似,如果没有自己的,到时候很容易控制权落在别人手中。”邵岭向《深网》表示。

毋庸置疑,科技公司不能完全依赖开源的LLaMA,中国需要本土的大模型。

“现在大模型的竞争是单纯的模型的竞争,也是算力和人才的竞争(这两项也是‘卡脖子’的因素),但未来的大模型竞争更可能是生态领域的竞争。”CSDN 创始人、董事长蒋涛告诉《深网》。

Llama2加速了百模大战淘汰赛

从去年12月ChatGPT诞生后,Meta 发布的 Llama,3月份斯坦福大学微调 Llama 后发布的 Alpaca,5月份出现的 Falcon,世界各地的开源模型在快速进步。而7 月 18 日,Llama2 的出现,更是直接让大模型的竞争格局变天了。

据Meta官方介绍,Llama 2大语言模型系列是经过预训练和微调的生成式文本模型,其参数数量从70亿到700亿不等。

“Llama2的确是个重磅炸弹,它把训练方法中用到的数据,技术和细节都公布了,这是很罕见的。从历史来看,有闭源的,必然有开源的,如果说ChatGPT占据了通用大模型的先发优势,必然会出来一个开源大模型的生态, Llama2的出现搅乱了这个市场,创造了更多机会和可能。”CSDN 创始人蒋涛表示。

Meta 副总裁、人工智能部门负责人杨立昆(Yann LeCun)说,Llama 2 将改变大语言模型市场的格局。人工智能领域权威之一的内森·兰伯特( Nathan Lambert )表示,Llama 2 性能是超过GPT-3的,对许多闭门造大模型的公司是个巨大的打击。

业内认为:GPT-3.5 水平通常被认为是大模型商用的标准线,在 Llama2 模型 70 亿、130 亿和 700 亿三种参数变体中,700 亿的版本在 MMLU 和 GSM8K 上接近了 GPT-3.5 的水平。这意味着有了 Llama 2 这样的开源大模型,自研的意义更小了。

国内的大模型厂商在路径的选择上亦是出现两条路分化。百川智能、智谱和清华EKG、阿里云等,选择了开源。而华为的盘古大模型,百度的文心一言等选择了闭源。

Llama2的出现,也加速了国内的大模型企业开源步伐,中国百模大战的淘汰赛开启了。

在7月11日,百川智能推出了百亿级别参数的大模型 Baichuan-13B,不仅宣布开源,同样还是免费可商用。免费策略冲击了国内大模型付费行情。智源AI紧接就在14日宣布,企业登记获得授权,允许免费商业使用ChatGLM-6B 和 ChatGLM2-6B。

丁香园CTO范凯如此形容这波开源免费潮,就像把自来水厂免费接到用户家里,让每家人手一个水龙头,那些闭源的自来水厂,最好水无敌好喝,大家才愿意付费。

中国必须有自研大模型

“现在仍处于大模型的‘西部蛮荒’时代,缺乏法律监管,各方都在跑马圈地。Meta是否想清楚了盈利模式?实际上还没有。现在大模型的超级应用尚未问世,整个市场仍处于混沌态。”CSDN 创始人蒋涛表示。

鉴于当下的形势,《深网》接触到投资人、科学家都认为,中国必须有自研大模型。“中国和美国是AI发展最快的两个国家,中国肯定是需要自己的大模型布局的,不光是中国和美国,像欧洲一些国家,比如英国,最近也在投资做自己的大模型。”

特斯联首席科学家邵岭博士告诉《深网》,“在大模型这一块,中国发展算是比较早的,在ChatGPT之前,中国的大模型研发其实已经有一些储备。”

资料显示:在ChaTGPT 3.0面世之前,国内就已经有多家万亿参数的大模型,他们分别是达摩院的M6和华为云的盘古大模型以及智源的悟道2.0。但因为各种各样的原因,效果上无法与ChatGPT媲美。

“中国一定会有自己的ChatGPT。这跟搜索引擎一样,我们有自己的合规要求。但是中国版的ChatGPT只会在5家公司里产生:BAT+字节+华为。”迅雷创始人、远望资本程浩告诉《深网》。

而Llama2开源后的半个月,国内就涌现出了一大批基于Llama2以指令微调形式汉化而来的中文版模型,那么汉化之后的Llama2的表现究竟如何呢?国内大模型评测机构SuperCLUE针对五个被社区广泛讨论的Llama2中文版模型,进行了测评。

根据评测结果,虽然部分中文版Llama2模型取得了不错的表现(如OpenBuddy),效果与ChatGLM2-6B接近(35.12 VS 36.50)。但所有基于Llama2优化的中文版大模型的表现与国内Baichuan-13B-Chat等相比还有明显差距。

研究还显示,基于Llama2训练的中文模型,可以提升中文能力,但同时也可能会引起通用能力的大幅降低。

实用的角度来看,汉化版Llama2并不能满足中文环境中的应用需求,虽然不排除随着开源社区的努力,未来Llama的中文表现能够得到进一步提升,赶超国内本土的原生大模型,但是将鸡蛋但放在Llama这一个篮子里,会有单一化的风险。因此中国依然需要自研大模型。

“百川和智源之所以公开披露部分参数,是为了证明其在各种关键性能指标和参数方面的优势,这也是大模型创业者要去PK的,谁能跑在前面就是取得了先发优势,对于获得成功至关重要。”CSDN 创始人蒋涛认为。

谁能笑到最后?

对于国内大模型目前的竞争格局,《深网》接触到的投资人、创业者、科学家,都认为目前整个领域仍在跑马圈地阶段,看不出来谁会成为胜出者。不过大家一致的观点是:2024年或许会有大模型公司跑出来,目前所有的人都在抢时间。

李开复、王慧文,王小川等互联网老兵,互联网大厂的中高层,再加上一些学院派的科学家,还有大厂,纷纷加入这波大模型创业浪潮。他们中一类做自研大模型,一类做垂直大模型。

Meta 的 LLama2 大模型开源、放开商业化之后,意味着大模型应用进入了“免费时代”,初创公司也能够以低廉的价格来创建类似ChatGPT这样的聊天机器人。

国内现在的机会其实是跟Llama在同一起跑线上,目前国内这些做通用大模型的企业,预计90%的企业会倾向基于开源大模型进行发展。

王小川表示,未来开源和闭源会像苹果和安卓系统一样并行发展。大部分服务会依赖开源模型,而闭源会提供特定的增值服务。开源模型提供80%,最后靠闭源提供剩下20%服务。

猎豹移动创始人、董事长傅盛就在社交媒体上公开表示:“大模型不再高不可攀,平民化大模型时代已经到来!像我们这样的公司会笑醒在深夜。”

以制作数字虚拟人的中科深智为例,成维忠在2023年春节前后开启了大模型训练,5个月后中科智深发布了20亿参数级别的大语言模型“数智姜尚”。这是他们租用了2000张英伟达A100显卡做出来的产品。

“对大多数企业来说,更明智的做法是基于比较好的开源模型去做训练。即便我有了‘数智姜尚’,我觉得到了某一个节点,有了特别好的开源大模型,我们会把我们的训练工作平移到一个开源大模型上。站在人家的肩膀上,进步会更快。”

成维忠阐述,“如果Llama2是一条高速路,我们现在做的工作就是修一条路,让它可以连接上高速公路。”

“随着开源大模型的发展和行业数字化升级,开发者的数量将呈现倍增趋势,而企业基于私有数据的应用需求也将得到井喷释放。我们也将会迎来人人都是开发者、行行知识炼模型、软件工具全重构、智能应用百千万的智能新时代。”CSDN 创始人蒋涛表示。

对于这新一波AI技术浪潮的来临,创业公司都在奋力前行,先修好小路,以便未来更好的连接上高速路,而成熟开源的大模型生态就是那条高速路。

关键词: