电厂｜「千模大战」中的讯飞星火大模型，走出榜单奔向产业

作者商迪安

(资料图片)

8月15日，中国大模型第一梯队代表的科大讯飞在国内大模型法规生效当天，召开了新品发布会。

科大讯飞不仅是前 AI 时代的中的最快推动应用落地的那批厂商，在大模型时代真正到来之后，科大讯飞也保持了如同创业公司一般的快速迭代步伐，在 AI 浪潮稍稍降温的八月，靠着升级之后的科大讯飞星火认知大模型，给大模型能力以及可能的应用场景增添了一些新的想象。

即使科大讯飞在大模型研究中有着先发以及模型参数上的明显优势，但大模型赛道急剧变得拥挤也是不争的事实：据不完全统计显示，截至到今年 7 月，国内已经有超过 110 款大模型产品发布，其中 10 亿级参数以上的大模型就超 80 个。

从半年之前最初的寥寥数家，到如今上百个拥挤在各个 AI 大模型能力榜单/评价基准列表中的大模型，中文大模型「千模大战」的前景，已经是即将到来的未来。

监管也随之快速入场：2023 年 7 月，国家互联网信息办公室同国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局发布了《生成式人工智能服务管理暂行办法》。

这份《暂行办法》，已于 2023 年 8 月 15 日正式生效实施，标志着生成式大模型产业也将在技术研发、产业应用等领域进入规范化阶段。提高了只是为了「炫技」的厂商入局提供大模型服务的门槛，却也在很多应用场景中通过制定更加完善的条例，来降低大模型企业在 AI 技术落地发展过程中的试错成本。

在很多人对于讯飞星火大模型的认知，还停留在五月「中文通用大模型综合性评测基准SpuerCLUE 排名第一」的时候，科大讯飞已经开始奔向目标中的下一步：《暂行办法》施行同天，科大讯飞还召开了发布会，正式发布了星火认知大模型 2.0 以及代码生成能力。

这个时间节点并非巧合：科大讯飞的星火认知大模型于今年 5 月 6 日首次发布。公布了 6 月 9 日、8 月 15 日、 10 月24 日三个具体的升级节点。其中8 月 15 日的升级，则是将重点聚焦在代码能力和多模态交互方面进行突破。下一个升级时间的 10 月 24 日，旨在将通用模型的表现与 ChatGPT 进行全面对标竞争（中文方面超越，英文方面相当）。

而在 HumanEval 测试集中，星火认知大模型 2.0 在Python语言的效果评分达到了61分。相较于星火认知大模型1.5，在代码生成、代码补齐、代码纠错、代码解释、单元测试生成等五个代码能力维度上，取得了最高28%的单项能力增长。此外，在代码生成和代码补齐两项上，星火认知大模型 2.0 已经展现出超越 ChatGPT 的能力。

今年，研发团队将对标ChatGPT，对认知大模型进行三轮升级，包括突破开放式问答，升级多轮对话能力、数学能力、代码能力等。

同时，科大讯飞还同场还推出了应用级产品 —— 智能编程助手iFlyCode1.0。根据讯飞内部研发效能平台，对超过2000 名员工在一个月内使用iFlyCode1.0的成效数据统计，现有大模型写出的代码采纳率达到30%，编码效率提高了30%，综合效率提升了15%。

「基本功」最重要

在大模型发展热潮已经开始半年之后，逐渐有越来越多的人意识到：如果没有足够的基本功作为技术支撑。无法在应用领域复制 ChatGPT 以点击面、喷薄而出的成功，也就很容易陷入当前 AI 发展思维定式的窠臼。

如何跑在所有竞争对手之前，找到更多大模型能力的落脚点，是悬在每一个大模型厂商头上的达摩克利斯之剑；正如OpenAI 靠的不是 PPT，而是 ChatGPT 颠覆性的生成式对话能力开启新时代一样，最基本的场景却最考验大模型能力的「基本功」。

此前在五月，科大讯飞董事长刘庆峰在接受记者采访时曾表示，目前认知大模型技术还有待攻克的缺陷，比如新知识难以及时更新，事实类问答容易“张冠李戴”，史实、传统典籍容易“编造情节”等问题。

这几乎是所有大模型对话机器人产品都要面对的顶级难题，解决这个问题的复杂程度从《生成式人工智能服务管理办法》目前施行的版本中，删除了此前《征求意见稿》中第4条要求“生成内容真实准确，采取措施防止生成虚假信息”的改动中可见一斑。

但对于科大讯飞研发团队而言，要完成此前定下的「对标 ChatGPT」的目标，就必须要改进这些生成式对话机器人的固有缺陷，才能在生成式对话更多可能的应用场景中取得真正的突破。

在最初版本发布的三个月之后，星火大模型带来了 2.0 版本的大升级：在 6 月 9 日发布的 1.5 版本的基础上，2.0 版本的代码能力和多模态能力分别有新的跨越，这不仅是科大讯飞在大模型基础能力上的提升，在教育、办公等领域，进一步的商业落地成果——星火语伴2.0、星火教师助手以及AI学习机“AI创意画板”和“AI编程”新功能都一道发布。

在发布会现场，科大讯飞的副总裁兼研究院院长刘聪，通过语音提出了一个希望用Python语言开发基于单摄像头的凌空手写功能的需求。iFlyCode 1.0立即给出了开发的流程建议，针对每个步骤提供了现成的代码包，并对已有的代码进行了解释和改写。

在发布会上，刘聪几乎没有亲自编写代码的情况下，仅用了约10分钟就完成了这个功能的开发，并且成功地将其运行起来。

应用场景见成效

“要能够在看得见摸得着的场景上，能够产生实实在在的应用价值，能够用统计数据来证明应用成效。” 科大讯飞董事长刘庆峰此前曾表示，科大讯飞拥有自主研发的大模型训练平台，其优势在于能够设计闭环式的训练和数据流程，实现大模型的一体化训练和推理，兼容大规模异构算力，并支持易于拓展的混合云架构。

借助经过迭代优化的大型模型技术，讯飞医疗已经全面升级其医疗诊后康复管理平台，使得专业的诊后管理和康复指导能够延伸至医院之外。通过自动分析患者的健康情况，该平台能够智能地生成个性化的康复计划，涵盖重点关注事项、用药指导、康复运动、出院后的随访计划、健康知识传递、患者咨询等内容，并鼓励患者按照计划进行执行。

目前，该平台已与北京协和医院、四川华西医院、武汉同济医院等多家医疗机构展开紧密合作，在诊后康复管理领域取得了显著进展，覆盖了20多个科室的主要疾病类别。

与此同时，科大讯飞还与华为合作，基于昇腾 AI 基础软硬件的高算力 AI 芯片、高性能算子库、多卡高速互联、分布式存储等产品，合作打造面向超大规模大模型的本土算力训练集群，形成集群化的产业协同优势。

此次发布会，科大讯飞还联合华为，发布了星火一体机，从而方便更多公司更安全可控地私有化部署大模型。同时科大讯飞正在追逐的新目标：明年上半年，发布足以对标 GPT-4 的生成式对话机器人产品。

事实上，科大讯飞的 AI 发展历程中，从不缺乏在实际产品中落地的尝试：从讯飞输入法到此前的各种硬件开发经历，都给 AI 时代中科大讯飞大模型能力的快速落地生根打下了基础。

奔向产业

在科大讯飞星火大模型发布后的100天以来，科大讯飞的人工智能开放平台在这100天中新增了70万的开发者团队，每天有7000个开发者团队加入到这个生态中。在科大讯飞的架构之上，构建自己的应用。

再眼花缭乱的炫技，终有江郎才尽观众散去的时刻。只有做好大模型底层的「基本功」，才能在榜单之外，持续产出足以在应用层面打动用户的大模型产品，在一个快速成长并完善的市场中立于不败之地。

关键词：