布局多模态大模型：清华系团队完成近亿元天使轮融资，蚂蚁领投-环球时快讯

·生数科技成立于2023年3月，核心成员主要来自清华大学人工智能学院，是国内最早布局多模态通用大模型的团队之一。本轮融资由蚂蚁集团领投，百度风投、卓源资本跟投，目前估值1亿美元。

(资料图)

国内多模态大模型发展出现新动向。6月19日，由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资。

澎湃科技（www.thepaper.cn）了解到，这家名为北京生数科技有限公司（以下简称“生数科技”）的多模态大模型创业公司宣布完成近亿元人民币的天使轮融资。由蚂蚁集团领投，百度风投、卓源资本跟投，目前估值1亿美元。本轮融资后续将主要用于核心研发团队的建设，加速多模态大模型和应用产品的研发。

多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。此前，OpenAI联合创始人伊尔亚·苏茨克维（Ilya Sutskever）曾表示，“人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念，从而更好地理解世界”。

生数科技模型支持的图像生成。

生数科技成立于2023年3月，由北京瑞莱智慧科技有限公司、蚂蚁集团和百度风投联合孵化成立，前瑞莱智慧副总裁、毕业于清华大学计算机系的唐家渝出任首席执行官，致力于打造可控的多模态通用大模型。据悉，这是ChatGPT火热后，蚂蚁集团第一次下场投资大模型公司，也是朱军在瑞莱智慧后的第二次创业。瑞莱智慧是一家人工智能基础设施和解决方案的提供商。

生数科技的团队核心成员来自清华大学人工智能研究院，主要是朱军带领的课题组。该课题组致力于贝叶斯机器学习的基础理论和高效算法研究，是国际上最早研究深度概率生成模型的团队之一。2022年1月，该团队提出的无训练推理框架Analytic-DPM被OpenAI应用于DALL·E 2模型处理策略中，此后提出采样算法DPM-Solver，现作为全球最快图像生成算法被Stable Diffusion等大量开源项目所采用。

修改视频中画面元素（提示语: a Swarovski crystal swan is swimming in a river），最左原视频、中间生数科技效果、最右Runway效果。

据介绍，生数科技是国内最早布局多模态通用大模型的团队之一，其于2023年初开源了全球首个基于Transformer的多模态扩散大模型UniDiffuser，首次实现基于一个底层模型高质量地完成图生文、图文联合生成、图文改写等多种生成任务。

Transformer模型于2017年由谷歌的一个团队推出，是一种深度学习模型，可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理（NLP）与计算机视觉（CV）领域。GPT等目前主要的大模型均基于Transformer开发。

“整体来看，目前业内做图像生成大模型的思路是一样的，都是基于扩散模型。我们的创新之处在于修改了底层的主网络，首个把Transformer用在Diffusion Model技术里面实现多模态。”唐家渝近日在接受媒体采访时说。

唐家渝认为，现阶段市面上的模型和产品仅仅解决了初级阶段的可生成性问题，但生成的结果仍有很大的不确定性和不可控性，模型对用户意图的把握、精确细节的控制仍存在很大不足，比如难以对生成的图像画面中元素的位置、细节做到准确的控制，生成的3D模型在表面精细度、色彩光影的准确性方面仍处于较低水平。

3D内容生成（提示语：a DSLR photo of a blue jay standing on a large basket of rainbow macarons）。

生数科技向澎湃科技介绍，其在3D内容生成方面，研发了业内首个基于三视图自动生成3D内容的技术，以及无需任何3D训练数据的文生3D内容技术，效果方面可以做到细节精细化，能够接近产业级应用，“所训练的大模型在图像生成方面已超过Stable Diffusion最新版基础模型水平，预计将于年内赶超Midjourney最新版本。”

Stable Diffusion是由初创公司StabilityAI、CompVis与Runway合作开发的文本到图像生成模型，于2022年发布，现已开源。Midjourney是一款2022年3月面世的文本到图像生成工具，经历多个迭代，进入公开测试阶段，其逼真效果引发中文网络热议。Stable Diffusion和Midjourney都是目前全球范围内行业领先、评价很高的AI工具。

关键词：