阿里云通义大模型家族迎新！财联社、《科创板日报》记者实测体验AI绘画能力｜直击WAIC

《科创板日报》7月7日讯（记者黄心怡），在2023世界人工智能大会上，阿里云宣布AI绘画创作大模型通义万相开启定向邀测，这意味着通义大模型首次开放了文生图功能，在过去纯语言处理的基础上，增加了多模态能力。

此前，国内仅有百度文心一言、360智脑等少数几家企业开放了AI作图功能。

《科创板日报》记者第一时间拿到了通义万相的内测码。从官网来看，目前已上线文生图、相似图像生成、图像风格迁移三种功能。

【资料图】

在基础文生图功能中，可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像。

由于对中文词汇理解的不足，AI作画曾一度闹出过不少笑话。《科创板日报》记者在通义万相网站，对这些容易出错的AI作图进行了测试。

提问：画一个红烧狮子头

提问：画一个胸有成竹的男人

提问：画一幅画，妈妈抱着宝宝、宝宝在哭泣，宝宝6个月左右

相比文心一言，通义万相一次能给出四张图片。除了第一张图的“妈妈”明显出错，其他三张还算符合要求。

提问：画一张车水马龙的图

提问：生成一张云计算的配图

通义万相理解了“云计算”这一科技词汇的含义。此前的测试中，360智脑对于云计算图片的生成曾出现过错误。

360智脑此前生成的云计算图片

接着，《科创板日报》记者让通义万相生成一张“小狗在草地上奔跑”，并生成油画、卡通等不同风格。

油画

3D卡通

在相似图片生成功能中，用户上传任意图片后，可生成内容、风格相似的AI画作。

记者上传了一张风景照，尝试让通义万相生成相似的图像。

在会后的采访中，阿里云智能集团首席技术官周靖人表示，“生成图片的细节是不是能够更加地逼真，更加地注重到很多细微差别，甚至对于模型的语义的理解，也是极为重要的。我们不仅解决这个方面的问题，甚至支持多语言，英文、中文等都是可以能够对应理解相关语义，生成相应的图片。”

《科创板日报》记者输入英文来生成图片

谈及后续的产品规划时，周靖人称，整个产品还不断地迭代，不单通过语义生成图片，更重要的是能够控制怎么生成图片，这也是接下来要提供的重要能力。

降低模型服务的成本也是阿里云较为关注的方向。

“我们在帮助模型的提供商不断降低模型服务的成本，包括怎么做模型量化，服务的时候是不是可以有大小模型的协同，甚至模型服务的新架构等等。今后几个月大家会听到新技术的发布，把模型服务的成本降低。”

对于国内外大模型的差距，周靖人坦言，仍需要奋头直追。

“我们看到的业界情况，各种创业公司的模型，其实离OpenAI等顶级模型之间依然存在一些差距。这个竞争不仅仅是模型、算法，还包括背后云的能力、数据体系的能力，还有逻辑思维相关一系列能力的不断迭代和发展。在这个阶段，我们还有长足的距离需要去追赶。

周靖人进一步补充道，“大模型领域你追我赶的过程刚刚开始，大家还是要有一些耐心，整个技术的发展需要时间。我们对整个行业还是非常期待，但真正要做到全球领先，还需要很多的工作，不断地尝试和努力。”

（科创板日报记者黄心怡）

关键词：