《科创板日报》7月7日讯(记者 黄心怡),在2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测,这意味着通义大模型首次开放了文生图功能,在过去纯语言处理的基础上,增加了多模态能力。
此前,国内仅有百度文心一言、360智脑等少数几家企业开放了AI作图功能。
《科创板日报》记者第一时间拿到了通义万相的内测码。从官网来看,目前已上线文生图、相似图像生成、图像风格迁移三种功能。
【资料图】
在基础文生图功能中,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像。
由于对中文词汇理解的不足,AI作画曾一度闹出过不少笑话。《科创板日报》记者在通义万相网站,对这些容易出错的AI作图进行了测试。
提问:画一个红烧狮子头
提问:画一个胸有成竹的男人
提问:画一幅画,妈妈抱着宝宝、宝宝在哭泣,宝宝6个月左右
相比文心一言,通义万相一次能给出四张图片。除了第一张图的“妈妈”明显出错,其他三张还算符合要求。
提问:画一张车水马龙的图
提问:生成一张云计算的配图
通义万相理解了“云计算”这一科技词汇的含义。此前的测试中,360智脑对于云计算图片的生成曾出现过错误。
360智脑此前生成的云计算图片
接着,《科创板日报》记者让通义万相生成一张“小狗在草地上奔跑”,并生成油画、卡通等不同风格。
油画
3D卡通
在相似图片生成功能中,用户上传任意图片后,可生成内容、风格相似的AI画作。
记者上传了一张风景照,尝试让通义万相生成相似的图像。
在会后的采访中,阿里云智能集团首席技术官周靖人表示,“生成图片的细节是不是能够更加地逼真,更加地注重到很多细微差别,甚至对于模型的语义的理解,也是极为重要的。我们不仅解决这个方面的问题,甚至支持多语言,英文、中文等都是可以能够对应理解相关语义,生成相应的图片。”
《科创板日报》记者输入英文来生成图片
谈及后续的产品规划时,周靖人称,整个产品还不断地迭代,不单通过语义生成图片,更重要的是能够控制怎么生成图片,这也是接下来要提供的重要能力。
降低模型服务的成本也是阿里云较为关注的方向。
“我们在帮助模型的提供商不断降低模型服务的成本,包括怎么做模型量化,服务的时候是不是可以有大小模型的协同,甚至模型服务的新架构等等。今后几个月大家会听到新技术的发布,把模型服务的成本降低。”
对于国内外大模型的差距,周靖人坦言,仍需要奋头直追。
“我们看到的业界情况,各种创业公司的模型,其实离OpenAI等顶级模型之间依然存在一些差距。这个竞争不仅仅是模型、算法,还包括背后云的能力、数据体系的能力,还有逻辑思维相关一系列能力的不断迭代和发展。在这个阶段,我们还有长足的距离需要去追赶。
周靖人进一步补充道,“大模型领域你追我赶的过程刚刚开始,大家还是要有一些耐心,整个技术的发展需要时间。我们对整个行业还是非常期待,但真正要做到全球领先,还需要很多的工作,不断地尝试和努力。”
(科创板日报记者 黄心怡)
关键词: